വീഡിയോ ഗെയിമുകളുടെ ഏറ്റവും വലിയ ആകർഷണം നമ്മുടെ ഉടനടി യാഥാർത്ഥ്യത്തിൽ നിന്ന് വളരെ അകലെയുള്ള ഒരു ലോകത്തിന്റെ ഒളിച്ചോട്ടം അല്ലെങ്കിൽ ഫാന്റസിയാണ്. ഇപ്പോൾ, നിങ്ങളുടെ സ്വന്തം ലോകം സൃഷ്ടിക്കാനുള്ള കഴിവ് നിങ്ങൾക്ക് ലഭിക്കുമോ എന്ന് സങ്കൽപ്പിക്കുക. ഗൂഗിൾ ഡീപ്മൈൻഡിലെ ഗവേഷകർ ഉയർന്ന ഒക്ടേൻ ഗെയിമുകളിൽ കാണപ്പെടുന്ന വിചിത്രമായ ലാൻഡ്സ്കേപ്പുകൾക്ക് സമാനമായി നിങ്ങളുടെ സ്വന്തം സാങ്കൽപ്പിക ലോകം സൃഷ്ടിക്കാൻ നിങ്ങളെ പ്രാപ്തമാക്കുന്ന എന്തെങ്കിലും കൊണ്ടുവന്നിട്ടുണ്ട്.
ഒരു ടെക്സ്റ്റ് അല്ലെങ്കിൽ ഇമേജ് പ്രോംപ്റ്റിൽ നിന്ന് സംവേദനാത്മക വീഡിയോ ഗെയിമുകൾ സൃഷ്ടിക്കാൻ കഴിയുന്ന ഒരു പുതിയ മോഡലായ ജീനി ഗൂഗിൾ ഡീപ് മൈൻഡ് അവതരിപ്പിച്ചു. അതും ഗെയിം മെക്കാനിക്സിൽ മുൻകൂർ പരിശീലനമില്ലാതെ (അവ അടിസ്ഥാനപരമായി ഒരു ഗെയിം നിർമ്മിക്കുന്ന നിയമങ്ങൾ, ഘടകങ്ങൾ, പ്രക്രിയകൾ എന്നിവയാണ്).
എന്താണ് ജീനി?
ഔദ്യോഗിക ഗൂഗിൾ ഡീപ് മൈൻഡ് ബ്ലോഗ് പോസ്റ്റ് അനുസരിച്ച്, ഇന്റർനെറ്റിൽ നിന്ന് ലഭിക്കുന്ന വീഡിയോകളിൽ പരിശീലനം നേടിയ ഒരു ഫൗണ്ടേഷൻ വേൾഡ് മോഡലാണ് ജീനി. ഈ മോഡലിന് “സിന്തറ്റിക് ഇമേജുകൾ, ഫോട്ടോഗ്രാഫുകൾ, രേഖാചിത്രങ്ങൾ എന്നിവയിൽ നിന്ന് അനന്തമായ വൈവിധ്യമാർന്ന (ആക്ഷൻ-നിയന്ത്രിക്കാൻ കഴിയുന്ന) ലോകങ്ങൾ സൃഷ്ടിക്കാൻ കഴിയും.”
‘ജീനി: ജനറേറ്റീവ് ഇന്ററാക്ടീവ് എൻവയോൺമെന്റ്സ്’ എന്ന ഗവേഷണ പ്രബന്ധം പറയുന്നത്, ലേബൽ ചെയ്യാത്ത ഇന്റർനെറ്റ് വീഡിയോകളിൽ നിന്ന് മേൽനോട്ടമില്ലാത്ത രീതിയിൽ പരിശീലനം നേടിയ ആദ്യത്തെ ജനറേറ്റീവ് ഇന്ററാക്ടീവ് എൻവയോൺമെന്റാണ് ജീനി. വലുപ്പത്തിന്റെ കാര്യത്തിൽ, ജീനി 11 ബി പാരാമീറ്ററുകളിൽ നിൽക്കുന്നു, അതിൽ ഒരു സ്പാറ്റിയോട്ടെംപോറൽ വീഡിയോ ടോക്കണൈസർ, ഒരു ഓട്ടോറിഗ്രസീവ് ഡൈനാമിക്സ് മോഡൽ, ലളിതവും സ്കെയിലബിൾ ഗൂഢവുമായ ആക്ഷൻ മോഡൽ എന്നിവ ഉൾപ്പെടുന്നു.
പരിശീലനം, ലേബലുകൾ അല്ലെങ്കിൽ മറ്റേതെങ്കിലും ഡൊമെയ്ൻ നിർദ്ദിഷ്ട ആവശ്യകതകളുടെ അഭാവത്തിൽ പോലും ഫ്രെയിം-ബൈ-ഫ്രെയിം അടിസ്ഥാനത്തിൽ ജനറേറ്റഡ് പരിതസ്ഥിതികളിൽ പ്രവർത്തിക്കാൻ ഈ സാങ്കേതിക സവിശേഷതകൾ ജീനിയെ അനുവദിക്കുന്നു.
ജീനി എന്താണ് ചെയ്യുന്നത്?
ഗവേഷണ പ്രബന്ധം അനുസരിച്ച്, ജെനി ഒരു പുതിയ തരം ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ആണ്, ഇത് ആരെയും – കുട്ടികളെ പോലും – സ്വപ്നം കാണാനും മനുഷ്യൻ രൂപകൽപ്പന ചെയ്ത സിമുലേറ്റഡ് പരിതസ്ഥിതികൾക്ക് സമാനമായ സൃഷ്ടിക്കപ്പെട്ട ലോകങ്ങളിലേക്ക് ചുവടുവയ്ക്കാനും പ്രാപ്തമാക്കുന്നു. വീഡിയോ മാത്രം ഡാറ്റയിൽ പരിശീലനം നേടിയിട്ടുണ്ടെങ്കിലും വൈവിധ്യമാർന്ന സംവേദനാത്മകവും നിയന്ത്രിക്കാവുന്നതുമായ പരിതസ്ഥിതികൾ സൃഷ്ടിക്കാൻ ജീനിയെ പ്രേരിപ്പിക്കാം.
ലളിതമായി പറഞ്ഞാൽ, ഭാഷ, ഇമേജുകൾ, വീഡിയോകൾ എന്നിവ ഉപയോഗിച്ച് ക്രിയേറ്റീവ് ഉള്ളടക്കം നിർമ്മിക്കുന്ന നിരവധി ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലുകൾ ഞങ്ങൾ കണ്ടു. ഒരൊറ്റ ഇമേജ് പ്രോംപ്റ്റിൽ നിന്ന് കളിക്കാവുന്ന അന്തരീക്ഷം സൃഷ്ടിക്കുന്നതിനാൽ ജീനി ഒരു വഴിത്തിരിവാണ്.
ഹാരി പോട്ടർ ആൻഡ് ദി ഫിലോസഫേഴ്സ് സ്റ്റോൺ എന്ന ചിത്രത്തിലെ ഹാരിയും സുഹൃത്തുക്കളും ഗ്രിഫിൻഡോർ കോമൺ റൂമിലേക്കുള്ള വഴിയിൽ ഹൊഗ് വാർട്ട്സ് കോട്ടയിൽ പ്രവേശിക്കുന്ന രംഗം ഓർമ്മിക്കാൻ ശ്രമിക്കുക. ഓരോ കഥാപാത്രവും അവരുടെ ഫ്രെയിമുകളിൽ വളരെ വിശദമായി ചലിക്കുന്നതിനാൽ ജീവിതത്തിലേക്ക് വരുന്ന പെയിന്റിംഗുകൾ നിറഞ്ഞ ഒരു ഭിത്തി യുവ വിദ്യാർത്ഥികൾ കാണുന്നു. ജീനി അടിസ്ഥാനപരമായി നിശ്ചല ബിംബങ്ങളെ ജീവിതത്തിലേക്ക് കൊണ്ടുവരുന്നു, അവയ്ക്ക് അവരുടേതായ ഒരു ലോകം നൽകുന്നു.
ഗൂഗിൾ ഡീപ് മൈൻഡ് പറയുന്നതനുസരിച്ച്, ജീനിയെ ഒരിക്കലും കണ്ടിട്ടില്ലാത്ത ചിത്രങ്ങൾ ഉപയോഗിച്ച് പ്രചോദിപ്പിക്കാൻ കഴിയും. യഥാർത്ഥ ലോക ഫോട്ടോഗ്രാഫുകൾ, രേഖാചിത്രങ്ങൾ, ആളുകളെ അവരുടെ ഭാവനാപരമായ വെർച്വൽ ലോകങ്ങളുമായി സംവദിക്കാൻ അനുവദിക്കുന്നത് എന്നിവ ഇതിൽ ഉൾപ്പെടുന്നു. ഇതിനെയാണ് ഫൗണ്ടേഷൻ വേൾഡ് മോഡൽ എന്ന് വിളിക്കുന്നത്. പരിശീലനത്തിന്റെ കാര്യം വരുമ്പോൾ, 2 ഡി പ്ലാറ്റ്ഫോമർ ഗെയിമുകളുടെയും റോബോട്ടിക്സിന്റെയും വീഡിയോകളിൽ അവർ കൂടുതൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നുവെന്ന് ഗവേഷണ പ്രബന്ധം എടുത്തുകാണിക്കുന്നു. ജീനിയെ ഒരു പൊതു രീതിയിൽ പരിശീലിപ്പിക്കുന്നു, ഇത് ഏത് തരത്തിലുള്ള ഡൊമെയ്നിലും പ്രവർത്തിക്കാൻ അനുവദിക്കുന്നു, മാത്രമല്ല ഇത് കൂടുതൽ വലിയ ഇന്റർനെറ്റ് ഡാറ്റാസെറ്റുകളിലേക്ക് സ്കെയിലബിൾ ആണ്.
ഇത് പ്രധാനമായിരിക്കുന്നത് എന്തുകൊണ്ട്?
ഇന്റർനെറ്റ് വീഡിയോകളിൽ നിന്ന് മാത്രമായി ഇൻ-ഗെയിം കഥാപാത്രങ്ങൾക്കായി നിയന്ത്രണങ്ങൾ പഠിക്കാനും പുനർനിർമ്മിക്കാനും ഉള്ള കഴിവാണ് ജീനിയുടെ ശ്രദ്ധേയമായ വശം. ഇത് ശ്രദ്ധേയമാണ്, കാരണം ഇന്റർനെറ്റ് വീഡിയോകളിൽ വീഡിയോയിൽ നിർവഹിക്കുന്ന പ്രവർത്തനത്തെക്കുറിച്ചോ ചിത്രത്തിന്റെ ഏത് ഭാഗമാണ് നിയന്ത്രിക്കേണ്ടതെന്നതിനെക്കുറിച്ചോ ലേബലുകൾ ഇല്ല.
“ഒരു നിരീക്ഷണത്തിന്റെ ഏതൊക്കെ ഭാഗങ്ങൾ പൊതുവെ നിയന്ത്രിക്കാൻ കഴിയുമെന്ന് ജീനി മനസ്സിലാക്കുന്നു, മാത്രമല്ല സൃഷ്ടിക്കപ്പെടുന്ന പരിതസ്ഥിതികളിലുടനീളം സ്ഥിരതയുള്ള വൈവിധ്യമാർന്ന മറഞ്ഞിരിക്കുന്ന പ്രവർത്തനങ്ങളും അനുമാനിക്കുന്നു. ഒരേ ഒളിഞ്ഞിരിക്കുന്ന പ്രവർത്തനങ്ങൾ വ്യത്യസ്ത പ്രോംപ്റ്റ് ഇമേജുകളിലുടനീളം സമാനമായ പെരുമാറ്റങ്ങൾ നൽകുന്നത് എങ്ങനെയെന്ന് ഇവിടെ ശ്രദ്ധിക്കുക, “ബ്ലോഗ് പോസ്റ്റിൽ പറയുന്നു.
ഗൂഗിൾ ഡീപ് മൈൻഡ് പറയുന്നതനുസരിച്ച്, ഈ മോഡലിന്റെ ഏറ്റവും വ്യത്യസ്തമായ വശം ഒരൊറ്റ ഇമേജിൽ നിന്ന് ഒരു പുതിയ സംവേദനാത്മക അന്തരീക്ഷം സൃഷ്ടിക്കാൻ നിങ്ങളെ അനുവദിക്കുന്നു എന്നതാണ്. ഇത് നിരവധി സാധ്യതകൾ തുറക്കുന്നു, പ്രത്യേകിച്ചും വെർച്വൽ ലോകങ്ങൾ സൃഷ്ടിക്കുന്നതിനും കാലുകുത്തുന്നതിനുമുള്ള പുതിയ വഴികൾ. ഇത് തെളിയിക്കാൻ, ഗവേഷകർ ടെക്സ്റ്റ്-ടു-ഇമേജ് മോഡൽ ഇമേജൻ 2 ഉപയോഗിച്ച് ഒരു ഇൻ ഇമേജ് സൃഷ്ടിച്ചു, തുടർന്ന് വെർച്വൽ ലോകങ്ങൾ സൃഷ്ടിക്കുന്നതിനുള്ള പ്രോംപ്റ്റായി ഇത് ഉപയോഗിച്ചു. രേഖാചിത്രങ്ങളുടെ കാര്യത്തിലും ഇത് ചെയ്യാൻ കഴിയും.
ജീനി ഉപയോഗിച്ച്, ആർക്കും അവരുടെ പൂർണ്ണമായും സങ്കൽപ്പിക്കപ്പെട്ട വെർച്വൽ ലോകങ്ങൾ സൃഷ്ടിക്കാൻ കഴിയും. കൂടാതെ, പുതിയ ലോക മോഡലുകൾ പഠിക്കാനും വികസിപ്പിക്കാനുമുള്ള മോഡലിന്റെ കഴിവ് പൊതു ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ഏജന്റുമാരിലേക്ക് (സെൻസറുകൾ വഴി ചുറ്റുപാടുകൾ മനസ്സിലാക്കിക്കൊണ്ട് അതിന്റെ ചുറ്റുപാടുകളുമായി ഇടപഴകുന്ന ഒരു സ്വതന്ത്ര പ്രോഗ്രാം അല്ലെങ്കിൽ എന്റിറ്റി) ഗണ്യമായ കുതിച്ചുചാട്ടത്തെ സൂചിപ്പിക്കുന്നു.
