വിശദീകരിച്ചു: ഇമേജ് പ്രോംപ്റ്റുകളിൽ നിന്ന് വെർച്വൽ ലോകങ്ങൾ സൃഷ്ടിക്കുന്ന ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലായ ഗൂഗിൾ ഡീപ് മൈൻഡിന്റെ ജീനി

You are currently viewing വിശദീകരിച്ചു: ഇമേജ് പ്രോംപ്റ്റുകളിൽ നിന്ന് വെർച്വൽ ലോകങ്ങൾ സൃഷ്ടിക്കുന്ന ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലായ ഗൂഗിൾ ഡീപ് മൈൻഡിന്റെ ജീനി

വീഡിയോ ഗെയിമുകളുടെ ഏറ്റവും വലിയ ആകർഷണം നമ്മുടെ ഉടനടി യാഥാർത്ഥ്യത്തിൽ നിന്ന് വളരെ അകലെയുള്ള ഒരു ലോകത്തിന്റെ ഒളിച്ചോട്ടം അല്ലെങ്കിൽ ഫാന്റസിയാണ്. ഇപ്പോൾ, നിങ്ങളുടെ സ്വന്തം ലോകം സൃഷ്ടിക്കാനുള്ള കഴിവ് നിങ്ങൾക്ക് ലഭിക്കുമോ എന്ന് സങ്കൽപ്പിക്കുക. ഗൂഗിൾ ഡീപ്മൈൻഡിലെ ഗവേഷകർ ഉയർന്ന ഒക്ടേൻ ഗെയിമുകളിൽ കാണപ്പെടുന്ന വിചിത്രമായ ലാൻഡ്സ്കേപ്പുകൾക്ക് സമാനമായി നിങ്ങളുടെ സ്വന്തം സാങ്കൽപ്പിക ലോകം സൃഷ്ടിക്കാൻ നിങ്ങളെ പ്രാപ്തമാക്കുന്ന എന്തെങ്കിലും കൊണ്ടുവന്നിട്ടുണ്ട്.

ഒരു ടെക്സ്റ്റ് അല്ലെങ്കിൽ ഇമേജ് പ്രോംപ്റ്റിൽ നിന്ന് സംവേദനാത്മക വീഡിയോ ഗെയിമുകൾ സൃഷ്ടിക്കാൻ കഴിയുന്ന ഒരു പുതിയ മോഡലായ ജീനി ഗൂഗിൾ ഡീപ് മൈൻഡ് അവതരിപ്പിച്ചു. അതും ഗെയിം മെക്കാനിക്സിൽ മുൻകൂർ പരിശീലനമില്ലാതെ (അവ അടിസ്ഥാനപരമായി ഒരു ഗെയിം നിർമ്മിക്കുന്ന നിയമങ്ങൾ, ഘടകങ്ങൾ, പ്രക്രിയകൾ എന്നിവയാണ്).

എന്താണ് ജീനി?

ഔദ്യോഗിക ഗൂഗിൾ ഡീപ് മൈൻഡ് ബ്ലോഗ് പോസ്റ്റ് അനുസരിച്ച്, ഇന്റർനെറ്റിൽ നിന്ന് ലഭിക്കുന്ന വീഡിയോകളിൽ പരിശീലനം നേടിയ ഒരു ഫൗണ്ടേഷൻ വേൾഡ് മോഡലാണ് ജീനി. ഈ മോഡലിന് “സിന്തറ്റിക് ഇമേജുകൾ, ഫോട്ടോഗ്രാഫുകൾ, രേഖാചിത്രങ്ങൾ എന്നിവയിൽ നിന്ന് അനന്തമായ വൈവിധ്യമാർന്ന (ആക്ഷൻ-നിയന്ത്രിക്കാൻ കഴിയുന്ന) ലോകങ്ങൾ സൃഷ്ടിക്കാൻ കഴിയും.”

‘ജീനി: ജനറേറ്റീവ് ഇന്ററാക്ടീവ് എൻവയോൺമെന്റ്സ്’ എന്ന ഗവേഷണ പ്രബന്ധം പറയുന്നത്, ലേബൽ ചെയ്യാത്ത ഇന്റർനെറ്റ് വീഡിയോകളിൽ നിന്ന് മേൽനോട്ടമില്ലാത്ത രീതിയിൽ പരിശീലനം നേടിയ ആദ്യത്തെ ജനറേറ്റീവ് ഇന്ററാക്ടീവ് എൻവയോൺമെന്റാണ് ജീനി. വലുപ്പത്തിന്റെ കാര്യത്തിൽ, ജീനി 11 ബി പാരാമീറ്ററുകളിൽ നിൽക്കുന്നു, അതിൽ ഒരു സ്പാറ്റിയോട്ടെംപോറൽ വീഡിയോ ടോക്കണൈസർ, ഒരു ഓട്ടോറിഗ്രസീവ് ഡൈനാമിക്സ് മോഡൽ, ലളിതവും സ്കെയിലബിൾ ഗൂഢവുമായ ആക്ഷൻ മോഡൽ എന്നിവ ഉൾപ്പെടുന്നു.

പരിശീലനം, ലേബലുകൾ അല്ലെങ്കിൽ മറ്റേതെങ്കിലും ഡൊമെയ്ൻ നിർദ്ദിഷ്ട ആവശ്യകതകളുടെ അഭാവത്തിൽ പോലും ഫ്രെയിം-ബൈ-ഫ്രെയിം അടിസ്ഥാനത്തിൽ ജനറേറ്റഡ് പരിതസ്ഥിതികളിൽ പ്രവർത്തിക്കാൻ ഈ സാങ്കേതിക സവിശേഷതകൾ ജീനിയെ അനുവദിക്കുന്നു.

ജീനി എന്താണ് ചെയ്യുന്നത്?

ഗവേഷണ പ്രബന്ധം അനുസരിച്ച്, ജെനി ഒരു പുതിയ തരം ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ആണ്, ഇത് ആരെയും – കുട്ടികളെ പോലും – സ്വപ്നം കാണാനും മനുഷ്യൻ രൂപകൽപ്പന ചെയ്ത സിമുലേറ്റഡ് പരിതസ്ഥിതികൾക്ക് സമാനമായ സൃഷ്ടിക്കപ്പെട്ട ലോകങ്ങളിലേക്ക് ചുവടുവയ്ക്കാനും പ്രാപ്തമാക്കുന്നു. വീഡിയോ മാത്രം ഡാറ്റയിൽ പരിശീലനം നേടിയിട്ടുണ്ടെങ്കിലും വൈവിധ്യമാർന്ന സംവേദനാത്മകവും നിയന്ത്രിക്കാവുന്നതുമായ പരിതസ്ഥിതികൾ സൃഷ്ടിക്കാൻ ജീനിയെ പ്രേരിപ്പിക്കാം.

ലളിതമായി പറഞ്ഞാൽ, ഭാഷ, ഇമേജുകൾ, വീഡിയോകൾ എന്നിവ ഉപയോഗിച്ച് ക്രിയേറ്റീവ് ഉള്ളടക്കം നിർമ്മിക്കുന്ന നിരവധി ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലുകൾ ഞങ്ങൾ കണ്ടു. ഒരൊറ്റ ഇമേജ് പ്രോംപ്റ്റിൽ നിന്ന് കളിക്കാവുന്ന അന്തരീക്ഷം സൃഷ്ടിക്കുന്നതിനാൽ ജീനി ഒരു വഴിത്തിരിവാണ്.

ഹാരി പോട്ടർ ആൻഡ് ദി ഫിലോസഫേഴ്സ് സ്റ്റോൺ എന്ന ചിത്രത്തിലെ ഹാരിയും സുഹൃത്തുക്കളും ഗ്രിഫിൻഡോർ കോമൺ റൂമിലേക്കുള്ള വഴിയിൽ ഹൊഗ് വാർട്ട്സ് കോട്ടയിൽ പ്രവേശിക്കുന്ന രംഗം ഓർമ്മിക്കാൻ ശ്രമിക്കുക. ഓരോ കഥാപാത്രവും അവരുടെ ഫ്രെയിമുകളിൽ വളരെ വിശദമായി ചലിക്കുന്നതിനാൽ ജീവിതത്തിലേക്ക് വരുന്ന പെയിന്റിംഗുകൾ നിറഞ്ഞ ഒരു ഭിത്തി യുവ വിദ്യാർത്ഥികൾ കാണുന്നു. ജീനി അടിസ്ഥാനപരമായി നിശ്ചല ബിംബങ്ങളെ ജീവിതത്തിലേക്ക് കൊണ്ടുവരുന്നു, അവയ്ക്ക് അവരുടേതായ ഒരു ലോകം നൽകുന്നു.

ഗൂഗിൾ ഡീപ് മൈൻഡ് പറയുന്നതനുസരിച്ച്, ജീനിയെ ഒരിക്കലും കണ്ടിട്ടില്ലാത്ത ചിത്രങ്ങൾ ഉപയോഗിച്ച് പ്രചോദിപ്പിക്കാൻ കഴിയും. യഥാർത്ഥ ലോക ഫോട്ടോഗ്രാഫുകൾ, രേഖാചിത്രങ്ങൾ, ആളുകളെ അവരുടെ ഭാവനാപരമായ വെർച്വൽ ലോകങ്ങളുമായി സംവദിക്കാൻ അനുവദിക്കുന്നത് എന്നിവ ഇതിൽ ഉൾപ്പെടുന്നു. ഇതിനെയാണ് ഫൗണ്ടേഷൻ വേൾഡ് മോഡൽ എന്ന് വിളിക്കുന്നത്. പരിശീലനത്തിന്റെ കാര്യം വരുമ്പോൾ, 2 ഡി പ്ലാറ്റ്ഫോമർ ഗെയിമുകളുടെയും റോബോട്ടിക്സിന്റെയും വീഡിയോകളിൽ അവർ കൂടുതൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നുവെന്ന് ഗവേഷണ പ്രബന്ധം എടുത്തുകാണിക്കുന്നു. ജീനിയെ ഒരു പൊതു രീതിയിൽ പരിശീലിപ്പിക്കുന്നു, ഇത് ഏത് തരത്തിലുള്ള ഡൊമെയ്നിലും പ്രവർത്തിക്കാൻ അനുവദിക്കുന്നു, മാത്രമല്ല ഇത് കൂടുതൽ വലിയ ഇന്റർനെറ്റ് ഡാറ്റാസെറ്റുകളിലേക്ക് സ്കെയിലബിൾ ആണ്.

ഇത് പ്രധാനമായിരിക്കുന്നത് എന്തുകൊണ്ട്?

ഇന്റർനെറ്റ് വീഡിയോകളിൽ നിന്ന് മാത്രമായി ഇൻ-ഗെയിം കഥാപാത്രങ്ങൾക്കായി നിയന്ത്രണങ്ങൾ പഠിക്കാനും പുനർനിർമ്മിക്കാനും ഉള്ള കഴിവാണ് ജീനിയുടെ ശ്രദ്ധേയമായ വശം. ഇത് ശ്രദ്ധേയമാണ്, കാരണം ഇന്റർനെറ്റ് വീഡിയോകളിൽ വീഡിയോയിൽ നിർവഹിക്കുന്ന പ്രവർത്തനത്തെക്കുറിച്ചോ ചിത്രത്തിന്റെ ഏത് ഭാഗമാണ് നിയന്ത്രിക്കേണ്ടതെന്നതിനെക്കുറിച്ചോ ലേബലുകൾ ഇല്ല.

“ഒരു നിരീക്ഷണത്തിന്റെ ഏതൊക്കെ ഭാഗങ്ങൾ പൊതുവെ നിയന്ത്രിക്കാൻ കഴിയുമെന്ന് ജീനി മനസ്സിലാക്കുന്നു, മാത്രമല്ല സൃഷ്ടിക്കപ്പെടുന്ന പരിതസ്ഥിതികളിലുടനീളം സ്ഥിരതയുള്ള വൈവിധ്യമാർന്ന മറഞ്ഞിരിക്കുന്ന പ്രവർത്തനങ്ങളും അനുമാനിക്കുന്നു. ഒരേ ഒളിഞ്ഞിരിക്കുന്ന പ്രവർത്തനങ്ങൾ വ്യത്യസ്ത പ്രോംപ്റ്റ് ഇമേജുകളിലുടനീളം സമാനമായ പെരുമാറ്റങ്ങൾ നൽകുന്നത് എങ്ങനെയെന്ന് ഇവിടെ ശ്രദ്ധിക്കുക, “ബ്ലോഗ് പോസ്റ്റിൽ പറയുന്നു.

ഗൂഗിൾ ഡീപ് മൈൻഡ് പറയുന്നതനുസരിച്ച്, ഈ മോഡലിന്റെ ഏറ്റവും വ്യത്യസ്തമായ വശം ഒരൊറ്റ ഇമേജിൽ നിന്ന് ഒരു പുതിയ സംവേദനാത്മക അന്തരീക്ഷം സൃഷ്ടിക്കാൻ നിങ്ങളെ അനുവദിക്കുന്നു എന്നതാണ്. ഇത് നിരവധി സാധ്യതകൾ തുറക്കുന്നു, പ്രത്യേകിച്ചും വെർച്വൽ ലോകങ്ങൾ സൃഷ്ടിക്കുന്നതിനും കാലുകുത്തുന്നതിനുമുള്ള പുതിയ വഴികൾ. ഇത് തെളിയിക്കാൻ, ഗവേഷകർ ടെക്സ്റ്റ്-ടു-ഇമേജ് മോഡൽ ഇമേജൻ 2 ഉപയോഗിച്ച് ഒരു ഇൻ ഇമേജ് സൃഷ്ടിച്ചു, തുടർന്ന് വെർച്വൽ ലോകങ്ങൾ സൃഷ്ടിക്കുന്നതിനുള്ള പ്രോംപ്റ്റായി ഇത് ഉപയോഗിച്ചു. രേഖാചിത്രങ്ങളുടെ കാര്യത്തിലും ഇത് ചെയ്യാൻ കഴിയും.

ജീനി ഉപയോഗിച്ച്, ആർക്കും അവരുടെ പൂർണ്ണമായും സങ്കൽപ്പിക്കപ്പെട്ട വെർച്വൽ ലോകങ്ങൾ സൃഷ്ടിക്കാൻ കഴിയും. കൂടാതെ, പുതിയ ലോക മോഡലുകൾ പഠിക്കാനും വികസിപ്പിക്കാനുമുള്ള മോഡലിന്റെ കഴിവ് പൊതു ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ഏജന്റുമാരിലേക്ക് (സെൻസറുകൾ വഴി ചുറ്റുപാടുകൾ മനസ്സിലാക്കിക്കൊണ്ട് അതിന്റെ ചുറ്റുപാടുകളുമായി ഇടപഴകുന്ന ഒരു സ്വതന്ത്ര പ്രോഗ്രാം അല്ലെങ്കിൽ എന്റിറ്റി) ഗണ്യമായ കുതിച്ചുചാട്ടത്തെ സൂചിപ്പിക്കുന്നു.

Dr Bibin

Experienced Researcher with a demonstrated history of working in the Deep Learning, Computer Vision

Leave a Reply