ഗൂഗിളിന്റെ ഏറ്റവും പുതിയ ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലായ ലൂമിയറിന് ഹ്രസ്വവും എന്നാൽ തികച്ചും യാഥാർത്ഥ്യബോധമുള്ളതുമായ വീഡിയോ ക്ലിപ്പുകൾ സൃഷ്ടിക്കാൻ കഴിയും – Nirmitha Budhi | നിർമിത ബുദ്ധി

ഇമേജ് ജനറേഷൻ സാങ്കേതികവിദ്യ സമീപ വർഷങ്ങളിൽ അതിവേഗം പുരോഗമിച്ചിട്ടുണ്ട്, എന്നിരുന്നാലും അനുയോജ്യമായ വീഡിയോ റെൻഡറിംഗ് കൈവരിക്കുന്നത് സമകാലിക ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലുകൾക്ക് ഒരു വെല്ലുവിളിയായി തുടരുന്നു. എന്നിരുന്നാലും, ഗൂഗിൾ അടുത്തിടെ ഈ മേഖലയിൽ ശ്രദ്ധേയമായ പുരോഗതി പ്രകടമാക്കി, വീഡിയോ ജനറേഷൻ മേഖലയിൽ ഗണ്യമായി മെച്ചപ്പെട്ട സാങ്കേതികവിദ്യ പ്രദർശിപ്പിച്ചു.

വീഡിയോ സൃഷ്ടിക്കുന്നതിനുള്ള കമ്പനിയുടെ ഏറ്റവും പുതിയ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലായ ലൂമിയർ ഗൂഗിൾ പുറത്തിറക്കി. “യാഥാർത്ഥ്യബോധമുള്ളതും വൈവിധ്യമാർന്നതും യുക്തിസഹവുമായ ചലനം” സൃഷ്ടിക്കുന്നത് എല്ലായ്പ്പോഴും ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് അധിഷ്ഠിത വീഡിയോ ജനറേഷന്റെ പ്രധാന വെല്ലുവിളികളിലൊന്നായതിനാൽ വീഡിയോ സമന്വയത്തിൽ ലൂമിയർ ഒരു പ്രധാന മെച്ചപ്പെടുത്തലാണെന്ന് ഗൂഗിൾ പറയുന്നു. ലൂമിയർ ഒരു സ്പേസ്-ടൈം ഡിഫ്യൂഷൻ മോഡൽ നൽകുന്നു, അത് ആ പ്രശ്നം പരിഹരിക്കാനോ പരിഹരിക്കാനോ കഴിയും.

ടെക്സ്റ്റ്-ടു-വീഡിയോ ജനറേഷൻ, ഇമേജ്-ടു-വീഡിയോ റെൻഡറിംഗ്, സ്റ്റൈലൈസ്ഡ് ജനറേഷൻ എന്നിവയ്ക്ക് ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ബിസിനസിലേക്കുള്ള മൗണ്ടൻ വ്യൂവിന്റെ ഏറ്റവും പുതിയ പ്രവേശനം പര്യാപ്തമാണ്. ഉപയോക്താക്കൾക്ക് ഒരു വാചക പ്രോംപ്റ്റ് എഴുതുന്നതിലൂടെയും ഒരു ഉറവിട ചിത്രം നൽകുന്നതിലൂടെയും (ആ ചിത്രം എത്ര ആധികാരികമോ യാഥാർത്ഥ്യബോധമുള്ളതോ എഡിറ്റുചെയ്തതോ ആകട്ടെ), അല്ലെങ്കിൽ ഒരു റഫറൻസ് ഇമേജ് ടാർഗെറ്റ് ശൈലിയായി ഉപയോഗിക്കുന്നതിലൂടെയും പൂർണ്ണമായും പുതിയ വീഡിയോ ക്ലിപ്പ് സൃഷ്ടിക്കാൻ കഴിയും.

ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലിലെ ഒരൊറ്റ പാസിലൂടെ മുഴുവൻ വീഡിയോ ക്ലിപ്പും ഒരേസമയം സൃഷ്ടിക്കുന്ന “സ്പേസ്-ടൈം യു-നെറ്റ് ആർക്കിടെക്ചർ” ലൂമിയർ ഉപയോഗിക്കുന്നു. ഒരേ വീഡിയോയ്ക്കായി വ്യത്യസ്ത കീഫ്രെയിമുകൾ സമന്വയിപ്പിക്കുന്ന നിലവിലുള്ള മോഡലുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ, ലൂമിയറിന്റെ സമീപനത്തിന് അത്യാധുനിക ടെക്സ്റ്റ്-ടു-വീഡിയോ ഫലങ്ങൾ നേടാൻ കഴിയും.

സോഴ്സ് വീഡിയോയെ വ്യത്യസ്ത മെറ്റീരിയലുകളാക്കി മാറ്റുന്ന വീഡിയോ സ്റ്റൈലൈസേഷൻ, സോഴ്സ് ഇമേജിൽ പരിമിതവും ഹൈലൈറ്റ് ചെയ്തതുമായ ഭാഗം ആനിമേറ്റ് ചെയ്യുന്നതിനുള്ള വഴി നൽകുന്ന സിനിമാഗ്രാഫുകൾ എന്നിവ ലൂമിയറിന്റെ അധിക കഴിവുകളിൽ ഉൾപ്പെടുന്നു. ഒരു പെൺകുട്ടിയുടെ വസ്ത്രത്തിന്റെ നിറങ്ങൾ, മെറ്റീരിയലുകൾ അല്ലെങ്കിൽ ടെക്സ്ചറുകൾ മാറ്റുന്നത് പോലുള്ള സോഴ്സ് വീഡിയോയുടെ ഒരൊറ്റ ഭാഗങ്ങൾ മാറ്റാൻ വീഡിയോ ഇൻപൈന്റിംഗ് ഫീച്ചറിന് കഴിയും.

ഔദ്യോഗിക പേപ്പറിൽ ഗൂഗിൾ എടുത്തുകാണിക്കുന്നതുപോലെ, 5 സെക്കൻഡിൽ കൂടുതൽ നീണ്ടുനിൽക്കുന്ന 1024×1024 വീഡിയോകൾ “ലോ-റെസല്യൂഷൻ” സൃഷ്ടിക്കാൻ ലൂമിയറിന് കഴിയും. മുമ്പത്തെ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് വീഡിയോ മോഡലുകൾക്ക് ദൈർഘ്യമേറിയ വീഡിയോകൾ സൃഷ്ടിക്കാൻ കഴിവുണ്ടായിരുന്നു, പക്ഷേ ഉപയോക്താക്കൾ നിലവിലുള്ള ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലുകളേക്കാൾ ലൂമിയറിന്റെ ഔട്ട്പുട്ട് ഇഷ്ടപ്പെടുന്നുവെന്ന് ഗൂഗിൾ അവകാശപ്പെടുന്നു. 30 ദശലക്ഷം വീഡിയോകളും അവയുടെ ടെക്സ്റ്റ് വിവരണങ്ങളും അടങ്ങിയ ഒരു ഡാറ്റാസെറ്റിൽ ലൂമിയർ പരിശീലനം നേടിയതായി മൗണ്ടൻ വ്യൂ പറയുന്നു, എന്നിരുന്നാലും ഉറവിടമായ 5 സെക്കൻഡ് വീഡിയോകളുടെ ഉത്ഭവം (അല്ലെങ്കിൽ പകർപ്പവകാശ നില) നിലവിൽ അജ്ഞാതമാണ്.

ഗൂഗിൾ ഗവേഷകരുടെ പ്രബന്ധം ലൂമിയർ പോലുള്ള വീഡിയോ ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സാങ്കേതികവിദ്യയുടെ “സാമൂഹിക സ്വാധീനം” എടുത്തുകാണിക്കുന്നു, പുതിയ സർഗ്ഗാത്മകവും വഴക്കമുള്ളതുമായ വഴികളിൽ വിഷ്വൽ ഉള്ളടക്കം സൃഷ്ടിക്കാൻ “പുതിയ ഉപയോക്താക്കളെ” പ്രാപ്തരാക്കുക എന്നതാണ് മോഡലിന്റെ പ്രാഥമിക ലക്ഷ്യം. എന്നിരുന്നാലും, വീഡിയോ ജനറേറ്റീവ് മോഡലുകളുടെ പക്ഷപാതവും “ദോഷകരമായ” ഉപയോഗ കേസുകളും കണ്ടെത്തുന്നതിനുള്ള പുതിയ ഉപകരണങ്ങൾ വികസിപ്പിക്കണം.