മൾട്ടിമോഡൽ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് എന്താണ്, ഇത് പ്രധാനമായിരിക്കുന്നത് എന്തുകൊണ്ട്?

You are currently viewing മൾട്ടിമോഡൽ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് എന്താണ്, ഇത് പ്രധാനമായിരിക്കുന്നത് എന്തുകൊണ്ട്?

ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലുകളുടെ അടുത്ത അതിർത്തി എങ്ങനെയായിരിക്കുമെന്നതിനെക്കുറിച്ച് ജിജ്ഞാസയുള്ള ആർക്കും, എല്ലാ അടയാളങ്ങളും മൾട്ടിമോഡൽ സിസ്റ്റങ്ങളിലേക്ക് വിരൽ ചൂണ്ടുന്നു, അവിടെ ഉപയോക്താക്കൾക്ക് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസുമായി നിരവധി രീതിയിൽ ഇടപഴകാൻ കഴിയും. ഇമേജുകൾ, ശബ്ദങ്ങൾ, വീഡിയോകൾ, ടെക്സ്റ്റ് എന്നിവയിൽ നിന്ന് അർത്ഥം വരച്ചുകൊണ്ട് ആളുകൾ ആശയങ്ങൾ ആഗിരണം ചെയ്യുകയും സന്ദർഭം രൂപപ്പെടുത്തുകയും ചെയ്യുന്നു. ഒരു ചാറ്റ്ബോട്ടിന് കഴിവുള്ള കവിത എഴുതാനും യുഎസ് ബാർ മറികടക്കാനും കഴിയുമെങ്കിലും, ഈ അറിവിന്റെ പൂർണ്ണതയുമായി പൊരുത്തപ്പെടുന്നില്ല. ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സംവിധാനങ്ങൾ മനുഷ്യ മനസ്സിന്റെ സാമ്യതയോട് കഴിയുന്നത്ര അടുത്തിരിക്കണമെങ്കിൽ, സ്വാഭാവിക ഗതി മൾട്ടിമോഡൽ ആയിരിക്കണം.

ഒരു പുതിയ ഓട്ടം തുറക്കുന്നു

മറ്റൊരു നല്ല പഴയ ടെക് റേസ് രൂപപ്പെടുമ്പോൾ, പ്രമുഖ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് കമ്പനികൾ ഇതിനകം തന്നെ ക്യാച്ചപ്പ് കളിക്കുന്നു. സെപ്റ്റംബർ 25 ന് ചാറ്റ്ജിപിടി നിർമ്മാതാക്കളായ ഓപ്പൺഎഐ തങ്ങളുടെ ജിപിടി -3.5, ജിപിടി -4 മോഡലുകൾ ചിത്രങ്ങൾ പഠിക്കാനും വാക്കുകളിൽ വിശകലനം ചെയ്യാനും പ്രാപ്തമാക്കിയതായി പ്രഖ്യാപിച്ചു. മൈക്രോസോഫ്റ്റിന്റെ പിന്തുണയുള്ള കമ്പനി മാർച്ചിൽ ജിപിടി -4 പുറത്തിറക്കുന്ന സമയത്ത് മൾട്ടിമോഡാലിറ്റി വാഗ്ദാനം ചെയ്തിരുന്നു. എന്നിരുന്നാലും, ഗൂഗിളിന്റെ ഇതുവരെ പുറത്തിറങ്ങിയിട്ടില്ലാത്ത മൾട്ടിമോഡൽ ലാർജ് ലാംഗ്വേജ് മോഡൽ ജെമിനി ഇതിനകം ഒരു കൂട്ടം കമ്പനികളിൽ പരീക്ഷിക്കുന്നുണ്ടെന്ന് ദി ഇൻഫർമേഷൻ റിപ്പോർട്ട് ചെയ്തതിനെത്തുടർന്ന് കമ്പനി റിലീസ് വേഗത്തിലാക്കി.

സെർച്ച് എഞ്ചിൻ, യൂട്യൂബ് എന്നിവയിലൂടെ ഇമേജുകളും വീഡിയോകളും എളുപ്പത്തിൽ ലഭ്യമാകുന്നതിനാൽ മൾട്ടിമോഡൽ ലോകത്തിലെ എതിരാളികളേക്കാൾ ഗൂഗിളിന് എളുപ്പത്തിൽ നേട്ടമുണ്ടെന്നും റിപ്പോർട്ടിൽ പറയുന്നു. എന്നാൽ ഓപ്പൺഎഐ കടന്നുകയറാൻ അതിവേഗം നീങ്ങുകയാണ്. പ്രതിവർഷം 3,70,000 ഡോളർ വരെ ശമ്പള പാക്കേജുകളുള്ള മൾട്ടിമോഡൽ വിദഗ്ധരെ കമ്പനി സജീവമായി നിയമിക്കുന്നു. ജിപിടി മോഡലുകളിൽ നിന്ന് വ്യത്യസ്തമായി ആദ്യം മുതൽ ഒരു മൾട്ടിമോഡൽ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സിസ്റ്റമാകുമെന്ന് പ്രതീക്ഷിക്കുന്ന ഗോബി എന്ന പുതിയ പ്രോജക്റ്റിലും ഇത് പ്രവർത്തിക്കുന്നതായി റിപ്പോർട്ടുണ്ട്.

മൾട്ടിമോഡാലിറ്റി എങ്ങനെ പ്രവർത്തിക്കുന്നു?

മൾട്ടിമോഡാലിറ്റി തന്നെ ഒരു പുതിയ കാര്യമല്ല. കഴിഞ്ഞ കുറച്ച് വർഷങ്ങളായി മൾട്ടിമോഡൽ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സിസ്റ്റങ്ങളുടെ ഒരു പ്രവാഹം പുറത്തിറങ്ങി. OpenAI-യുടെ ടെക്സ്റ്റ്-ടു-ഇമേജ് മോഡൽ പോലെ, ഡാൽ. ചാറ്റ്ജിപിടിയുടെ വിഷൻ കഴിവുകളെ അടിസ്ഥാനമാക്കിയുള്ള ഇ, 2021 ൽ പുറത്തിറക്കിയ ഒരു മൾട്ടിമോഡൽ എഐ മോഡലാണ്. ഡാൾ. അതേ വർഷം ഓപ്പൺഎഐ പുറത്തിറക്കിയ ക്ലിപ്പ് എന്ന മറ്റൊരു മൾട്ടിമോഡൽ ടെക്സ്റ്റ്-ടു-ഇമേജ് മോഡലിലാണ് ഇ നിർമ്മിച്ചിരിക്കുന്നത്.

ഡാൾ. യഥാർത്ഥത്തിൽ ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ബൂമിന് തുടക്കമിട്ട മോഡലാണ് ഇ, കൂടാതെ മറ്റ് ജനപ്രിയ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ഇമേജ് ജനറേറ്ററുകളായ സ്റ്റേബിൾ ഡിഫ്യൂഷൻ, മിഡ്ജൗർണി എന്നിവ പ്രവർത്തിപ്പിക്കുന്ന അതേ ആശയത്തെ അടിസ്ഥാനമാക്കിയുള്ളതാണ് – പരിശീലന ഘട്ടത്തിൽ ടെക്സ്റ്റും ഇമേജുകളും ഒരുമിച്ച് ബന്ധിപ്പിക്കുന്നു. ഇമേജ് വിവരണങ്ങളുടെ ഡാറ്റയുമായി ബന്ധിപ്പിക്കാൻ കഴിയുന്ന വിഷ്വൽ ഡാറ്റയിലെ പാറ്റേണുകൾ സിസ്റ്റം തിരയുന്നു. ഉപയോക്താക്കൾ നൽകുന്ന ടെക്സ്റ്റ് പ്രോംപ്റ്റുകൾ അനുസരിച്ച് ഇമേജുകൾ സൃഷ്ടിക്കാൻ ഇത് ഈ സിസ്റ്റങ്ങളെ പ്രാപ്തമാക്കുന്നു.

മൾട്ടിമോഡൽ ഓഡിയോ സിസ്റ്റങ്ങൾക്ക്, പരിശീലനം അതേ രീതിയിൽ പ്രവർത്തിക്കുന്നു. ജിപിടിയുടെ വോയ്സ് പ്രോസസ്സിംഗ് കഴിവുകൾ കഴിഞ്ഞ വർഷം സെപ്റ്റംബറിൽ പുറത്തിറക്കിയ വിസ്പർ എന്നറിയപ്പെടുന്ന സ്വന്തം ഓപ്പൺ സോഴ്സ് സ്പീച്ച്-ടു-ടെക്സ്റ്റ് വിവർത്തന മോഡലിനെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്. ഓഡിയോയിലെ സംസാരം തിരിച്ചറിയാനും ലളിതമായ ഭാഷാ വാചകത്തിലേക്ക് വിവർത്തനം ചെയ്യാനും വിസ്പറിന് കഴിയും.

മൾട്ടിമോഡൽ എഐയുടെ ആപ്ലിക്കേഷനുകൾ

മുമ്പത്തെ ചില മൾട്ടിമോഡൽ സിസ്റ്റങ്ങൾ കമ്പ്യൂട്ടർ വിഷൻ, നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് മോഡലുകൾ അല്ലെങ്കിൽ ഓഡിയോ, ടെക്സ്റ്റ് എന്നിവ സംയോജിപ്പിച്ച് ഓട്ടോമാറ്റിക് ഇമേജ് ക്യാപ്ഷൻ ജനറേഷൻ പോലുള്ള ലളിതവും എന്നാൽ പ്രധാനപ്പെട്ടതുമായ ചില പ്രവർത്തനങ്ങൾ നിർവഹിക്കുന്നു. ഈ മൾട്ടിമോഡൽ സംവിധാനങ്ങൾ ആർട്ടിഫിഷ്യൽ ജനറൽ ഇന്റലിജൻസ് (എജിഐ) എന്ന ആത്യന്തിക സ്വപ്നത്തിനായി ജിപിടി -4 നെ പോലെ ശക്തമായ ഒരു മോഡൽ അല്ലെങ്കിലും, വളരെ യഥാർത്ഥ ലോക പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നതിന് അവയ്ക്ക് മതിയായ മൂല്യമുണ്ട്.

2020 ൽ, ഫേസ്ബുക്കിൽ വിദ്വേഷകരമായ മീമുകൾ യാന്ത്രികമായി കണ്ടെത്തുന്നതിനുള്ള ഒരു മൾട്ടിമോഡൽ സംവിധാനത്തിൽ മെറ്റ പ്രവർത്തിക്കുകയായിരുന്നു. അതേസമയം, ഒരു വീഡിയോയിലെ സംഭാഷണത്തിന്റെ അടുത്ത വരികൾ പ്രവചിക്കാൻ അവർ നിർമ്മിച്ച ഒരു മൾട്ടിമോഡൽ സംവിധാനത്തെക്കുറിച്ച് ഗൂഗിൾ ഗവേഷകർ 2021 ൽ ഒരു പ്രബന്ധം പ്രസിദ്ധീകരിച്ചു.

എന്നാൽ കൂടുതൽ സങ്കീർണ്ണമായ മറ്റ് സംവിധാനങ്ങൾ ഇപ്പോഴും പ്രവർത്തിക്കുന്നു. ടെക്സ്റ്റ്, വിഷ്വൽ ഡാറ്റ, ഓഡിയോ, താപനില, ചലന റീഡിംഗുകൾ എന്നിങ്ങനെ നിരവധി മോഡുകളുള്ള ഇമേജ്ബിൻഡ് എന്ന പുതിയ ഓപ്പൺ സോഴ്സ് എഐ മൾട്ടിമോഡൽ സിസ്റ്റം ഈ വർഷം മെയ് മാസത്തിൽ മെറ്റ പ്രഖ്യാപിച്ചു. ഭാവിയിലെ മൾട്ടിമോഡൽ മോഡലുകൾക്ക് “സ്പർശനം, സംസാരം, മണം, മസ്തിഷ്ക എഫ്എംആർഐ സിഗ്നലുകൾ” പോലുള്ള മറ്റ് സെൻസറി ഡാറ്റ ചേർക്കാൻ കഴിയുമെന്ന് ബ്ലോഗ് പോസ്റ്റിൽ മെറ്റ ഊഹിച്ചിരുന്നു.

ടെക്സ്റ്റ് ഇൻപുട്ടുകൾക്കായി നിലവിലെ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സിസ്റ്റങ്ങൾ ചെയ്യുന്ന അതേ രീതിയിൽ ഭാവിയിലെ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സിസ്റ്റങ്ങൾ ഈ ഡാറ്റ ക്രോസ്-റഫറൻസ് ചെയ്യുക എന്നതാണ് ഇതിന് പിന്നിലെ ആശയം. ഉദാഹരണത്തിന്, ഭാവിയിൽ ഒരു വെർച്വൽ റിയാലിറ്റി ഉപകരണത്തിന് ഒരു പരിസ്ഥിതിയുടെ ദൃശ്യങ്ങളും ശബ്ദങ്ങളും മാത്രമല്ല മറ്റ് ഭൗതിക ഘടകങ്ങളും സൃഷ്ടിക്കാൻ കഴിഞ്ഞേക്കും. ഒരു ബീച്ചിന്റെ സിമുലേഷനിൽ തീരത്ത് പതിക്കുന്ന തിരമാലകൾ മാത്രമല്ല, കാറ്റ് വീശുന്നതും അവിടത്തെ താപനിലയും ഉണ്ടായിരിക്കാം.

ഇത് വളരെ ഫ്യൂച്ചറിസ്റ്റിക് ആണെന്ന് തോന്നുന്നുവെങ്കിൽ, ഓട്ടോണമസ് ഡ്രൈവിംഗ്, റോബോട്ടിക്സ് എന്നിവ പോലെ ഇപ്പോൾ നാം ജീവിക്കുന്ന ലോകത്തോട് അടുത്ത് കണ്ടെത്താൻ കഴിയുന്ന മറ്റ് ഉപയോഗങ്ങളുണ്ട്.

മെഡിസിൻ പോലുള്ള മറ്റ് വ്യവസായങ്ങൾ “അന്തർലീനമായി മൾട്ടിമോഡൽ” ആണെന്ന് ഗൂഗിൾ റിസർച്ചിന്റെ ഒരു പോസ്റ്റിൽ പറയുന്നു. സിടി സ്കാനുകൾ പ്രോസസ്സ് ചെയ്യുന്നതിനോ അപൂർവ ജനിതക വ്യതിയാനങ്ങൾ തിരിച്ചറിയുന്നതിനോ ഇമേജുകളുടെ സങ്കീർണ്ണമായ ഡാറ്റാസെറ്റുകൾ വിശകലനം ചെയ്യാനും തുടർന്ന് ലളിതമായ വാക്കുകളിൽ പ്രതികരിക്കാനും കഴിയുന്ന ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സംവിധാനങ്ങൾ ആവശ്യമാണ്. ഈ മേഖലയിൽ മൾട്ടിമോഡൽ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സിസ്റ്റങ്ങൾ സമന്വയിപ്പിക്കുന്നതിന് അനുയോജ്യമായ രീതി എന്താണെന്നതിനെക്കുറിച്ച് പ്രബന്ധങ്ങൾ പുറത്തിറക്കിയ ഗൂഗിൾ റിസർച്ചിന്റെ ഹെൽത്ത് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് വിഭാഗം കുറച്ച് കാലമായി ഇക്കാര്യത്തിൽ പ്രവർത്തിക്കുന്നു.

പ്രസംഗ വിവർത്തനം നിർവഹിക്കുന്ന ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലുകൾ മൾട്ടിമോഡാലിറ്റിയുടെ മറ്റൊരു വ്യക്തമായ വിഭാഗമാണ്. കഴിഞ്ഞ മാസം പുറത്തിറങ്ങിയ മെറ്റയുടെ സീംലെസ് എം 4 ടി മോഡൽ പോലെ ഗൂഗിൾ ട്രാൻസ്ലേറ്റ് ഒന്നിലധികം മോഡലുകൾ ഉപയോഗിക്കുന്നു. ടെക്സ്റ്റ്-ടു-സ്പീച്ച്, സ്പീച്ച്-ടു-ടെക്സ്റ്റ്, സ്പീച്ച്-ടു-സ്പീച്ച്, ടെക്സ്റ്റ്-ടു-ടെക്സ്റ്റ് വിവർത്തനങ്ങൾ 100 ഓളം ഭാഷകളിലേക്ക് നടത്താൻ ഈ മോഡലിന് കഴിയുമെന്ന് കമ്പനി അറിയിച്ചു.

Dr Bibin

Experienced Researcher with a demonstrated history of working in the Deep Learning, Computer Vision

Leave a Reply