ചാറ്റ്-ജിപിടിയുടെയും സമാനമായ പ്ലാറ്റ്ഫോമുകളുടെയും ആവിർഭാവം ടെക്സ്റ്റ് കമാൻഡുകളോട് പ്രതികരിക്കുന്നതിന് ഇന്റർനെറ്റിൽ നിന്നുള്ള വിശാലമായ ഡാറ്റയിൽ പരിശീലനം നേടിയ വലിയ ഭാഷാ മോഡലായ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിനെ ചുറ്റിപ്പറ്റി ഒരു കോളിളക്കം സൃഷ്ടിച്ചു.
മിഡിൽ ഈസ്റ്റിൽ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിൽ താൽപ്പര്യം വർദ്ധിച്ചിട്ടും, അറബി ഭാഷാ മോഡലുകൾ പിന്നിലാണ്. എന്നാൽ യുണൈറ്റഡ് അറബ് എമിറേറ്റിലെ (യുഎഇ) അക്കാദമിക് വിദഗ്ധരും ഗവേഷകരും എഞ്ചിനീയർമാരും അടങ്ങുന്ന ഒരു സംഘം അടുത്തിടെ ലോകത്തിലെ അറബി സംസാരിക്കുന്നവർക്ക് അനുയോജ്യമായ ഒരു ശക്തമായ ഉപകരണം അനാവരണം ചെയ്തു, ഇത് “മുഖ്യധാരാ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിൽ പ്രാതിനിധ്യം കുറവുള്ള” മറ്റ് ഭാഷകളിൽ വലിയ ഭാഷാ മോഡലിന് (എൽഎൽഎം സിസ്റ്റങ്ങൾ) വഴിയൊരുക്കുമെന്ന് അതിന്റെ സ്രഷ്ടാക്കൾ പറയുന്നു.
അബുദാബിയിലെ മുഹമ്മദ് ബിൻ സായിദ് യൂണിവേഴ്സിറ്റി ഓഫ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് (എംബിഎസ്യുഎഐ), സിലിക്കൺ വാലി ആസ്ഥാനമായുള്ള സെറിബ്രാസ് സിസ്റ്റംസ്, യുഎഇ ആസ്ഥാനമായുള്ള എഐ കമ്പനിയായ ജി 42 ന്റെ അനുബന്ധ സ്ഥാപനമായ ഇൻസെപ്ഷൻ എന്നിവയുമായി സഹകരിച്ചാണ് “ജയ്സ്” സൃഷ്ടിച്ചത്.
ചാറ്റ്ജിപിടി, മെറ്റയുടെ എൽഎൽഎഎംഎ, മറ്റ് എൽഎൽഎം എന്നിവയ്ക്ക് അറബി ഭാഷാ കഴിവുകൾ ഉണ്ടെങ്കിലും, ഇന്റർനെറ്റിലെ ഇംഗ്ലീഷ് ഡാറ്റയിലാണ് അവർക്ക് കൂടുതലും പരിശീലനം നൽകിയതെന്ന് എംബിഎസ്യുഎഐയിലെ ആക്ടിംഗ് പ്രൊവോസ്റ്റും നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് പ്രൊഫസറുമായ തിമോത്തി ബാൾഡ്വിൻ പറയുന്നു.
പകരം, മിഡിൽ ഈസ്റ്റിൽ നിന്നുള്ള ഉള്ളടക്കത്തിൽ ശ്രദ്ധ കേന്ദ്രീകരിച്ച് ജെയ്സ് ഇംഗ്ലീഷ്, അറബി ഡാറ്റാസെറ്റുകൾ ഉപയോഗിച്ചു, ഇത് “അറബിക്കായി മറ്റാർക്കും നേടാൻ കഴിഞ്ഞതിനപ്പുറത്തേക്ക് പോകാൻ അനുവദിച്ചു,” ബാൽഡ്വിൻ പറയുന്നു.
ലാറ്റിൻ അക്ഷരമാല ഉപയോഗിക്കുന്ന ഭാഷകൾ ഇന്റർനെറ്റിൽ ആധിപത്യം പുലർത്തുന്നു, ഇംഗ്ലീഷാണ് ഏറ്റവും കൂടുതൽ ഉപയോഗിക്കുന്നത്. വാഷിംഗ്ടൺ ഡിസിയിലെ മിഡിൽ ഈസ്റ്റ് ഇൻസ്റ്റിറ്റ്യൂട്ടിലെ സ്ട്രാറ്റജിക് ടെക്നോളജീസ് ആൻഡ് സൈബർ സെക്യൂരിറ്റി പ്രോഗ്രാം ഡയറക്ടർ മുഹമ്മദ് സോളിമാന്റെ അഭിപ്രായത്തിൽ ഡാറ്റാസെറ്റുകൾ ആ ഭാഷകളിൽ ഏറ്റവും വലുതാണ്.
“നിർദ്ദിഷ്ട ഭാഷകൾ സംസാരിക്കാൻ കഴിയുന്നവർക്ക് മാത്രമായി ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ടൂളുകളിലേക്ക് പ്രവേശനം നൽകുന്നത് സമൂഹത്തിലെ പിന്നാക്ക വിഭാഗങ്ങൾക്ക് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന്റെ നേട്ടങ്ങൾ കൊയ്യുന്നതിൽ നിന്ന് തടയാൻ കഴിയും,” അദ്ദേഹം സിഎൻഎന്നിനോട് പറഞ്ഞു.
സാധാരണയായി, ഇംഗ്ലീഷിൽ പരിശീലനം ലഭിച്ച ഭാഷാ മോഡലുകൾക്ക് പാശ്ചാത്യ കേന്ദ്രീകൃത ഡാറ്റാ സെറ്റുകൾ ഉണ്ട്. “ഈ എൽഎൽഎമ്മുകൾക്ക് മറ്റ് സംസ്കാരങ്ങളെക്കുറിച്ച് അവബോധമില്ല, ഇത് വൈവിധ്യമാർന്ന പശ്ചാത്തലങ്ങളിൽ നിന്നുള്ള ആളുകളുടെ ഉപയോക്തൃ അനുഭവത്തെ പ്രതികൂലമായി ബാധിക്കുന്നു,” സോളിമാൻ കൂട്ടിച്ചേർത്തു.
പരിശീലനത്തിന്റെ ഫലമായി, ജെയ്സ് സാംസ്കാരിക സൂക്ഷ്മതകളും ഭാഷാഭേദങ്ങളും മനസ്സിലാക്കുന്നു, എംബിഎസ്യുഎഐ പറയുന്നതനുസരിച്ച്, വിവിധ വ്യവസായങ്ങളിലുടനീളം ഇത് കൂടുതൽ വ്യാപകമായി ഉപയോഗിക്കാൻ പ്രാപ്തമാക്കുന്നു. ഭാവിയിലെ റിലീസുകളിൽ, ടെക്സ്റ്റിന് പകരം ഇമേജുകൾ, ഗ്രാഫുകൾ അല്ലെങ്കിൽ ടാബുലാർ ഡാറ്റ എന്നിവ ഉപയോഗിച്ച് ജെയ്സ് പ്രവർത്തിക്കാനും അതിന്റെ ഉപയോഗങ്ങൾ വിപുലീകരിക്കാനും മെഡിക്കൽ സ്കാനുകൾ, നിക്ഷേപ ഡാറ്റ അല്ലെങ്കിൽ ഉപഗ്രഹങ്ങളിൽ നിന്നുള്ള ഡാറ്റ എന്നിവ വ്യാഖ്യാനിക്കാൻ പ്രാപ്തമാക്കാനും ടീം ലക്ഷ്യമിടുന്നു.
വ്യത്യസ്ത ഭാഷാഭേദങ്ങൾ
ലോകത്ത് ഏറ്റവും കൂടുതൽ ആളുകൾ സംസാരിക്കുന്ന ആറാമത്തെ ഭാഷയാണ് അറബി, വ്യത്യസ്ത ഭാഷാഭേദങ്ങളുടെ “നക്ഷത്രരാശി” കൊണ്ട് സമ്പന്നമാണ്, ഇത് ഒരു ഭാഷാ മാതൃക പരിശീലിപ്പിക്കുന്നതിന്റെ സങ്കീർണ്ണത വർദ്ധിപ്പിക്കുന്നു, ബാൾഡ്വിൻ പറഞ്ഞു. മോഡേൺ സ്റ്റാൻഡേർഡ് അറബി സാധാരണയായി ഔദ്യോഗിക രേഖകൾക്കും ഔപചാരിക എഴുത്തിനും ഉപയോഗിക്കുന്നു, പക്ഷേ പ്രാദേശിക ഭാഷാഭേദങ്ങൾ പലപ്പോഴും ബ്ലോഗുകളിലോ സോഷ്യൽ മീഡിയയിലോ ഉപയോഗിക്കുന്നു. വൈവിധ്യമാർന്ന ഡാറ്റയിൽ പരിശീലനം നേടുന്നതിലൂടെ ജെയ്സിന് സാധാരണയായി ഭാഷാഭേദങ്ങൾക്കിടയിൽ മാറാൻ കഴിയുമെന്ന് ബാൾഡ്വിൻ പറഞ്ഞു.
“അവിടെ തീർച്ചയായും മെച്ചപ്പെടുത്തലിന് ഇടമുണ്ട്, പക്ഷേ മോഡലിന് കൂടുതൽ അനൗപചാരിക ഇൻപുട്ടുകൾ ഉണ്ടോ എന്ന് മനസിലാക്കാൻ കഴിയുന്നതിന്റെ അടിസ്ഥാനത്തിൽ കൂടുതൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു,” ബാൾഡ്വിൻ കൂട്ടിച്ചേർത്തു.
ഈജിപ്ഷ്യൻ സംസാരഭാഷ, സൗദി സംസാരഭാഷ അറബി എന്നിവയുൾപ്പെടെ ഒരു ഡസനിലധികം അറബി ഭാഷകളിലെ ചോദ്യങ്ങൾ മനസിലാക്കാൻ ഗൂഗിളിന്റെ ബാർഡിനെ സമീപകാല അപ്ഡേറ്റ് അനുവദിക്കുന്നു. തുടർന്ന് മോഡേൺ സ്റ്റാൻഡേർഡ് അറബിക് ഉപയോഗിച്ച് പ്രതികരണം തിരികെ നൽകുന്നു.
വീഡിയോ പരസ്യ ഫീഡ്ബാക്ക് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് വിമാന എമിഷൻ കുറയ്ക്കാൻ സഹായിക്കും 02:27 – ഉറവിടം: സിഎൻഎൻ
ജെയ്സിന് 13 ബില്യൺ പാരാമീറ്ററുകളുണ്ട്, 30 ബില്യൺ പാരാമീറ്റർ അപ്ഡേറ്റ് പ്രവർത്തിക്കുന്നുണ്ടെന്ന് ബാൾഡ്വിൻ പറഞ്ഞു. പാരാമീറ്ററുകൾ ഒരു ഭാഷാ മോഡലിന്റെ വലുപ്പം കണക്കാക്കുന്നു, പക്ഷേ കൃത്യത ആവശ്യമില്ല. OpenAI അനുസരിച്ച് ChatGPT-3.5 ന് ഏകദേശം 175 ബില്യൺ പാരാമീറ്ററുകളുണ്ട്.
മറ്റ് ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലുകളെപ്പോലെ ജെയ്സും “വിഷ” അല്ലെങ്കിൽ “ദോഷകരമായ” ഉത്തരങ്ങൾ സൃഷ്ടിക്കുന്നതിൽ നിന്ന് തടയാൻ നിർദ്ദേശ ട്യൂണിംഗ് ഉപയോഗിക്കുന്നു, ബാൾഡ്വിൻ പറഞ്ഞു. ഇത് സ്വയം ഉപദ്രവിക്കാനോ മറ്റുള്ളവർക്ക് കേടുപാടുകൾ വരുത്താനോ ആസക്തിയെ സൂചിപ്പിക്കുന്നതോ ആയ ഒന്നും സൃഷ്ടിക്കില്ല. ഇത് സൃഷ്ടിക്കുന്ന പ്രതികരണങ്ങൾ സ്വവർഗരതി, മയക്കുമരുന്ന് തുടങ്ങിയ വിഷയങ്ങളിൽ പ്രാദേശിക നിയമങ്ങളും ആചാരങ്ങളും പാലിക്കുന്നു.
യുഎഇ സർക്കാരുമായും ഉത്തരവാദിത്തമുള്ള ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സംബന്ധിച്ച മറ്റ് സ്ഥാപനങ്ങളുമായും എംബിസുവായ് “വിവിധ സംഭാഷണങ്ങൾ” നടത്തിയതായി ബാൾഡ്വിൻ പറയുന്നു.
പ്രാദേശിക സംഭവവികാസങ്ങൾ
ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സംവിധാനങ്ങൾ വികസിപ്പിക്കുന്നതിനുള്ള ശ്രമങ്ങൾ യുഎഇയിൽ വർദ്ധിച്ചുകൊണ്ടിരിക്കുകയാണ്. 2017 ൽ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മന്ത്രിയെ നിയമിച്ച ലോകത്തിലെ ആദ്യത്തെ രാജ്യമാണിത്, മേഖലയിലെ ഏറ്റവും വലിയ ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലായ ഫാൽക്കൺ മാർച്ചിൽ അബുദാബിയുടെ അഡ്വാൻസ്ഡ് ടെക്നോളജി റിസർച്ച് കൗൺസിലും ടെക്നോളജി ഇന്നൊവേഷൻ ഇൻസ്റ്റിറ്റ്യൂട്ടും (ടിഐഐ) അനാച്ഛാദനം ചെയ്തു.
നിലവിൽ അറബിയിൽ ലഭ്യമല്ലെങ്കിലും, 180 ബില്യൺ പാരാമീറ്ററുകളുള്ള ഫാൽക്കൺ ഇംഗ്ലീഷിൽ ജെയ്സിനേക്കാൾ ശക്തമാണ്, കൂടാതെ യുക്തി, കോഡ്, വിജ്ഞാന പരിശോധനകൾ പൂർത്തിയാക്കാനുള്ള കഴിവിന്റെ അടിസ്ഥാനത്തിൽ മെറ്റയുടെ എൽഎൽഎഎംഎ 2 പോലുള്ള എതിരാളികളെക്കാൾ മികച്ചതാണ്. ഗൂഗിളിന്റെ ബാർഡ്, ചാറ്റ്ജിപിടി എന്നിവയിൽ നിന്ന് വ്യത്യസ്തമായി, ഫാൽക്കണും ജെയ്സും ഓപ്പൺ സോഴ്സ് ആണ്, അതായത് അവരുടെ കോഡ് ആർക്കും ഉപയോഗിക്കാനോ മാറ്റാനോ ലഭ്യമാണ്.
കൺസൾട്ടിംഗ് സ്ഥാപനമായ പിഡബ്ല്യുസിയുടെ 2018 ലെ റിപ്പോർട്ട് പ്രകാരം 2030 ഓടെ മിഡിൽ ഈസ്റ്റിന് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിൽ നിന്ന് 320 ബില്യൺ ഡോളർ വരെ ആനുകൂല്യങ്ങൾ ലഭിക്കുമെന്ന് കണക്കാക്കുന്നു. ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന്റെ കാര്യത്തിൽ “സ്വന്തം കഴിവുകൾ” ഉണ്ടെന്ന് ഉറപ്പാക്കാൻ ഈ മേഖല ആഗ്രഹിക്കുന്നുവെന്ന് പിഡബ്ല്യുസിയുടെ മിഡിൽ ഈസ്റ്റ് ചീഫ് ഡിജിറ്റൽ ഓഫീസർ അലി ഹൊസൈനി പറയുന്നു.
“ചില മികച്ച ഓപ്പൺ സോഴ്സ് മോഡലുകൾ യഥാർത്ഥത്തിൽ ഞങ്ങളുടെ പ്രദേശത്ത് വികസിപ്പിച്ചെടുത്തവയാണ്,” ഫാൽക്കണിനെയും ജെയ്സിനെയും പരാമർശിച്ച് ഹുസൈനി കൂട്ടിച്ചേർത്തു.
മിഡിൽ ഈസ്റ്റിൽ ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് വികസനം ജെയ്സ് കൂടുതൽ മെച്ചപ്പെടുത്തുമെന്ന് അതിന്റെ നിർമ്മാതാക്കൾ പ്രതീക്ഷിക്കുന്നു. “ഇത് ഭാവിയിലെ നിരവധി ചുവടുവയ്പ്പുകളിൽ ഒന്നാണ്,” ബാൾഡ്വിൻ പറഞ്ഞു. “അറബി വലിയ ഭാഷാ മോഡലുകൾക്ക് മാത്രമല്ല, മറ്റെവിടെയെങ്കിലും.”
