കഴിഞ്ഞ വർഷം, പ്രാദേശിക ലാമ അടിസ്ഥാനമാക്കിയുള്ള മോഡലുകളുടെ ഒരു ലിസ്റ്റ് ഞങ്ങൾ തയ്യാറാക്കി, അവയിൽ തെലുങ്ക് ലാമയും ഉൾപ്പെടുന്നു. അക്കാലത്ത്, മോഡൽ ഇപ്പോഴും പുരോഗമിച്ചുകൊണ്ടിരിക്കുകയായിരുന്നു. എന്നിരുന്നാലും, അതിന്റെ സ്രഷ്ടാക്കളായ രവി തേജ, രാംശ്രീ ഗൗതം ഗൊല്ല എന്നിവർ അടുത്തിടെ ഇത് ഹഗ്ഗിംഗ് ഫെയ്സിൽ ലഭ്യമാക്കി.

“പിആർ അതിന്റെ സമയത്തേക്കാൾ അൽപ്പം മുന്നിലായിരുന്നു, അതിനാൽ ഞങ്ങൾക്ക് പിടിക്കേണ്ടിവന്നു,” ഞങ്ങളുടെ കഥ ഉത്തേജകമായി പ്രവർത്തിച്ചുവെന്നും തെലുങ്ക് ലാമയുടെ വികസനം ത്വരിതപ്പെടുത്താൻ അദ്ദേഹത്തെ പ്രചോദിപ്പിച്ചുവെന്നും സൂചിപ്പിച്ച് എഐഎമ്മിന് നൽകിയ പ്രത്യേക അഭിമുഖത്തിൽ ഗൊല്ല തമാശയായി പറഞ്ഞു.

ഗൊല്ലയുടെയും തേജയുടെയും ഒരു പാഷൻ പ്രോജക്റ്റാണ് തെലുങ്ക് ലാമ. കഴിഞ്ഞയാഴ്ച, അവർ തെലുങ്ക്-എൽഎൽഎം-ലാബ്സ് അവതരിപ്പിച്ചു, ഒരു സഹകരണ സ്വതന്ത്ര ശ്രമം, അവിടെ അവർ തെലുങ്കിലേക്ക് വിവർത്തനം ചെയ്യുകയും റോമനൈസ് ചെയ്യുകയും ചെയ്ത ഡാറ്റാസെറ്റുകൾ പുറത്തിറക്കി.

അടുത്തതായി, ടിനിലാമ -1.1 ബി-തെലുങ്ക്-റോമനൈസേഷൻ-ബേസ്, ടിനിലാമ-1.1 ബി-തെലുങ്ക്-റൊമാനൈസേഷൻ-ഇൻസ്ട്രക്റ്റ് മോഡലുകൾ പുറത്തിറക്കാൻ അവർ ഉദ്ദേശിക്കുന്നു.

ഹൈദരാബാദ് ആസ്ഥാനമായുള്ള ഗൊല്ല 2018 ൽ ഇന്ത്യയിലേക്ക് മടങ്ങുന്നതിനുമുമ്പ് എട്ട് വർഷത്തോളം യുഎസിൽ പഠിക്കുകയും ജോലി ചെയ്യുകയും ചെയ്തു. അദ്ദേഹം സ്വയം ഒരു ബിൽഡർ / എഞ്ചിനീയർ എന്ന് വിശേഷിപ്പിക്കുകയും സാസ് അപ്ലിക്കേഷനുകൾ സൃഷ്ടിക്കാൻ ഇഷ്ടപ്പെടുകയും ചെയ്യുന്നു. 100,000 ഡോളർ സംയോജിത എആർആറുള്ള രണ്ട് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സാസ് അപ്ലിക്കേഷനുകൾ ഗൊല്ല വിജയകരമായി വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്. കൂടാതെ, അദ്ദേഹം ഉഡെമിയിലും സ്വന്തം പ്ലാറ്റ്ഫോമിലും ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് കോഴ്സുകൾ എടുക്കുന്നു.

മറുവശത്ത്, ലാമാ ഇൻഡെക്സിൽ ഡെവലപ്പർ അഡ്വക്കേറ്റ് എഞ്ചിനീയറായി തേജ ജോലി ചെയ്യുന്നു. ഈ റോളിന് മുമ്പ്, ഗ്ലാൻസിൽ സീനിയർ എം എൽ എഞ്ചിനീയറായി സേവനമനുഷ്ഠിച്ച അദ്ദേഹം അവിടെ ശുപാർശ സിസ്റ്റങ്ങളിലും ജെൻഎഐ ആപ്ലിക്കേഷനുകളിലും പ്രവർത്തിച്ചു.

തെലുങ്ക് ലാമയ്ക്ക് പിന്നിലെ പ്രചോദനം

“ക്വോറ തലത്തിലുള്ള ചോദ്യങ്ങളും ഉത്തരങ്ങളും സൃഷ്ടിക്കുക എന്നതായിരുന്നു രവിയുടെയും എന്റെയും ആത്യന്തിക ലക്ഷ്യം,” ഗൊല്ല പറഞ്ഞു, ക്വോറയ്ക്ക് ഹൈ.ക്വോറ, തെലുങ്ക്.ക്വോറ തുടങ്ങിയ പ്രാദേശിക പേജുകളുണ്ട്, അവിടെ ഉപയോക്താക്കൾ പ്രാദേശിക ചോദ്യങ്ങളുമായും ഉത്തരങ്ങളുമായും ഇടപഴകുന്നു.

മാത്രമല്ല, ഓപ്പൺ സോഴ്സ് മോഡലുകൾ ജിപിടി -3.5 പോലുള്ള ഓപ്പൺഎഐ മോഡലുകളുടെ പ്രാരംഭ പതിപ്പുകളുടെ നിലവാരം വരെ പിടിച്ചിട്ടുണ്ടെന്നും അദ്ദേഹം പറഞ്ഞു. “അതിനാൽ ഇപ്പോൾ, പ്രാദേശിക ഭാഷകൾക്കായി എന്തെങ്കിലും നിർമ്മിക്കുന്നത് അർത്ഥവത്താണ്, കാരണം ഔട്ട്പുട്ടിന്റെ ഗുണനിലവാരം ആളുകൾ പ്രതീക്ഷിക്കുന്നതിനോട് പൊരുത്തപ്പെടുന്നു,” അദ്ദേഹം കൂട്ടിച്ചേർത്തു.

കൂടാതെ, സാംസ്കാരികമായി വേരൂന്നിയ എൽഎൽഎമ്മിന്റെ ആവശ്യകത അദ്ദേഹം അടിവരയിടുന്നു. “നമ്മൾ ആഘോഷിക്കുന്ന ഉത്സവങ്ങൾ, വിവാഹത്തിൽ സ്വീകരിക്കുന്ന സാംസ്കാരിക മാനദണ്ഡങ്ങൾ, മതവികാരങ്ങൾ പോലും വ്യത്യസ്തമാണ്. അതിനാൽ, സന്ദർഭ-നിർദ്ദിഷ്ട ചോദ്യങ്ങളും ഉത്തരങ്ങളും നൽകുന്നതിന് ഞങ്ങൾക്ക് പ്രാദേശികമായി വേരൂന്നിയ എൽഎൽഎമ്മുകൾ ആവശ്യമാണ്, “അദ്ദേഹം പറഞ്ഞു.

ഡാറ്റാ ശേഖരണം

തെലുങ്ക് എൽഎൽഎം ലാബ്സ് അടുത്തിടെ രണ്ട് തെലുങ്ക് ഡാറ്റാസെറ്റുകൾ പുറത്തിറക്കി – റൊമാനൈസ്ഡ് തെലുങ്ക് പ്രീട്രെയിനിംഗ് ഡാറ്റാസെറ്റ്, എസ്എഫ്ടി (മേൽനോട്ടം വഹിക്കുന്ന ഫൈൻ ട്യൂണിംഗ് ഡാറ്റാസെറ്റ്) എന്നിവ തെലുങ്കിൽ (നേറ്റീവ് + റൊമാനൈസ്ഡ്). വാട്ട്സ്ആപ്പ് അല്ലെങ്കിൽ യൂട്യൂബ് കമന്റുകൾ പോലുള്ള ഓൺലൈൻ സംഭാഷണങ്ങളിൽ ഭൂരിഭാഗവും റോമനൈസ്ഡ് തെലുങ്കിലാണ് സംഭവിക്കുന്നത് എന്നതാണ് റോമനൈസ്ഡ് തെലുങ്ക് ഡാറ്റാസെറ്റ് സൃഷ്ടിക്കുന്നതിന് പിന്നിലെ കാരണം. “ఎాాా硜నాాాాాాాాాాాాాాాాాానాాాాాాా (നിങ്ങൾക്ക് എങ്ങനെയുണ്ട്?), മിക്ക ഓൺലൈൻ ഇടപെടലുകൾക്കും ഒരു റോമനൈസ്ഡ് സ്ക്രിപ്റ്റ് ഉപയോഗിച്ച് ആളുകൾ “എല ഉന്നരു” എന്ന് ടൈപ്പുചെയ്യുന്നു, “ഗൊല്ല പറഞ്ഞു.

“ഇംഗ്ലീഷ് ഡാറ്റാസെറ്റുകൾക്ക് മുകളിൽ ഞങ്ങൾ ഈ രണ്ട് അധിക ഡാറ്റാസെറ്റുകൾ സൃഷ്ടിച്ചു, പക്ഷേ ഒരു ക്യാച്ച് മാത്രം. ‘ഇംഗ്ലീഷ് ഭാഷാ നിർദ്ദിഷ്ട’ അല്ലെങ്കിൽ ‘കോഡിംഗുമായി ബന്ധപ്പെട്ട’ വരികൾ നീക്കംചെയ്യുന്നതിന് ഞങ്ങൾ അവയെ എൻഎൽപി ക്ലാസിഫിക്കേഷൻ സംവിധാനങ്ങൾ ഉപയോഗിച്ച് ഫിൽട്ടർ ചെയ്തു, അതിനാൽ ഫലമായ ഡാറ്റാസെറ്റ് ശുദ്ധവും സമഗ്രവുമാണ്, “അദ്ദേഹം കൂട്ടിച്ചേർത്തു.

കൂടാതെ, അവർ കൾട്ടുറാക്സ് എടുക്കുകയും culturaX_telugu ഡാറ്റാസെറ്റിൽ നിന്ന് ആദ്യത്തെ 108 കെ വരികൾ റോമനൈസ് ചെയ്യുകയും ചെയ്തു. “ടൈനിലാമ 1.1 ബി പോലുള്ള ഒരു ചെറിയ എൽഎൽഎമ്മിനായി സിഎൽഎമ്മിനായി (കാഷ്വൽ ലാംഗ്വേജ് മോഡൽ / അടുത്ത വാക്ക് പ്രവചനം) അധിക പ്രീ-ട്രെയിനിംഗ് നടത്താൻ നിങ്ങൾ ആഗ്രഹിക്കുന്നുവെങ്കിൽ ഈ ഡാറ്റാസെറ്റ് അനുയോജ്യമാണ്,” തേജ പറഞ്ഞു.

കൂടാതെ, ഗൊല്ലയും തേജയും ഏറ്റവും ജനപ്രിയ വാർത്താ വെബ്സൈറ്റുകൾക്കോ ടിവി ചാനൽ വെബ്സൈറ്റുകൾക്കോ ഇഷ് ടാനുസൃത സ്ക്രാപ്പറുകൾ നിർമ്മിക്കുന്നു, അവിടെ അവർ പ്രസക്തമായ ലേഖനങ്ങൾ ശേഖരിക്കുന്നു. “സമയവും ഗുണനിലവാരവും ശരിയായിരിക്കുമ്പോൾ ഞങ്ങൾ അത് പുറത്തുവിടും. തെലുങ്ക് എൽഎൽഎം ലാബുകളിൽ നിന്നുള്ള ഏറ്റവും വലിയ സംഭാവനകളിലൊന്നായിരിക്കും ഇത്, “ഗൊല്ല പറഞ്ഞു.

കമ്പ്യൂട്ടിംഗ് വീക്ഷണകോണിൽ നിന്ന്, തെലുങ്ക് ലാമയ്ക്ക് Jarvislabs.ai മറ്റ് നിരവധി ജിപിയു ദാതാക്കളിൽ നിന്നും പിന്തുണ ലഭിച്ചു, എന്നിരുന്നാലും ഇത് പ്രാഥമികമായി സ്വന്തം കമ്പ്യൂട്ടിംഗ് വിഭവങ്ങളെ ആശ്രയിച്ചിരുന്നു.

ഈ സംരംഭം ആരംഭിച്ചപ്പോൾ, പരിമിതമായ കമ്പ്യൂട്ടിംഗ് വിഭവങ്ങളുമായി പ്രവർത്തിക്കാൻ അവർ തയ്യാറാണെന്നും പുരോഗതി തടസ്സപ്പെടില്ലെന്ന് ഉറപ്പാക്കിയെന്നും ഗൊല്ല എടുത്തുപറഞ്ഞു. തെലുങ്കിലും ഇംഗ്ലീഷിലും ടെക്സ്റ്റ് സൃഷ്ടിക്കുന്ന 3 ബില്യൺ പാരാമീറ്റർ മോഡലുകൾ പരീക്ഷിക്കാൻ തേജയും ഗൊല്ലയും ഇപ്പോൾ പദ്ധതിയിടുന്നു.

Dr Bibin

Experienced Researcher with a demonstrated history of working in the Deep Learning, Computer Vision

You May Also Like

പാരിസ്ഥിതിക പരിഹാരത്തിൽ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന്റെ ഭാവി മൂല്യം

വിവരങ്ങൾ എങ്ങനെ സമന്വയിപ്പിക്കാനും ഡാറ്റ വിശകലനം ചെയ്യാനും തീരുമാനമെടുക്കൽ മെച്ചപ്പെടുത്തുന്നതിന് അതിന്റെ ഫലമായുള്ള ഉൾക്കാഴ്ചകൾ ഉപയോഗിക്കാനും ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ഞങ്ങളെ പ്രാപ്തമാക്കുന്നു. ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന്റെ ശക്തി വിവിധ...

ഗൂഗിൾ ക്ലൗഡ് സിഇഒ: പുതിയ ആലിംഗനം എഐ പങ്കാളിത്തം ഡെവലപ്പർമാർക്ക് ജെൻഎഐയെ കൂടുതൽ 'സ്വാധീനം' നൽകുന്നു

ഈ പങ്കാളിത്തം ഗൂഗിൾ ക്ലൗഡിന്റെ ഉദ്ദേശ്യത്തോടെ നിർമ്മിച്ച എഐ പ്ലാറ്റ്ഫോമായ വെർടെക്സ് എഐയിലേക്ക് ഞങ്ങളുടെ സുരക്ഷിത ഇൻഫ്രാസ്ട്രക്ചറിലേക്ക് പ്രവേശനം ഉറപ്പാക്കുന്നു, ഇത് അടുത്ത തലമുറ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ്...

അസിസ്റ്റന്റ് പ്രൊഫസർ സ്റ്റാറ്റിസ്റ്റിക്കൽ എൻഎൽപിയുടെ വിശകലനപരവും പ്രായോഗികവുമായ നേട്ടങ്ങൾ പര്യവേക്ഷണം ചെയ്യുന്നു

പുരാതന ഗ്രന്ഥങ്ങളിലെ ഭാഷകളെക്കുറിച്ച് പുതിയ ഉൾക്കാഴ്ചകൾ വെളിപ്പെടുത്താൻ മെഷീൻ ലേണിംഗിന് കഴിയും. ഈ ഗ്രന്ഥങ്ങൾ, അവയുടെ വിവർത്തനങ്ങൾ, നൂറുകണക്കിന് വർഷങ്ങൾ അകലത്തിൽ ജീവിച്ചിരുന്ന രചയിതാക്കൾ എഴുതിയ സമീപകാല...

NLP-യുടെ ഉത്ഭവം

നമ്മുടെ വേരുകൾ മനസ്സിലാക്കുന്നത് ഏതൊരു പ്രൊഫഷണലും ചെയ്യുന്നതുപോലെ സ്രോതസ്സുകളെ അംഗീകരിക്കാനും നമുക്ക് പാരമ്പര്യമായി ലഭിച്ച മോഡലുകളുടെ ശക്തിയും ദൗർബല്യങ്ങളും കാണാനും നമ്മെ അനുവദിക്കുന്നു. എൻഎൽപിയുടെ ഭൂതകാലത്തെക്കുറിച്ചും ഒരു...