കഴിഞ്ഞ വർഷം, പ്രാദേശിക ലാമ അടിസ്ഥാനമാക്കിയുള്ള മോഡലുകളുടെ ഒരു ലിസ്റ്റ് ഞങ്ങൾ തയ്യാറാക്കി, അവയിൽ തെലുങ്ക് ലാമയും ഉൾപ്പെടുന്നു. അക്കാലത്ത്, മോഡൽ ഇപ്പോഴും പുരോഗമിച്ചുകൊണ്ടിരിക്കുകയായിരുന്നു. എന്നിരുന്നാലും, അതിന്റെ സ്രഷ്ടാക്കളായ രവി തേജ, രാംശ്രീ ഗൗതം ഗൊല്ല എന്നിവർ അടുത്തിടെ ഇത് ഹഗ്ഗിംഗ് ഫെയ്സിൽ ലഭ്യമാക്കി.
“പിആർ അതിന്റെ സമയത്തേക്കാൾ അൽപ്പം മുന്നിലായിരുന്നു, അതിനാൽ ഞങ്ങൾക്ക് പിടിക്കേണ്ടിവന്നു,” ഞങ്ങളുടെ കഥ ഉത്തേജകമായി പ്രവർത്തിച്ചുവെന്നും തെലുങ്ക് ലാമയുടെ വികസനം ത്വരിതപ്പെടുത്താൻ അദ്ദേഹത്തെ പ്രചോദിപ്പിച്ചുവെന്നും സൂചിപ്പിച്ച് എഐഎമ്മിന് നൽകിയ പ്രത്യേക അഭിമുഖത്തിൽ ഗൊല്ല തമാശയായി പറഞ്ഞു.
ഗൊല്ലയുടെയും തേജയുടെയും ഒരു പാഷൻ പ്രോജക്റ്റാണ് തെലുങ്ക് ലാമ. കഴിഞ്ഞയാഴ്ച, അവർ തെലുങ്ക്-എൽഎൽഎം-ലാബ്സ് അവതരിപ്പിച്ചു, ഒരു സഹകരണ സ്വതന്ത്ര ശ്രമം, അവിടെ അവർ തെലുങ്കിലേക്ക് വിവർത്തനം ചെയ്യുകയും റോമനൈസ് ചെയ്യുകയും ചെയ്ത ഡാറ്റാസെറ്റുകൾ പുറത്തിറക്കി.
അടുത്തതായി, ടിനിലാമ -1.1 ബി-തെലുങ്ക്-റോമനൈസേഷൻ-ബേസ്, ടിനിലാമ-1.1 ബി-തെലുങ്ക്-റൊമാനൈസേഷൻ-ഇൻസ്ട്രക്റ്റ് മോഡലുകൾ പുറത്തിറക്കാൻ അവർ ഉദ്ദേശിക്കുന്നു.
ഹൈദരാബാദ് ആസ്ഥാനമായുള്ള ഗൊല്ല 2018 ൽ ഇന്ത്യയിലേക്ക് മടങ്ങുന്നതിനുമുമ്പ് എട്ട് വർഷത്തോളം യുഎസിൽ പഠിക്കുകയും ജോലി ചെയ്യുകയും ചെയ്തു. അദ്ദേഹം സ്വയം ഒരു ബിൽഡർ / എഞ്ചിനീയർ എന്ന് വിശേഷിപ്പിക്കുകയും സാസ് അപ്ലിക്കേഷനുകൾ സൃഷ്ടിക്കാൻ ഇഷ്ടപ്പെടുകയും ചെയ്യുന്നു. 100,000 ഡോളർ സംയോജിത എആർആറുള്ള രണ്ട് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സാസ് അപ്ലിക്കേഷനുകൾ ഗൊല്ല വിജയകരമായി വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്. കൂടാതെ, അദ്ദേഹം ഉഡെമിയിലും സ്വന്തം പ്ലാറ്റ്ഫോമിലും ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് കോഴ്സുകൾ എടുക്കുന്നു.
മറുവശത്ത്, ലാമാ ഇൻഡെക്സിൽ ഡെവലപ്പർ അഡ്വക്കേറ്റ് എഞ്ചിനീയറായി തേജ ജോലി ചെയ്യുന്നു. ഈ റോളിന് മുമ്പ്, ഗ്ലാൻസിൽ സീനിയർ എം എൽ എഞ്ചിനീയറായി സേവനമനുഷ്ഠിച്ച അദ്ദേഹം അവിടെ ശുപാർശ സിസ്റ്റങ്ങളിലും ജെൻഎഐ ആപ്ലിക്കേഷനുകളിലും പ്രവർത്തിച്ചു.
തെലുങ്ക് ലാമയ്ക്ക് പിന്നിലെ പ്രചോദനം
“ക്വോറ തലത്തിലുള്ള ചോദ്യങ്ങളും ഉത്തരങ്ങളും സൃഷ്ടിക്കുക എന്നതായിരുന്നു രവിയുടെയും എന്റെയും ആത്യന്തിക ലക്ഷ്യം,” ഗൊല്ല പറഞ്ഞു, ക്വോറയ്ക്ക് ഹൈ.ക്വോറ, തെലുങ്ക്.ക്വോറ തുടങ്ങിയ പ്രാദേശിക പേജുകളുണ്ട്, അവിടെ ഉപയോക്താക്കൾ പ്രാദേശിക ചോദ്യങ്ങളുമായും ഉത്തരങ്ങളുമായും ഇടപഴകുന്നു.
മാത്രമല്ല, ഓപ്പൺ സോഴ്സ് മോഡലുകൾ ജിപിടി -3.5 പോലുള്ള ഓപ്പൺഎഐ മോഡലുകളുടെ പ്രാരംഭ പതിപ്പുകളുടെ നിലവാരം വരെ പിടിച്ചിട്ടുണ്ടെന്നും അദ്ദേഹം പറഞ്ഞു. “അതിനാൽ ഇപ്പോൾ, പ്രാദേശിക ഭാഷകൾക്കായി എന്തെങ്കിലും നിർമ്മിക്കുന്നത് അർത്ഥവത്താണ്, കാരണം ഔട്ട്പുട്ടിന്റെ ഗുണനിലവാരം ആളുകൾ പ്രതീക്ഷിക്കുന്നതിനോട് പൊരുത്തപ്പെടുന്നു,” അദ്ദേഹം കൂട്ടിച്ചേർത്തു.
കൂടാതെ, സാംസ്കാരികമായി വേരൂന്നിയ എൽഎൽഎമ്മിന്റെ ആവശ്യകത അദ്ദേഹം അടിവരയിടുന്നു. “നമ്മൾ ആഘോഷിക്കുന്ന ഉത്സവങ്ങൾ, വിവാഹത്തിൽ സ്വീകരിക്കുന്ന സാംസ്കാരിക മാനദണ്ഡങ്ങൾ, മതവികാരങ്ങൾ പോലും വ്യത്യസ്തമാണ്. അതിനാൽ, സന്ദർഭ-നിർദ്ദിഷ്ട ചോദ്യങ്ങളും ഉത്തരങ്ങളും നൽകുന്നതിന് ഞങ്ങൾക്ക് പ്രാദേശികമായി വേരൂന്നിയ എൽഎൽഎമ്മുകൾ ആവശ്യമാണ്, “അദ്ദേഹം പറഞ്ഞു.
ഡാറ്റാ ശേഖരണം
തെലുങ്ക് എൽഎൽഎം ലാബ്സ് അടുത്തിടെ രണ്ട് തെലുങ്ക് ഡാറ്റാസെറ്റുകൾ പുറത്തിറക്കി – റൊമാനൈസ്ഡ് തെലുങ്ക് പ്രീട്രെയിനിംഗ് ഡാറ്റാസെറ്റ്, എസ്എഫ്ടി (മേൽനോട്ടം വഹിക്കുന്ന ഫൈൻ ട്യൂണിംഗ് ഡാറ്റാസെറ്റ്) എന്നിവ തെലുങ്കിൽ (നേറ്റീവ് + റൊമാനൈസ്ഡ്). വാട്ട്സ്ആപ്പ് അല്ലെങ്കിൽ യൂട്യൂബ് കമന്റുകൾ പോലുള്ള ഓൺലൈൻ സംഭാഷണങ്ങളിൽ ഭൂരിഭാഗവും റോമനൈസ്ഡ് തെലുങ്കിലാണ് സംഭവിക്കുന്നത് എന്നതാണ് റോമനൈസ്ഡ് തെലുങ്ക് ഡാറ്റാസെറ്റ് സൃഷ്ടിക്കുന്നതിന് പിന്നിലെ കാരണം. “ఎాాా硜నాాాాాాాాాాాాాాాాాానాాాాాాా (നിങ്ങൾക്ക് എങ്ങനെയുണ്ട്?), മിക്ക ഓൺലൈൻ ഇടപെടലുകൾക്കും ഒരു റോമനൈസ്ഡ് സ്ക്രിപ്റ്റ് ഉപയോഗിച്ച് ആളുകൾ “എല ഉന്നരു” എന്ന് ടൈപ്പുചെയ്യുന്നു, “ഗൊല്ല പറഞ്ഞു.
“ഇംഗ്ലീഷ് ഡാറ്റാസെറ്റുകൾക്ക് മുകളിൽ ഞങ്ങൾ ഈ രണ്ട് അധിക ഡാറ്റാസെറ്റുകൾ സൃഷ്ടിച്ചു, പക്ഷേ ഒരു ക്യാച്ച് മാത്രം. ‘ഇംഗ്ലീഷ് ഭാഷാ നിർദ്ദിഷ്ട’ അല്ലെങ്കിൽ ‘കോഡിംഗുമായി ബന്ധപ്പെട്ട’ വരികൾ നീക്കംചെയ്യുന്നതിന് ഞങ്ങൾ അവയെ എൻഎൽപി ക്ലാസിഫിക്കേഷൻ സംവിധാനങ്ങൾ ഉപയോഗിച്ച് ഫിൽട്ടർ ചെയ്തു, അതിനാൽ ഫലമായ ഡാറ്റാസെറ്റ് ശുദ്ധവും സമഗ്രവുമാണ്, “അദ്ദേഹം കൂട്ടിച്ചേർത്തു.
കൂടാതെ, അവർ കൾട്ടുറാക്സ് എടുക്കുകയും culturaX_telugu ഡാറ്റാസെറ്റിൽ നിന്ന് ആദ്യത്തെ 108 കെ വരികൾ റോമനൈസ് ചെയ്യുകയും ചെയ്തു. “ടൈനിലാമ 1.1 ബി പോലുള്ള ഒരു ചെറിയ എൽഎൽഎമ്മിനായി സിഎൽഎമ്മിനായി (കാഷ്വൽ ലാംഗ്വേജ് മോഡൽ / അടുത്ത വാക്ക് പ്രവചനം) അധിക പ്രീ-ട്രെയിനിംഗ് നടത്താൻ നിങ്ങൾ ആഗ്രഹിക്കുന്നുവെങ്കിൽ ഈ ഡാറ്റാസെറ്റ് അനുയോജ്യമാണ്,” തേജ പറഞ്ഞു.
കൂടാതെ, ഗൊല്ലയും തേജയും ഏറ്റവും ജനപ്രിയ വാർത്താ വെബ്സൈറ്റുകൾക്കോ ടിവി ചാനൽ വെബ്സൈറ്റുകൾക്കോ ഇഷ് ടാനുസൃത സ്ക്രാപ്പറുകൾ നിർമ്മിക്കുന്നു, അവിടെ അവർ പ്രസക്തമായ ലേഖനങ്ങൾ ശേഖരിക്കുന്നു. “സമയവും ഗുണനിലവാരവും ശരിയായിരിക്കുമ്പോൾ ഞങ്ങൾ അത് പുറത്തുവിടും. തെലുങ്ക് എൽഎൽഎം ലാബുകളിൽ നിന്നുള്ള ഏറ്റവും വലിയ സംഭാവനകളിലൊന്നായിരിക്കും ഇത്, “ഗൊല്ല പറഞ്ഞു.
കമ്പ്യൂട്ടിംഗ് വീക്ഷണകോണിൽ നിന്ന്, തെലുങ്ക് ലാമയ്ക്ക് Jarvislabs.ai മറ്റ് നിരവധി ജിപിയു ദാതാക്കളിൽ നിന്നും പിന്തുണ ലഭിച്ചു, എന്നിരുന്നാലും ഇത് പ്രാഥമികമായി സ്വന്തം കമ്പ്യൂട്ടിംഗ് വിഭവങ്ങളെ ആശ്രയിച്ചിരുന്നു.
ഈ സംരംഭം ആരംഭിച്ചപ്പോൾ, പരിമിതമായ കമ്പ്യൂട്ടിംഗ് വിഭവങ്ങളുമായി പ്രവർത്തിക്കാൻ അവർ തയ്യാറാണെന്നും പുരോഗതി തടസ്സപ്പെടില്ലെന്ന് ഉറപ്പാക്കിയെന്നും ഗൊല്ല എടുത്തുപറഞ്ഞു. തെലുങ്കിലും ഇംഗ്ലീഷിലും ടെക്സ്റ്റ് സൃഷ്ടിക്കുന്ന 3 ബില്യൺ പാരാമീറ്റർ മോഡലുകൾ പരീക്ഷിക്കാൻ തേജയും ഗൊല്ലയും ഇപ്പോൾ പദ്ധതിയിടുന്നു.
