തെലുങ്ക് ലാമയെ പരിചയപ്പെടുക

കഴിഞ്ഞ വർഷം, പ്രാദേശിക ലാമ അടിസ്ഥാനമാക്കിയുള്ള മോഡലുകളുടെ ഒരു ലിസ്റ്റ് ഞങ്ങൾ തയ്യാറാക്കി, അവയിൽ തെലുങ്ക് ലാമയും ഉൾപ്പെടുന്നു. അക്കാലത്ത്, മോഡൽ ഇപ്പോഴും പുരോഗമിച്ചുകൊണ്ടിരിക്കുകയായിരുന്നു. എന്നിരുന്നാലും, അതിന്റെ സ്രഷ്ടാക്കളായ രവി തേജ, രാംശ്രീ ഗൗതം ഗൊല്ല എന്നിവർ അടുത്തിടെ ഇത് ഹഗ്ഗിംഗ് ഫെയ്സിൽ ലഭ്യമാക്കി.

“പിആർ അതിന്റെ സമയത്തേക്കാൾ അൽപ്പം മുന്നിലായിരുന്നു, അതിനാൽ ഞങ്ങൾക്ക് പിടിക്കേണ്ടിവന്നു,” ഞങ്ങളുടെ കഥ ഉത്തേജകമായി പ്രവർത്തിച്ചുവെന്നും തെലുങ്ക് ലാമയുടെ വികസനം ത്വരിതപ്പെടുത്താൻ അദ്ദേഹത്തെ പ്രചോദിപ്പിച്ചുവെന്നും സൂചിപ്പിച്ച് എഐഎമ്മിന് നൽകിയ പ്രത്യേക അഭിമുഖത്തിൽ ഗൊല്ല തമാശയായി പറഞ്ഞു.

ഗൊല്ലയുടെയും തേജയുടെയും ഒരു പാഷൻ പ്രോജക്റ്റാണ് തെലുങ്ക് ലാമ. കഴിഞ്ഞയാഴ്ച, അവർ തെലുങ്ക്-എൽഎൽഎം-ലാബ്സ് അവതരിപ്പിച്ചു, ഒരു സഹകരണ സ്വതന്ത്ര ശ്രമം, അവിടെ അവർ തെലുങ്കിലേക്ക് വിവർത്തനം ചെയ്യുകയും റോമനൈസ് ചെയ്യുകയും ചെയ്ത ഡാറ്റാസെറ്റുകൾ പുറത്തിറക്കി.

അടുത്തതായി, ടിനിലാമ -1.1 ബി-തെലുങ്ക്-റോമനൈസേഷൻ-ബേസ്, ടിനിലാമ-1.1 ബി-തെലുങ്ക്-റൊമാനൈസേഷൻ-ഇൻസ്ട്രക്റ്റ് മോഡലുകൾ പുറത്തിറക്കാൻ അവർ ഉദ്ദേശിക്കുന്നു.

ഹൈദരാബാദ് ആസ്ഥാനമായുള്ള ഗൊല്ല 2018 ൽ ഇന്ത്യയിലേക്ക് മടങ്ങുന്നതിനുമുമ്പ് എട്ട് വർഷത്തോളം യുഎസിൽ പഠിക്കുകയും ജോലി ചെയ്യുകയും ചെയ്തു. അദ്ദേഹം സ്വയം ഒരു ബിൽഡർ / എഞ്ചിനീയർ എന്ന് വിശേഷിപ്പിക്കുകയും സാസ് അപ്ലിക്കേഷനുകൾ സൃഷ്ടിക്കാൻ ഇഷ്ടപ്പെടുകയും ചെയ്യുന്നു. 100,000 ഡോളർ സംയോജിത എആർആറുള്ള രണ്ട് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് സാസ് അപ്ലിക്കേഷനുകൾ ഗൊല്ല വിജയകരമായി വികസിപ്പിച്ചെടുത്തിട്ടുണ്ട്. കൂടാതെ, അദ്ദേഹം ഉഡെമിയിലും സ്വന്തം പ്ലാറ്റ്ഫോമിലും ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് കോഴ്സുകൾ എടുക്കുന്നു.

മറുവശത്ത്, ലാമാ ഇൻഡെക്സിൽ ഡെവലപ്പർ അഡ്വക്കേറ്റ് എഞ്ചിനീയറായി തേജ ജോലി ചെയ്യുന്നു. ഈ റോളിന് മുമ്പ്, ഗ്ലാൻസിൽ സീനിയർ എം എൽ എഞ്ചിനീയറായി സേവനമനുഷ്ഠിച്ച അദ്ദേഹം അവിടെ ശുപാർശ സിസ്റ്റങ്ങളിലും ജെൻഎഐ ആപ്ലിക്കേഷനുകളിലും പ്രവർത്തിച്ചു.

തെലുങ്ക് ലാമയ്ക്ക് പിന്നിലെ പ്രചോദനം

“ക്വോറ തലത്തിലുള്ള ചോദ്യങ്ങളും ഉത്തരങ്ങളും സൃഷ്ടിക്കുക എന്നതായിരുന്നു രവിയുടെയും എന്റെയും ആത്യന്തിക ലക്ഷ്യം,” ഗൊല്ല പറഞ്ഞു, ക്വോറയ്ക്ക് ഹൈ.ക്വോറ, തെലുങ്ക്.ക്വോറ തുടങ്ങിയ പ്രാദേശിക പേജുകളുണ്ട്, അവിടെ ഉപയോക്താക്കൾ പ്രാദേശിക ചോദ്യങ്ങളുമായും ഉത്തരങ്ങളുമായും ഇടപഴകുന്നു.

മാത്രമല്ല, ഓപ്പൺ സോഴ്സ് മോഡലുകൾ ജിപിടി -3.5 പോലുള്ള ഓപ്പൺഎഐ മോഡലുകളുടെ പ്രാരംഭ പതിപ്പുകളുടെ നിലവാരം വരെ പിടിച്ചിട്ടുണ്ടെന്നും അദ്ദേഹം പറഞ്ഞു. “അതിനാൽ ഇപ്പോൾ, പ്രാദേശിക ഭാഷകൾക്കായി എന്തെങ്കിലും നിർമ്മിക്കുന്നത് അർത്ഥവത്താണ്, കാരണം ഔട്ട്പുട്ടിന്റെ ഗുണനിലവാരം ആളുകൾ പ്രതീക്ഷിക്കുന്നതിനോട് പൊരുത്തപ്പെടുന്നു,” അദ്ദേഹം കൂട്ടിച്ചേർത്തു.

കൂടാതെ, സാംസ്കാരികമായി വേരൂന്നിയ എൽഎൽഎമ്മിന്റെ ആവശ്യകത അദ്ദേഹം അടിവരയിടുന്നു. “നമ്മൾ ആഘോഷിക്കുന്ന ഉത്സവങ്ങൾ, വിവാഹത്തിൽ സ്വീകരിക്കുന്ന സാംസ്കാരിക മാനദണ്ഡങ്ങൾ, മതവികാരങ്ങൾ പോലും വ്യത്യസ്തമാണ്. അതിനാൽ, സന്ദർഭ-നിർദ്ദിഷ്ട ചോദ്യങ്ങളും ഉത്തരങ്ങളും നൽകുന്നതിന് ഞങ്ങൾക്ക് പ്രാദേശികമായി വേരൂന്നിയ എൽഎൽഎമ്മുകൾ ആവശ്യമാണ്, “അദ്ദേഹം പറഞ്ഞു.

ഡാറ്റാ ശേഖരണം

തെലുങ്ക് എൽഎൽഎം ലാബ്സ് അടുത്തിടെ രണ്ട് തെലുങ്ക് ഡാറ്റാസെറ്റുകൾ പുറത്തിറക്കി – റൊമാനൈസ്ഡ് തെലുങ്ക് പ്രീട്രെയിനിംഗ് ഡാറ്റാസെറ്റ്, എസ്എഫ്ടി (മേൽനോട്ടം വഹിക്കുന്ന ഫൈൻ ട്യൂണിംഗ് ഡാറ്റാസെറ്റ്) എന്നിവ തെലുങ്കിൽ (നേറ്റീവ് + റൊമാനൈസ്ഡ്). വാട്ട്സ്ആപ്പ് അല്ലെങ്കിൽ യൂട്യൂബ് കമന്റുകൾ പോലുള്ള ഓൺലൈൻ സംഭാഷണങ്ങളിൽ ഭൂരിഭാഗവും റോമനൈസ്ഡ് തെലുങ്കിലാണ് സംഭവിക്കുന്നത് എന്നതാണ് റോമനൈസ്ഡ് തെലുങ്ക് ഡാറ്റാസെറ്റ് സൃഷ്ടിക്കുന്നതിന് പിന്നിലെ കാരണം. “ఎాాా硜నాాాాాాాాాాాాాాాాాానాాాాాాా (നിങ്ങൾക്ക് എങ്ങനെയുണ്ട്?), മിക്ക ഓൺലൈൻ ഇടപെടലുകൾക്കും ഒരു റോമനൈസ്ഡ് സ്ക്രിപ്റ്റ് ഉപയോഗിച്ച് ആളുകൾ “എല ഉന്നരു” എന്ന് ടൈപ്പുചെയ്യുന്നു, “ഗൊല്ല പറഞ്ഞു.

“ഇംഗ്ലീഷ് ഡാറ്റാസെറ്റുകൾക്ക് മുകളിൽ ഞങ്ങൾ ഈ രണ്ട് അധിക ഡാറ്റാസെറ്റുകൾ സൃഷ്ടിച്ചു, പക്ഷേ ഒരു ക്യാച്ച് മാത്രം. ‘ഇംഗ്ലീഷ് ഭാഷാ നിർദ്ദിഷ്ട’ അല്ലെങ്കിൽ ‘കോഡിംഗുമായി ബന്ധപ്പെട്ട’ വരികൾ നീക്കംചെയ്യുന്നതിന് ഞങ്ങൾ അവയെ എൻഎൽപി ക്ലാസിഫിക്കേഷൻ സംവിധാനങ്ങൾ ഉപയോഗിച്ച് ഫിൽട്ടർ ചെയ്തു, അതിനാൽ ഫലമായ ഡാറ്റാസെറ്റ് ശുദ്ധവും സമഗ്രവുമാണ്, “അദ്ദേഹം കൂട്ടിച്ചേർത്തു.

കൂടാതെ, അവർ കൾട്ടുറാക്സ് എടുക്കുകയും culturaX_telugu ഡാറ്റാസെറ്റിൽ നിന്ന് ആദ്യത്തെ 108 കെ വരികൾ റോമനൈസ് ചെയ്യുകയും ചെയ്തു. “ടൈനിലാമ 1.1 ബി പോലുള്ള ഒരു ചെറിയ എൽഎൽഎമ്മിനായി സിഎൽഎമ്മിനായി (കാഷ്വൽ ലാംഗ്വേജ് മോഡൽ / അടുത്ത വാക്ക് പ്രവചനം) അധിക പ്രീ-ട്രെയിനിംഗ് നടത്താൻ നിങ്ങൾ ആഗ്രഹിക്കുന്നുവെങ്കിൽ ഈ ഡാറ്റാസെറ്റ് അനുയോജ്യമാണ്,” തേജ പറഞ്ഞു.

കൂടാതെ, ഗൊല്ലയും തേജയും ഏറ്റവും ജനപ്രിയ വാർത്താ വെബ്സൈറ്റുകൾക്കോ ടിവി ചാനൽ വെബ്സൈറ്റുകൾക്കോ ഇഷ് ടാനുസൃത സ്ക്രാപ്പറുകൾ നിർമ്മിക്കുന്നു, അവിടെ അവർ പ്രസക്തമായ ലേഖനങ്ങൾ ശേഖരിക്കുന്നു. “സമയവും ഗുണനിലവാരവും ശരിയായിരിക്കുമ്പോൾ ഞങ്ങൾ അത് പുറത്തുവിടും. തെലുങ്ക് എൽഎൽഎം ലാബുകളിൽ നിന്നുള്ള ഏറ്റവും വലിയ സംഭാവനകളിലൊന്നായിരിക്കും ഇത്, “ഗൊല്ല പറഞ്ഞു.

കമ്പ്യൂട്ടിംഗ് വീക്ഷണകോണിൽ നിന്ന്, തെലുങ്ക് ലാമയ്ക്ക് Jarvislabs.ai മറ്റ് നിരവധി ജിപിയു ദാതാക്കളിൽ നിന്നും പിന്തുണ ലഭിച്ചു, എന്നിരുന്നാലും ഇത് പ്രാഥമികമായി സ്വന്തം കമ്പ്യൂട്ടിംഗ് വിഭവങ്ങളെ ആശ്രയിച്ചിരുന്നു.

ഈ സംരംഭം ആരംഭിച്ചപ്പോൾ, പരിമിതമായ കമ്പ്യൂട്ടിംഗ് വിഭവങ്ങളുമായി പ്രവർത്തിക്കാൻ അവർ തയ്യാറാണെന്നും പുരോഗതി തടസ്സപ്പെടില്ലെന്ന് ഉറപ്പാക്കിയെന്നും ഗൊല്ല എടുത്തുപറഞ്ഞു. തെലുങ്കിലും ഇംഗ്ലീഷിലും ടെക്സ്റ്റ് സൃഷ്ടിക്കുന്ന 3 ബില്യൺ പാരാമീറ്റർ മോഡലുകൾ പരീക്ഷിക്കാൻ തേജയും ഗൊല്ലയും ഇപ്പോൾ പദ്ധതിയിടുന്നു.

Dr Bibin

Experienced Researcher with a demonstrated history of working in the Deep Learning, Computer Vision

തെലുങ്ക് ലാമയ്ക്ക് പിന്നിലെ പ്രചോദനം

ഡാറ്റാ ശേഖരണം

You May Also Like

പാരിസ്ഥിതിക പരിഹാരത്തിൽ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന്റെ ഭാവി മൂല്യം

ഗൂഗിൾ ക്ലൗഡ് സിഇഒ: പുതിയ ആലിംഗനം എഐ പങ്കാളിത്തം ഡെവലപ്പർമാർക്ക് ജെൻഎഐയെ കൂടുതൽ 'സ്വാധീനം' നൽകുന്നു

NLP-യുടെ ഉത്ഭവം