മൈക്രോസോഫ്റ്റ് സ്മോൾ ലാംഗ്വേജ് മോഡൽ ഫൈ -2 അവതരിപ്പിച്ചു: എന്താണ് എസ്എൽഎം, ചാറ്റ്ജിപിടി പോലുള്ള എൽഎൽഎമ്മുകളിൽ നിന്ന് അവ എങ്ങനെ വ്യത്യസ്തമാണ്?

You are currently viewing മൈക്രോസോഫ്റ്റ് സ്മോൾ ലാംഗ്വേജ് മോഡൽ ഫൈ -2 അവതരിപ്പിച്ചു: എന്താണ് എസ്എൽഎം, ചാറ്റ്ജിപിടി പോലുള്ള എൽഎൽഎമ്മുകളിൽ നിന്ന് അവ എങ്ങനെ വ്യത്യസ്തമാണ്?

ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ്, എൽഎൽഎമ്മുകൾ (ലാർജ് ലാംഗ്വേജ് മോഡലുകൾ) എന്നിവയുടെ ലോകത്ത് തകർപ്പൻ നീക്കത്തിൽ, മൈക്രോസോഫ്റ്റ് ഒരു കോംപാക്റ്റ് അല്ലെങ്കിൽ ചെറിയ ഭാഷാ മോഡൽ (എസ്എൽഎം) ഫൈ 2 അവതരിപ്പിച്ചു. ഫി 1.5 ന്റെ നവീകരിച്ച പതിപ്പായി സ്ഥാപിച്ചിരിക്കുന്ന ഫൈ 2 നിലവിൽ അഷ്വർ എഐ സ്റ്റുഡിയോ മോഡൽ കാറ്റലോഗ് വഴി ആക്സസ് ചെയ്യാൻ കഴിയും.

വിവിധ ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ബെഞ്ച്മാർക്ക് ടെസ്റ്റുകളിൽ ലാമ 2, മിസ്ട്രൽ, ജെമിനി 2 തുടങ്ങിയ വലിയ എതിരാളികളെ മറികടക്കാൻ ഈ പുതിയ മോഡലിന് കഴിയുമെന്ന് മൈക്രോസോഫ്റ്റ് അവകാശപ്പെടുന്നു.

മൈക്രോസോഫ്റ്റിന്റെ ഗവേഷണ സംഘത്തിന്റെ ശ്രമങ്ങളുടെ ഫലമാണ് ഇഗ്നൈറ്റ് 2023 ൽ സത്യ നാദെല്ലയുടെ പ്രഖ്യാപനത്തെത്തുടർന്ന് ഈ ആഴ്ച ആദ്യം അവതരിപ്പിച്ച ഫൈ 2.

ജനറേറ്റീവ് ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലിന് “സാമാന്യബുദ്ധി,”, “ഭാഷാ ധാരണ”, “യുക്തിസഹമായ യുക്തി” തുടങ്ങിയ ആട്രിബ്യൂട്ടുകൾ ഉണ്ടെന്ന് അവകാശപ്പെടുന്നു. നിർദ്ദിഷ്ട ടാസ്ക്കുകളിൽ 25 മടങ്ങ് വലുപ്പമുള്ള മോഡലുകളെക്കാൾ മികച്ചതാണ് ഫൈ -2 എന്ന് മൈക്രോസോഫ്റ്റ് അവകാശപ്പെടുന്നു.

സിന്തറ്റിക് ഡാറ്റാസെറ്റുകൾ, പൊതുവിജ്ഞാനം, മനസ്സിന്റെ സിദ്ധാന്തം, ദൈനംദിന പ്രവർത്തനങ്ങൾ എന്നിവയുൾപ്പെടെയുള്ള “പാഠപുസ്തക-ഗുണനിലവാരമുള്ള” ഡാറ്റ ഉപയോഗിച്ച് പരിശീലനം നേടിയ ഫൈ -2 അടുത്ത വാക്ക് പ്രവചന ലക്ഷ്യം പോലുള്ള കഴിവുകൾ ഉൾക്കൊള്ളുന്ന ഒരു ട്രാൻസ്ഫോർമർ അധിഷ്ഠിത മോഡലാണ്.

ജിപിടി -4 പോലുള്ള വലിയ മോഡലുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ ഫൈ -2 പരിശീലനം കൂടുതൽ ലളിതവും ചെലവ് കുറഞ്ഞതുമാണെന്ന് മൈക്രോസോഫ്റ്റ് സൂചിപ്പിക്കുന്നു, ഇത് പതിനായിരക്കണക്കിന് എ 100 ടെൻസർ കോർ ജിപിയുകൾ ഉപയോഗിച്ച് പരിശീലനത്തിന് 90-100 ദിവസമെടുക്കുമെന്ന് റിപ്പോർട്ടുണ്ട്.

സങ്കീർണ്ണമായ ഗണിത സമവാക്യങ്ങളും ഭൗതികശാസ്ത്ര പ്രശ്നങ്ങളും പരിഹരിക്കാനും വിദ്യാർത്ഥികളുടെ കണക്കുകൂട്ടലുകളിലെ പിശകുകൾ തിരിച്ചറിയാനും കഴിയുന്നതിനാൽ ഫൈ -2 ന്റെ കഴിവുകൾ ഭാഷാ പ്രോസസ്സിംഗിനപ്പുറത്തേക്ക് വ്യാപിക്കുന്നു. കോമൺസെൻസ് റീസണിംഗ്, ഭാഷാ ധാരണ, കണക്ക്, കോഡിംഗ് എന്നിവ ഉൾക്കൊള്ളുന്ന ബെഞ്ച്മാർക്ക് ടെസ്റ്റുകളിൽ, ഫൈ -2 13 ബി ലാമ -2, 7 ബി മിസ്ട്രൽ തുടങ്ങിയ മോഡലുകളെക്കാൾ മികച്ചതാണ്.

ഇത് 70 ബി ലാമ -2 എൽഎൽഎമ്മിനെ ഗണ്യമായ മാർജിനിൽ മറികടക്കുന്നു, കൂടാതെ ഗൂഗിൾ പിക്സൽ 8 പ്രോയിൽ തദ്ദേശീയമായി പ്രവർത്തിക്കാൻ രൂപകൽപ്പന ചെയ്ത 3.25 ബി മോഡലായ ഗൂഗിൾ ജെമിനി നാനോ 2 നെക്കാൾ മികച്ചതാണ്.

സ്വാഭാവിക ഭാഷാ പ്രോസസിംഗിന്റെ അതിവേഗം വികസിച്ചുകൊണ്ടിരിക്കുന്ന മേഖലയിൽ, ചെറിയ ഭാഷാ മോഡലുകൾ ശക്തമായ മത്സരാർത്ഥികളായി ഉയർന്നുവരുന്നു, കൂടുതൽ സാധാരണമായ എൽഎൽഎമ്മുകളേക്കാൾ അല്ലെങ്കിൽ വലിയ ഭാഷാ മോഡലുകളേക്കാൾ നിർദ്ദിഷ്ട ഉപയോഗ കേസുകളും സന്ദർഭോചിത ആവശ്യങ്ങളും നിറവേറ്റുന്ന നിരവധി ആനുകൂല്യങ്ങൾ വാഗ്ദാനം ചെയ്യുന്നു. ഈ ഗുണങ്ങൾ ഭാഷാ പ്രോസസ്സിംഗ് സാങ്കേതികവിദ്യകളുടെ ലാൻഡ്സ്കേപ്പ് പുനർനിർമ്മിക്കുന്നു. കോംപാക്റ്റ് ഭാഷാ മോഡലുകളുടെ ചില പ്രധാന ഗുണങ്ങൾ ഇതാ:

കമ്പ്യൂട്ടേഷണൽ കാര്യക്ഷമത: ചെറിയ ഭാഷാ മോഡലുകൾ പരിശീലനത്തിനും അനുമാനത്തിനും കുറഞ്ഞ കംപ്യൂട്ടേഷണൽ ശക്തി ആവശ്യപ്പെടുന്നു, ഇത് പരിമിതമായ വിഭവങ്ങളുള്ള ഉപയോക്താക്കൾക്കോ കുറഞ്ഞ കമ്പ്യൂട്ടിംഗ് കഴിവുകളുള്ള ഉപകരണങ്ങളിലോ കൂടുതൽ പ്രായോഗികമായ ഓപ്ഷനായി മാറുന്നു.

സ്വിഫ്റ്റ് അനുമാനം: ചെറിയ മോഡലുകൾ വേഗതയേറിയ അനുമാന സമയങ്ങൾ അവകാശപ്പെടുന്നു, ഇത് വിജയത്തിന് കുറഞ്ഞ കാലതാമസം പരമപ്രധാനമായ തത്സമയ ആപ്ലിക്കേഷനുകൾക്ക് അനുയോജ്യമാക്കുന്നു.

റിസോഴ്സ്-ഫ്രണ്ട്ലി: കോംപാക്റ്റ് ഭാഷാ മോഡലുകൾ, രൂപകൽപ്പന അനുസരിച്ച്, കുറഞ്ഞ മെമ്മറി ഉപയോഗിക്കുന്നു, ഇത് സ്മാർട്ട്ഫോണുകൾ അല്ലെങ്കിൽ എഡ്ജ് ഉപകരണങ്ങൾ പോലുള്ള പരിമിതമായ വിഭവങ്ങളുള്ള ഉപകരണങ്ങളിൽ വിന്യസിക്കുന്നതിന് അനുയോജ്യമാക്കുന്നു.

ഊർജ്ജ കാര്യക്ഷമത: കുറഞ്ഞ വലുപ്പവും സങ്കീർണ്ണതയും കാരണം, ചെറിയ മോഡലുകൾ പരിശീലനത്തിലും അനുമാനത്തിലും കുറഞ്ഞ ഊർജ്ജം ഉപയോഗിക്കുന്നു, ഊർജ്ജ കാര്യക്ഷമത നിർണായക ആശങ്കയുള്ള ആപ്ലിക്കേഷനുകൾ നിറവേറ്റുന്നു.

കുറഞ്ഞ പരിശീലന സമയം: ചെറിയ മോഡലുകളെ പരിശീലിപ്പിക്കുന്നത് അവയുടെ വലിയ എതിരാളികളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ സമയ-കാര്യക്ഷമമായ പ്രക്രിയയാണ്, ഇത് ദ്രുത മോഡൽ ആവർത്തനവും വിന്യാസവും അത്യാവശ്യമായ സാഹചര്യങ്ങളിൽ ഗണ്യമായ നേട്ടം നൽകുന്നു.

മെച്ചപ്പെട്ട വ്യാഖ്യാനക്ഷമത: ചെറിയ മോഡലുകൾ പലപ്പോഴും വ്യാഖ്യാനിക്കാനും മനസ്സിലാക്കാനും കൂടുതൽ ലളിതമാണ്. മെഡിക്കൽ അല്ലെങ്കിൽ നിയമ സന്ദർഭങ്ങളിൽ കാണുന്നതുപോലെ മോഡൽ വ്യാഖ്യാനവും സുതാര്യതയും പരമപ്രധാനമായ ആപ്ലിക്കേഷനുകളിൽ ഇത് പ്രത്യേകിച്ചും നിർണായകമാണ്.

ചെലവ് കുറഞ്ഞ പരിഹാരങ്ങൾ: ചെറിയ മോഡലുകളുടെ പരിശീലനവും വിന്യാസവും കമ്പ്യൂട്ടേഷണൽ വിഭവങ്ങളുടെയും സമയത്തിന്റെയും കാര്യത്തിൽ ചെലവ് കുറവാണ്. ഈ പ്രവേശനക്ഷമത ബജറ്റ് പരിമിതികളുള്ള വ്യക്തികൾക്കോ ഓർഗനൈസേഷനുകൾക്കോ ഒരു പ്രായോഗിക തിരഞ്ഞെടുപ്പാക്കി മാറ്റുന്നു.

നിർദ്ദിഷ്ട ഡൊമെയ്നുകൾക്കായി രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു: ചില പ്രത്യേക അല്ലെങ്കിൽ ഡൊമെയ്ൻ നിർദ്ദിഷ്ട ആപ്ലിക്കേഷനുകളിൽ, ഒരു ചെറിയ മോഡൽ ഒരു വലിയ, പൊതു-ഉദ്ദേശ്യ ഭാഷാ മോഡലിനേക്കാൾ പര്യാപ്തവും അനുയോജ്യവുമാണെന്ന് തെളിയിച്ചേക്കാം.

ചെറുതും വലുതുമായ ഭാഷാ മോഡലുകൾ തമ്മിലുള്ള തീരുമാനം ഓരോ ജോലിയുടെയും നിർദ്ദിഷ്ട ആവശ്യകതകളെ ആശ്രയിച്ചിരിക്കുന്നുവെന്ന് ഊന്നിപ്പറയേണ്ടത് നിർണായകമാണ്. വൈവിധ്യമാർന്ന ഡാറ്റയിൽ സങ്കീർണ്ണമായ പാറ്റേണുകൾ പിടിച്ചെടുക്കുന്നതിൽ വലിയ മോഡലുകൾ മികവ് പുലർത്തുമ്പോൾ, കാര്യക്ഷമത, വേഗത, വിഭവ പരിമിതികൾ എന്നിവയ്ക്ക് മുൻഗണന നൽകുന്ന സാഹചര്യങ്ങളിൽ ചെറിയ മോഡലുകൾ വിലമതിക്കാനാവാത്തതാണെന്ന് തെളിയിക്കുന്നു.

(ഏജന് സികളില് നിന്നുള്ള വിവരങ്ങളുടെ അടിസ്ഥാനത്തില് )

[Read the original article here](https://www.firstpost.com/tech/microsoft-launches-small-language-model-phi-2-what-are-slms-how-are-they-different-to-llms-like-chatgpt-13514872.html)

Dr Bibin

Experienced Researcher with a demonstrated history of working in the Deep Learning, Computer Vision

Leave a Reply