ആഴത്തിലുള്ള പഠന മോഡലുകൾ മനുഷ്യ ശ്രവണ പ്രോസസ്സിംഗ് അനുകരിക്കുന്നു

You are currently viewing ആഴത്തിലുള്ള പഠന മോഡലുകൾ മനുഷ്യ ശ്രവണ പ്രോസസ്സിംഗ് അനുകരിക്കുന്നു

മനുഷ്യ ശ്രവണ സംവിധാനത്തിന്റെ ഘടനയും പ്രവർത്തനവും അനുകരിക്കുന്ന കമ്പ്യൂട്ടേഷണൽ മോഡലുകൾ മികച്ച ശ്രവണസഹായികൾ, കോക്ലിയർ ഇംപ്ലാന്റുകൾ, മസ്തിഷ്ക-മെഷീൻ ഇന്റർഫേസുകൾ എന്നിവ രൂപകൽപ്പന ചെയ്യാൻ ഗവേഷകരെ സഹായിക്കും. മെഷീൻ ലേണിംഗിൽ നിന്ന് ഉരുത്തിരിഞ്ഞ ആധുനിക കമ്പ്യൂട്ടേഷണൽ മോഡലുകൾ ഈ ലക്ഷ്യത്തിലേക്ക് അടുക്കുന്നതായി എംഐടിയിൽ നിന്നുള്ള ഒരു പുതിയ പഠനം കണ്ടെത്തി.

ശ്രവണ ചുമതലകൾ നിർവഹിക്കാൻ പരിശീലനം ലഭിച്ച ആഴത്തിലുള്ള ന്യൂറൽ നെറ്റ്വർക്കുകളെക്കുറിച്ചുള്ള ഏറ്റവും വലിയ പഠനത്തിൽ, ഈ മോഡലുകളിൽ ഭൂരിഭാഗവും ആളുകൾ ഒരേ ശബ്ദങ്ങൾ കേൾക്കുമ്പോൾ മനുഷ്യ മസ്തിഷ്കത്തിൽ കാണുന്ന പ്രാതിനിധ്യങ്ങളുടെ ഗുണങ്ങൾ പങ്കിടുന്ന ആന്തരിക പ്രാതിനിധ്യങ്ങൾ സൃഷ്ടിക്കുന്നുവെന്ന് എംഐടി ടീം തെളിയിച്ചു.

ഇത്തരത്തിലുള്ള മോഡലിനെ എങ്ങനെ മികച്ച രീതിയിൽ പരിശീലിപ്പിക്കാമെന്നതിനെക്കുറിച്ചുള്ള ഉൾക്കാഴ്ചയും പഠനം നൽകുന്നു: പശ്ചാത്തല ശബ്ദം ഉൾപ്പെടെയുള്ള ശ്രവണ ഇൻപുട്ടിൽ പരിശീലനം നേടിയ മോഡലുകൾ മനുഷ്യ ശ്രവണ കോർട്ടെക്സിന്റെ സജീവമാക്കൽ പാറ്റേണുകളെ കൂടുതൽ അടുത്ത് അനുകരിക്കുന്നുവെന്ന് ഗവേഷകർ കണ്ടെത്തി.

ശ്രവണ സംവിധാനവുമായി ഇത്തരത്തിലുള്ള മോഡലുകളുടെ ഏറ്റവും സമഗ്രമായ താരതമ്യമാണ് ഈ പഠനത്തെ വ്യത്യസ്തമാക്കുന്നത്. മെഷീൻ ലേണിംഗിൽ നിന്ന് ഉരുത്തിരിഞ്ഞ മോഡലുകൾ ശരിയായ ദിശയിലേക്കുള്ള ഒരു ചുവടുവയ്പ്പാണെന്ന് പഠനം സൂചിപ്പിക്കുന്നു, മാത്രമല്ല അവയെ തലച്ചോറിന്റെ മികച്ച മോഡലുകളാക്കി മാറ്റുന്നതിനെക്കുറിച്ച് ഇത് ചില സൂചനകൾ നൽകുന്നു. എംഐടിയിലെ ബ്രെയിൻ ആൻഡ് കോഗ്നിറ്റീവ് സയൻസസ് അസോസിയേറ്റ് പ്രൊഫസർ ജോഷ് മക്ഡെർമോട്ട്, എംഐടിയുടെ മക്ഗവൺ ഇൻസ്റ്റിറ്റ്യൂട്ട് ഫോർ ബ്രെയിൻ റിസർച്ച്, സെന്റർ ഫോർ ബ്രെയിൻസ്, മൈൻഡ്സ് ആൻഡ് മെഷീൻസ് എന്നിവയിലെ അംഗവും പഠനത്തിന്റെ മുതിർന്ന രചയിതാവുമാണ്.

പിഎൽഒഎസ് ബയോളജിയിൽ ഇന്ന് പ്രത്യക്ഷപ്പെടുന്ന ഓപ്പൺ-ആക്സസ് പേപ്പറിന്റെ പ്രധാന രചയിതാക്കൾ എംഐടി ബിരുദ വിദ്യാർത്ഥിനികളായ ഗ്രെറ്റ ടക്കുട്ടും ജെനെല്ലെ ഫെതർ പിഎച്ച്ഡി ’22 ഉം ആണ്.

ശ്രവണത്തിന്റെ മാതൃകകൾ

നിർദ്ദിഷ്ട ജോലികൾ നിർവഹിക്കുന്നതിന് വലിയ അളവിലുള്ള ഡാറ്റയിൽ പരിശീലനം നേടാൻ കഴിയുന്ന വിവര-പ്രോസസ്സിംഗ് യൂണിറ്റുകളുടെ നിരവധി പാളികൾ ഉൾക്കൊള്ളുന്ന കമ്പ്യൂട്ടേഷണൽ മോഡലുകളാണ് ഡീപ് ന്യൂറൽ നെറ്റ്വർക്കുകൾ. ഇത്തരത്തിലുള്ള മോഡൽ പല ആപ്ലിക്കേഷനുകളിലും വ്യാപകമായി ഉപയോഗിക്കുന്നു, മനുഷ്യ മസ്തിഷ്കം ചില ജോലികൾ എങ്ങനെ നിർവഹിക്കുന്നുവെന്ന് വിവരിക്കാൻ ഈ സംവിധാനങ്ങൾ ഉപയോഗിക്കാനുള്ള സാധ്യത ന്യൂറോ സയന്റിസ്റ്റുകൾ പര്യവേക്ഷണം ചെയ്യാൻ തുടങ്ങി.

“മെഷീൻ ലേണിംഗ് ഉപയോഗിച്ച് നിർമ്മിച്ച ഈ മോഡലുകൾക്ക് മുമ്പത്തെ തരം മോഡലുകളുമായി ശരിക്കും സാധ്യമല്ലാത്ത ഒരു സ്കെയിലിൽ പെരുമാറ്റങ്ങൾക്ക് മധ്യസ്ഥത വഹിക്കാൻ കഴിയും, ഇത് മോഡലുകളിലെ പ്രാതിനിധ്യങ്ങൾ തലച്ചോറിൽ സംഭവിക്കുന്ന കാര്യങ്ങൾ പിടിച്ചെടുക്കുമോ ഇല്ലയോ എന്നതിനെക്കുറിച്ച് താൽപ്പര്യത്തിലേക്ക് നയിച്ചു,” ടക്കുട്ട് പറയുന്നു.

ഒരു ന്യൂറൽ നെറ്റ് വർക്ക് ഒരു ജോലി നിർവഹിക്കുമ്പോൾ, അതിന്റെ പ്രോസസ്സിംഗ് യൂണിറ്റുകൾ ഒരു വാക്ക് അല്ലെങ്കിൽ മറ്റ് തരത്തിലുള്ള ശബ്ദം പോലുള്ള ഓരോ ഓഡിയോ ഇൻപുട്ടിനും മറുപടിയായി സജീവമാക്കൽ പാറ്റേണുകൾ സൃഷ്ടിക്കുന്നു. ഇൻപുട്ടിന്റെ ആ മോഡൽ പ്രാതിനിധ്യങ്ങൾ ഒരേ ഇൻപുട്ട് ശ്രദ്ധിക്കുന്ന ആളുകളുടെ എഫ്എംആർഐ മസ്തിഷ്ക സ്കാനുകളിൽ കാണുന്ന ആക്ടിവേഷൻ പാറ്റേണുകളുമായി താരതമ്യപ്പെടുത്താം.

2018 ൽ, മക്ഡെർമോട്ടും അന്നത്തെ ബിരുദ വിദ്യാർത്ഥി അലക്സാണ്ടർ കെല്ലും ശ്രവണ ചുമതലകൾ (ഓഡിയോ സിഗ്നലിൽ നിന്നുള്ള വാക്കുകൾ തിരിച്ചറിയുന്നത് പോലുള്ളവ) നിർവഹിക്കാൻ ഒരു ന്യൂറൽ നെറ്റ് വർക്കിനെ പരിശീലിപ്പിച്ചപ്പോൾ, മോഡൽ സൃഷ്ടിച്ച ആന്തരിക പ്രാതിനിധ്യങ്ങൾ ഒരേ ശബ്ദങ്ങൾ കേൾക്കുന്ന ആളുകളുടെ എഫ്എംആർഐ സ്കാനുകളിൽ കാണുന്നതിനോട് സാമ്യമുണ്ടെന്ന് റിപ്പോർട്ട് ചെയ്തു.

അതിനുശേഷം, ഇത്തരത്തിലുള്ള മോഡലുകൾ വ്യാപകമായി ഉപയോഗിക്കപ്പെട്ടു, അതിനാൽ മക്ഡെർമോട്ടിന്റെ ഗവേഷണ സംഘം ഒരു വലിയ കൂട്ടം മോഡലുകൾ വിലയിരുത്താൻ പുറപ്പെട്ടു, മനുഷ്യ മസ്തിഷ്കത്തിൽ കാണുന്ന ന്യൂറൽ പ്രാതിനിധ്യങ്ങൾ കണക്കാക്കാനുള്ള കഴിവ് ഈ മോഡലുകളുടെ പൊതു സ്വഭാവമാണോ എന്ന് കാണാൻ.

ഈ പഠനത്തിനായി, ഗവേഷകർ ശ്രവണ ചുമതലകൾ നിർവഹിക്കാൻ പരിശീലനം ലഭിച്ച പൊതുവായി ലഭ്യമായ ഒമ്പത് ഡീപ് ന്യൂറൽ നെറ്റ്വർക്ക് മോഡലുകൾ വിശകലനം ചെയ്തു, കൂടാതെ രണ്ട് വ്യത്യസ്ത വാസ്തുവിദ്യകളെ അടിസ്ഥാനമാക്കി സ്വന്തമായി 14 മോഡലുകളും സൃഷ്ടിച്ചു. ഈ മോഡലുകളിൽ ഭൂരിഭാഗവും ഒരൊറ്റ ദൗത്യം നിർവഹിക്കാൻ പരിശീലനം നേടി -; വാക്കുകൾ തിരിച്ചറിയുക, സ്പീക്കറെ തിരിച്ചറിയുക, പാരിസ്ഥിതിക ശബ്ദങ്ങൾ തിരിച്ചറിയുക, സംഗീത വിഭാഗത്തെ തിരിച്ചറിയുക -; അവരിൽ രണ്ടുപേർക്ക് ഒന്നിലധികം ജോലികൾ ചെയ്യാൻ പരിശീലനം നൽകി.

മനുഷ്യ എഫ്എംആർഐ പരീക്ഷണങ്ങളിൽ ഉത്തേജകമായി ഉപയോഗിച്ച പ്രകൃതിദത്ത ശബ്ദങ്ങൾ ഉപയോഗിച്ച് ഗവേഷകർ ഈ മോഡലുകൾ അവതരിപ്പിച്ചപ്പോൾ, ആന്തരിക മോഡൽ പ്രാതിനിധ്യങ്ങൾ മനുഷ്യ മസ്തിഷ്കം സൃഷ്ടിക്കുന്ന ശബ്ദങ്ങളുമായി സാമ്യം പ്രകടിപ്പിക്കുന്നതായി അവർ കണ്ടെത്തി. തലച്ചോറിൽ കാണപ്പെടുന്നവയുമായി ഏറ്റവും സാമ്യമുള്ള മോഡലുകൾ ഒന്നിലധികം ജോലികളിൽ പരിശീലനം നേടിയവരും പശ്ചാത്തല ശബ്ദം ഉൾപ്പെടുന്ന ശ്രവണ ഇൻപുട്ടിൽ പരിശീലനം നേടിയവരുമായ മോഡലുകളായിരുന്നു.

“നിങ്ങൾ മോഡലുകളെ ശബ്ദത്തിൽ പരിശീലിപ്പിക്കുകയാണെങ്കിൽ, നിങ്ങൾ ചെയ്യാത്തതിനേക്കാൾ മികച്ച മസ്തിഷ്ക പ്രവചനങ്ങൾ അവർ നൽകുന്നു, ഇത് അവബോധപരമായി ന്യായമാണ്, കാരണം യഥാർത്ഥ ലോക ശ്രവണത്തിൽ ധാരാളം ശബ്ദത്തിൽ കേൾക്കുന്നത് ഉൾപ്പെടുന്നു, അത് ശ്രവണ സംവിധാനവുമായി പൊരുത്തപ്പെടുന്ന ഒന്നാണ്,” ഫെതർ പറയുന്നു.

ശ്രേണിപരമായ പ്രോസസ്സിംഗ്

മനുഷ്യ ശ്രവണ കോർട്ടെക്സിന് ഒരു പരിധിവരെ ശ്രേണിപരമായ ഓർഗനൈസേഷൻ ഉണ്ടെന്ന ആശയത്തെയും പുതിയ പഠനം പിന്തുണയ്ക്കുന്നു, അതിൽ പ്രോസസ്സിംഗ് വ്യത്യസ്ത കമ്പ്യൂട്ടേഷണൽ പ്രവർത്തനങ്ങളെ പിന്തുണയ്ക്കുന്ന ഘട്ടങ്ങളായി വിഭജിച്ചിരിക്കുന്നു. 2018 ലെ പഠനത്തിലെന്നപോലെ, മോഡലിന്റെ ആദ്യ ഘട്ടങ്ങളിൽ സൃഷ്ടിക്കപ്പെടുന്ന പ്രാതിനിധ്യങ്ങൾ പ്രാഥമിക ശ്രവണ കോർട്ടെക്സിൽ കാണപ്പെടുന്നവയുമായി ഏറ്റവും അടുത്ത് സാമ്യമുണ്ടെന്ന് ഗവേഷകർ കണ്ടെത്തി, അതേസമയം പിന്നീടുള്ള മോഡൽ ഘട്ടങ്ങളിൽ സൃഷ്ടിക്കപ്പെടുന്ന പ്രാതിനിധ്യങ്ങൾ പ്രാഥമിക കോർട്ടെക്സിന് പുറത്തുള്ള മസ്തിഷ്ക പ്രദേശങ്ങളിൽ സൃഷ്ടിക്കപ്പെടുന്നവയുമായി കൂടുതൽ സാമ്യമുള്ളതാണ്.

കൂടാതെ, വ്യത്യസ്ത ജോലികളിൽ പരിശീലനം നേടിയ മോഡലുകൾ ഓഡിഷന്റെ വ്യത്യസ്ത വശങ്ങൾ ആവർത്തിക്കുന്നതിൽ മികച്ചതാണെന്ന് ഗവേഷകർ കണ്ടെത്തി. ഉദാഹരണത്തിന്, പ്രസംഗവുമായി ബന്ധപ്പെട്ട ജോലിയിൽ പരിശീലനം നേടിയ മോഡലുകൾ സംസാര-തിരഞ്ഞെടുക്കപ്പെട്ട മേഖലകളോട് കൂടുതൽ സാമ്യമുള്ളതാണ്.

“മോഡൽ ഒരേ പരിശീലന ഡാറ്റ കണ്ടിട്ടുണ്ടെങ്കിലും, ആർക്കിടെക്ചർ ഒന്നുതന്നെയാണെങ്കിലും, നിങ്ങൾ ഒരു പ്രത്യേക ജോലിക്കായി ഒപ്റ്റിമൈസ് ചെയ്യുമ്പോൾ, ഇത് തലച്ചോറിലെ നിർദ്ദിഷ്ട ട്യൂണിംഗ് ഗുണങ്ങൾ തിരഞ്ഞെടുത്ത് വിശദീകരിക്കുന്നുവെന്ന് നിങ്ങൾക്ക് കാണാൻ കഴിയും,” ടക്കുട്ട് പറയുന്നു.

മനുഷ്യ മസ്തിഷ്ക പ്രതികരണങ്ങൾ പുനർനിർമ്മിക്കുന്നതിൽ കൂടുതൽ വിജയകരമായ മോഡലുകൾ വികസിപ്പിക്കാൻ ശ്രമിക്കുന്നതിന് മക്ഡെർമോട്ടിന്റെ ലാബ് ഇപ്പോൾ അവരുടെ കണ്ടെത്തലുകൾ ഉപയോഗിക്കാൻ പദ്ധതിയിടുന്നു. മസ്തിഷ്കം എങ്ങനെ സംഘടിപ്പിക്കാമെന്നതിനെക്കുറിച്ച് കൂടുതൽ അറിയാൻ ശാസ്ത്രജ്ഞരെ സഹായിക്കുന്നതിനൊപ്പം, മികച്ച ശ്രവണസഹായികൾ, കോക്ലിയർ ഇംപ്ലാന്റുകൾ, മസ്തിഷ്ക-മെഷീൻ ഇന്റർഫേസുകൾ എന്നിവ വികസിപ്പിക്കാൻ സഹായിക്കുന്നതിനും അത്തരം മോഡലുകൾ ഉപയോഗിക്കാം.

“മസ്തിഷ്ക പ്രതികരണങ്ങളും പെരുമാറ്റവും പ്രവചിക്കാൻ കഴിയുന്ന ഒരു കമ്പ്യൂട്ടർ മോഡലുമായി അവസാനിക്കുക എന്നതാണ് ഞങ്ങളുടെ മേഖലയുടെ ലക്ഷ്യം. ആ ലക്ഷ്യത്തിലെത്തുന്നതിൽ ഞങ്ങൾ വിജയിച്ചാൽ, അത് ധാരാളം വാതിലുകൾ തുറക്കുമെന്ന് ഞങ്ങൾ കരുതുന്നു, “മക്ഡെർമോട്ട് പറഞ്ഞു.

നാഷണൽ ഇൻസ്റ്റിറ്റ്യൂട്ട് ഓഫ് ഹെൽത്ത്, സയൻസ് ഹബ്ബിൽ നിന്നുള്ള ആമസോൺ ഫെലോഷിപ്പ്, അമേരിക്കൻ അസോസിയേഷൻ ഓഫ് യൂണിവേഴ്സിറ്റി വുമണിൽ നിന്നുള്ള ഇന്റർനാഷണൽ ഡോക്ടറൽ ഫെലോഷിപ്പ്, എംഐടി ഫ്രണ്ട്സ് ഓഫ് മക്ഗവർൺ ഇൻസ്റ്റിറ്റ്യൂട്ട് ഫെലോഷിപ്പ്, എനർജി കമ്പ്യൂട്ടേഷണൽ സയൻസ് ഗ്രാജുവേറ്റ് ഫെലോഷിപ്പ് എന്നിവയാണ് ഗവേഷണത്തിന് ധനസഹായം നൽകിയത്.

Dr Bibin

Experienced Researcher with a demonstrated history of working in the Deep Learning, Computer Vision

Leave a Reply