ഒരു ട്രാൻസ്ഫോർമർ എന്നത് ഒരു ന്യൂറൽ നെറ്റ് വർക്കാണ്, ഇത് തുടർച്ചയായ ഡാറ്റ (ഒരു വാചകത്തിലെ വാക്കുകൾ പോലെ) ശേഖരിക്കുകയും പ്രോസസ്സ് ചെയ്യുകയും ഒരു സീക്വൻസിനെ മറ്റൊരു സീക്വൻസാക്കി മാറ്റുകയും ചെയ്യുന്നു.
ട്രാൻസ്ഫോർമറുകൾ എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്ന് മനസിലാക്കുന്നത് കുറച്ചുകൂടി സങ്കീർണ്ണമാണ്. ട്രാൻസ്ഫോർമറുകൾ കൂടുതൽ വിശദമായി വിശദീകരിക്കുന്നതിനുമുമ്പ്, ചില പ്രധാന ആശയങ്ങൾ ഉൾക്കൊള്ളേണ്ടത് പ്രധാനമാണ്.
ആദ്യം, എൻ എൽ പിയിലെ ന്യൂറൽ നെറ്റ് വർക്കുകളുടെ പശ്ചാത്തലം ഓർമ്മിക്കുന്നത് സഹായകരമാണ്. മുൻകാലങ്ങളിൽ, സാങ്കേതിക വിദഗ്ധർ ട്രാൻസ്ഫോർമറുകൾക്ക് സമാനമായി ഭാഷയെ തുടർച്ചയായി പ്രോസസ്സ് ചെയ്യാൻ ആവർത്തിച്ചുള്ള ന്യൂറൽ നെറ്റ് വർക്കുകളും (ആർഎൻഎൻ), ലോംഗ്-ഷോർട്ട് ടേം മെമ്മറിയും (എൽഎസ്ടിഎം) ഉപയോഗിച്ചിരുന്നു. ട്രാൻസ്ഫോർമറുകൾ അവതരിപ്പിക്കുന്നതിനുമുമ്പ്, പല സാങ്കേതിക വിദഗ്ധരും ഭാഷാ മോഡൽ പരിശീലന വേളയിൽ ആർഎൻഎൻ ഉപയോഗിച്ചു, കാരണം ആർഎൻഎൻ മോഡലുകൾക്ക് മുൻകാല ഇൻപുട്ട് ഉപയോഗിക്കാനും ഒരു ക്രമത്തിൽ അടുത്തതായി എന്താണ് വരുന്നതെന്ന് പ്രവചിക്കാനും കഴിയും.
എന്നിരുന്നാലും, ആർഎൻഎൻ മോഡലുകളുടെ ഒരു പ്രശ്നം, ഒരു വാചകം ദൈർഘ്യമേറിയതാകുമ്പോൾ, കൂടുതൽ ഇൻപുട്ട് ലഭിക്കുകയും പ്രസക്തമായതും ആവശ്യമുള്ളപ്പോൾ അത് ഉപയോഗിക്കാനുള്ള മോഡലിന്റെ കഴിവും തമ്മിലുള്ള വിടവ് വർദ്ധിക്കുകയും ചെയ്യുന്നു എന്നതാണ്. ഇത് സംഭവിക്കുമ്പോൾ, അടുത്തതായി എന്താണ് സംഭവിക്കുന്നതെന്ന് മോഡൽ വിജയകരമായി പ്രവചിക്കാനുള്ള സാധ്യത കുറവാണ്.
ട്രാൻസ്ഫോർമറുകൾ ഈ പ്രശ്നം പരിഹരിക്കുന്നു. സ്വയം ശ്രദ്ധ എന്നറിയപ്പെടുന്ന ഒരു സാങ്കേതികത ഉപയോഗിച്ച്, തുടർച്ചയായ ഡാറ്റ പ്രോസസ്സുചെയ്യുന്നതിന്റെ ഓരോ ഘട്ടത്തിലും ട്രാൻസ്ഫോർമറുകൾ ഇൻപുട്ട് ടെക്സ്റ്റിന്റെ വ്യത്യസ്ത ഭാഗങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുകയും സീക്വൻസിന്റെ ഓരോ ഭാഗത്തിന്റെയും പ്രാധാന്യത്തിന് ഭാരം നൽകുകയും ചെയ്യുന്നു. ഏറ്റവും പ്രധാനപ്പെട്ട കാര്യങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാൻ ഇത് സഹായിക്കുന്നു. ട്രാൻസ്ഫോർമറുകൾക്ക് ഒരേസമയം വാക്കുകൾ പ്രോസസ്സ് ചെയ്യാനും പരിശീലന വേഗത ഗണ്യമായി മെച്ചപ്പെടുത്താനും കഴിയും.
