ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന്റെ ചരിത്രം അറിയുന്നത് ഭൂതകാലത്തെക്കുറിച്ചുള്ള നമ്മുടെ ധാരണയെ അറിയിക്കുകയും അതിന്റെ പുരോഗതിയെ ബഹുമാനിക്കുകയും മാത്രമല്ല, ഭാവിയിലെ കണ്ടെത്തലുകൾക്കും പുരോഗതികൾക്കും ഒരു ഗതി നിശ്ചയിക്കുകയും ചെയ്യുന്നു. ‘ഡീപ് ലേണിംഗ് ഡെവ്കോൺ 2021’ ൽ സോണി റിസർച്ച് ഇന്ത്യയിലെ ഡാറ്റാ സയൻസ് മേധാവി അങ്ഷുമാൻ ഗോഷ് കമ്പ്യൂട്ടർ കാഴ്ചയുടെ ഹ്രസ്വ ചരിത്രത്തെക്കുറിച്ചും ആഴത്തിലുള്ള പഠനം ധാരാളം പുതുമകളും പുരോഗതിയും കൊണ്ടുവരാൻ സഹായിച്ചതിനെക്കുറിച്ചും സംസാരിച്ചു. കമ്പ്യൂട്ടർ വിഷൻ, ഗാൻ മുതലായവയുടെ വിവിധ ഉപയോഗ കേസുകൾ, പ്രവണതകൾ, പ്രയോഗങ്ങൾ എന്നിവയും അദ്ദേഹം ചർച്ച ചെയ്തു.
പ്രമുഖ ടെക്നോളജി, മീഡിയ, റീട്ടെയിൽ കമ്പനികളായ ഡിസ്നി, ടാർഗെറ്റ്, ഗ്രാബ്, വിപ്രോ എന്നിവയിൽ 12 വർഷത്തിലേറെ പരിചയമുള്ള ഗോഷ് നിലവിൽ സോണി റിസർച്ച് ഇന്ത്യയിലെ ഡാറ്റാ സയൻസ് ടീമിന്റെ തലവനാണ്. ഫോർബ്സ് ടെക്നോളജി കൗൺസിലിലെ ഔദ്യോഗിക അംഗവും സംഭാവനക്കാരനും മികച്ച ഐഐടികൾ, ഐഐഎമ്മുകൾ, എക്സ്എൽആർഐ എന്നിവിടങ്ങളിൽ വിസിറ്റിംഗ് പ്രൊഫസറുമാണ്.
എന്താണ് Computer Vision?
ഇമേജുകൾ, വീഡിയോകൾ, മറ്റ് വിഷ്വൽ ഇൻപുട്ടുകൾ എന്നിവയിൽ നിന്ന് അർത്ഥവത്തായ വിവരങ്ങൾ നേടാനും ആ വിവരത്തെ അടിസ്ഥാനമാക്കി നടപടികൾ സ്വീകരിക്കാനോ ശുപാർശകൾ നൽകാനോ സിസ്റ്റങ്ങളെ പ്രാപ്തമാക്കുന്ന ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന്റെ (എഐ) ഒരു മേഖലയാണ് കമ്പ്യൂട്ടർ വിഷൻ. “ചുരുക്കത്തിൽ, കമ്പ്യൂട്ടർ വിഷൻ കമ്പ്യൂട്ടറുകളും ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന്റെ ശക്തിയും ഉപയോഗിച്ച് മനുഷ്യ കാഴ്ച അനുകരിക്കാൻ ശ്രമിക്കുന്നു,” കമ്പ്യൂട്ടർ വിഷൻ വലിയ മുന്നേറ്റം നടത്തിയിട്ടുണ്ടെന്ന് ഗോഷ് പറഞ്ഞു.
കമ്പ്യൂട്ടർ വിഷൻ വ്യവസായം ഏകദേശം 11 ബില്യൺ ഡോളറാണെന്നും അടുത്ത അഞ്ച് മുതൽ ആറ് വർഷത്തിനുള്ളിൽ ഇത് 25 ബില്യൺ ഡോളറിലെത്തുമെന്നും ഗോഷ് പറയുന്നു. കൂടാതെ, കമ്പ്യൂട്ടർ വിഷനിൽ (ഓട്ടോണമസ് ഡ്രൈവിംഗ് വാഹനങ്ങൾ, ഡ്രോണുകൾ, റോബോട്ടിക്സ്) നിരവധി ആപ്ലിക്കേഷനുകൾ ഉണ്ടെന്നും അവ ഇവിടെ ഉൾപ്പെടുത്തിയിട്ടില്ലെന്നും അദ്ദേഹം പറഞ്ഞു. “ഞങ്ങൾ അവ ഉൾപ്പെടുത്തുകയാണെങ്കിൽ, വിപണി വലുപ്പം ഇതിനേക്കാൾ വളരെ കൂടുതലായിരിക്കും,” അദ്ദേഹം കൂട്ടിച്ചേർത്തു.
കമ്പ്യൂട്ടർ ദർശനത്തിന്റെ ചരിത്രം
കമ്പ്യൂട്ടർ വിഷൻ – അന്നും ഇന്നും
അന്നും ഇന്നും കമ്പ്യൂട്ടർ കാഴ്ച തമ്മിലുള്ള താരതമ്യം നൽകിയ ഗോഷ്, മാനുവൽ പരിശോധനയും സവിശേഷതകൾ തിരഞ്ഞെടുക്കലുമാണ് ധാരാളം ജോലിയെന്ന് പറഞ്ഞു. “എന്നാൽ, ഇപ്പോൾ ഞങ്ങൾ ഈ സവിശേഷത സ്വമേധയാ തിരഞ്ഞെടുക്കേണ്ടതില്ല. പകരം, മോഡലിന് ഇമേജിൽ നിന്നോ വീഡിയോയിൽ നിന്നോ ഫീച്ചർ പഠിക്കാൻ കഴിയും, മാത്രമല്ല ഇത് പ്രോസസ്സ് ചെയ്യാനും ഔട്ട്പുട്ട് നൽകാനും കഴിയും, “അദ്ദേഹം കൂട്ടിച്ചേർത്തു.
ഞങ്ങളുടെ ന്യൂസ് ലെറ്ററിന് സബ് സ് ക്രൈബ് ചെയ്യുക എല്ലാ പ്രവൃത്തിദിവസങ്ങളിലും വൈകുന്നേരം ഞങ്ങളുടെ എഡിറ്റർമാരോടൊപ്പം ചേരുക, അവർ നിങ്ങളെ ദിവസത്തെ ഏറ്റവും പ്രധാനപ്പെട്ട വാർത്തകളിലൂടെ നയിക്കുകയും പുതിയ കാഴ്ചപ്പാടുകളിലേക്ക് നിങ്ങളെ പരിചയപ്പെടുത്തുകയും സന്തോഷത്തിന്റെ അപ്രതീക്ഷിത നിമിഷങ്ങൾ നൽകുകയും ചെയ്യുക ഇമെയിൽ സൈൻ അപ്പ് നിങ്ങളുടെ ന്യൂസ് ലെറ്റർ സബ് സ് ക്രിപ് ഷനുകൾ എഐഎം സ്വകാര്യതാ നയത്തിനും നിബന്ധനകൾക്കും വ്യവസ്ഥകൾക്കും വിധേയമാണ്.
കമ്പ്യൂട്ടർ കാഴ്ച; old (a) vs new (b)
“2005 വരെ, ഈ അൽഗോരിതങ്ങൾ സൃഷ്ടിക്കുന്നതിനോ അവ നന്നായി പ്രവർത്തിക്കുന്നുണ്ടോ എന്ന് അവരോട് പറയാനോ ഞങ്ങൾക്ക് ധാരാളം ഡാറ്റ ഉണ്ടായിരുന്നില്ല,” ഗോഷ് പറഞ്ഞു. എന്നാൽ, 2009 ൽ, എല്ലാം മാറി, നിരവധി യുഎസ് സ്ഥാപനങ്ങളും വ്യവസായ കളിക്കാരും ഒത്തുചേർന്ന് ഇമേജ്നെറ്റ് എന്ന ബൃഹത്തായ ഡാറ്റാസെറ്റ് സൃഷ്ടിച്ചു.
വിമാനം, ഓട്ടോമൊബൈൽ, പക്ഷി, പൂച്ച, മാൻ, നായ, തവള, കുതിര, കപ്പൽ, ട്രക്ക് എന്നിവയുൾപ്പെടെ 1000 ഓളം ഒബ്ജക്റ്റ് ക്ലാസുകൾ ഡാറ്റാസെറ്റിൽ ഉൾപ്പെടുന്നു.
CNN-കളുടെ ഉയർച്ച
ഇമേജ്നെറ്റ് ചലഞ്ചിലെ പിശക് നിരക്ക് വർഷങ്ങളായി ഗണ്യമായി കുറഞ്ഞുവെന്ന് ഗോഷ് പറഞ്ഞു, അലക്സ്നെറ്റ് പോലുള്ള മോഡലുകൾ അവതരിപ്പിച്ചതിനാൽ 2012 ൽ പിശക് നിരക്ക് 16 ശതമാനം കുറച്ചു, തുടർന്ന് ഇസഡ്എഫ് (12 ശതമാനം), വിജിജി (7.3 ശതമാനം), ഗൂഗിൾനെറ്റ് (6.7 ശതമാനം), റെസ്നെറ്റ് (3.6 ശതമാനം). എൻസെംബിൾ (3 ശതമാനം), എസ്ഇനെറ്റ് (2.25 ശതമാനം), മുതലായവ.
“2012 മുതൽ, ആളുകൾ കൺവലൂഷണൽ ന്യൂറൽ നെറ്റ് വർക്കുകൾ (സിഎൻഎൻ) ഉപയോഗിക്കാൻ തുടങ്ങി, കൂടാതെ പിശക് ഗണ്യമായി കുറച്ച ചില ക്രമീകരണങ്ങൾ ചെയ്തു” ഗോഷ് പറഞ്ഞു. ഇതിനുമുമ്പ്, ആളുകൾ ആഴമില്ലാത്ത ന്യൂറൽ നെറ്റ് വർക്കുകളെ ആശ്രയിച്ചിരുന്നു, അവിടെ പിശക് നിരക്ക് 30 ശതമാനത്തിനടുത്തായിരുന്നു.
അലക്സ്നെറ്റ്
കമ്പ്യൂട്ടർ വിഷനിൽ ജനപ്രിയമായ ആദ്യത്തെ പ്രധാന മോഡലുകളിൽ ഒന്നായിരുന്നു അലക്സ്നെറ്റ്. അടിസ്ഥാനകാര്യങ്ങളിൽ നിന്ന് അലക്സ്നെറ്റിന് പിന്നിലെ ശാസ്ത്രം വിശദീകരിച്ച ഗോഷ് രണ്ട് പ്രധാന ആശയങ്ങൾ അറിയേണ്ടത് അത്യാവശ്യമാണെന്ന് പറഞ്ഞു – കൺവലൂഷണൽ ന്യൂറൽ നെറ്റ്വർക്ക്, ഒരു ഇമേജിൽ പൂളിംഗ്.
“ഇവിടെയുള്ള അടിസ്ഥാന ആശയം നിങ്ങൾക്ക് ഒരു ഫിൽട്ടർ ഉണ്ട് എന്നതാണ്, അത് ചിത്രത്തിന്റെ വലുപ്പത്തേക്കാൾ ചെറുതാണ്, കൂടാതെ പിക്സലിലുടനീളം ഓരോ സമയത്തും നിങ്ങൾ ചിത്രത്തിലുടനീളം ഫിൽട്ടർ സ്ലൈഡ് ചെയ്യുന്നു. അത് ആശയവിനിമയത്തിന്റെ ഒരു ഔട്ട്പുട്ട് സൃഷ്ടിക്കുന്നു. നിങ്ങൾക്ക് ആശയവിനിമയം നടത്തിക്കഴിഞ്ഞാൽ, ഒന്നിലധികം ഔട്ട്പുട്ടുകൾ സൃഷ്ടിക്കാൻ നിങ്ങൾക്ക് ഒന്നിലധികം ഫിൽട്ടറുകൾ ഉപയോഗിക്കാം, “ഘോഷ് വിശദീകരിച്ചു.
അലക്സ്നെറ്റിൽ എട്ട് പാളികളുള്ള കൺവലൂഷൻ, പൂളിംഗ് ഫിൽട്ടറുകൾ (ചുവടെ കാണിച്ചിരിക്കുന്നത് പോലെ) അടങ്ങിയിരിക്കുന്നു – അഞ്ച് കൺവലൂഷൻ പാളികളും മൂന്ന് പൂർണ്ണമായും കണക്റ്റുചെയ് ത പാളികളും, ഇത് വസ്തുവിനെ തിരിച്ചറിയാൻ സഹായിക്കുന്നു. മറുവശത്ത്, റെസ്നെറ്റ് പോലുള്ള ഒരു മോഡലിന് വസ്തുവിനെ വിജയകരമായി തിരിച്ചറിയുന്നതിനോ മനസ്സിലാക്കുന്നതിനോ ഏകദേശം 152 പാളികളുണ്ട്.
ഇമേജ് ക്ലാസിഫിക്കേഷന്റെ ഉദാഹരണം കാണിച്ചുകൊണ്ട്, റെസ്നെറ്റ് മോഡലിന് ഉയർന്ന കൃത്യതയോടെ ഇമേജ് (പഗ്) തിരിച്ചറിയാൻ കഴിഞ്ഞതെങ്ങനെയെന്ന് ഗോഷ് വിശദീകരിച്ചു. ResNet-ന്റെ സോഴ്സ് കോഡ് ഗിറ്റ്ഹബിൽ ലഭ്യമാണ്.
കൂടാതെ, സ്പേഷ്യൽ അനലിറ്റിക്സിന് ചുറ്റുമുള്ള മറ്റൊരു ഉപയോഗ കേസ് അദ്ദേഹം കാണിച്ചു, വികാരങ്ങൾ, മുഖം കണ്ടെത്തൽ, നിരീക്ഷണം മുതലായവ മനസിലാക്കാൻ സഹായിക്കുന്ന നൂതന മോഡൽ അവർ ഉപയോഗിക്കുന്നുവെന്ന് അദ്ദേഹം പറഞ്ഞു.
കമ്പ്യൂട്ടർ കാഴ്ചയുടെ ചില ജനപ്രിയ ഉപയോഗ കേസുകളിൽ ഇവ ഉൾപ്പെടുന്നു:
- ഇമേജ് വർഗ്ഗീകരണം
- ഒബ്ജക്റ്റ് കണ്ടെത്തൽ
- സെമാന്റിക് സെഗ്മെന്റേഷൻ
ഇതുകൂടാതെ, കമ്പ്യൂട്ടർ കാഴ്ചയുടെ മറ്റ് ആപ്ലിക്കേഷനുകളിൽ ഇവ ഉൾപ്പെടുന്നു:
- ഫേഷ്യൽ റെക്കഗ്നിഷൻ സോഫ്റ്റ്വെയർ
- സ്വയം ഓടിക്കുന്ന വാഹനങ്ങൾ
- മാനുഫാക്ചറിംഗ് പ്രൊഡക്ഷൻ ലൈൻ
- ഡ്രോൺ നിരീക്ഷണം
GAN പരിചയപ്പെടുത്തുന്നു
2014 ൽ ഇയാൻ ഗുഡ്ഫെല്ലോയും സഹപ്രവർത്തകരും രൂപകൽപ്പന ചെയ്ത മെഷീൻ ലേണിംഗ് ഫ്രെയിംവർക്ക് – കമ്പ്യൂട്ടർ കാഴ്ചയുടെ ഒരു ജനപ്രിയ ആപ്ലിക്കേഷൻ കൂടിയാണ് ഗാൻ. ഇമേജ് മനസിലാക്കാൻ ശ്രമിക്കുന്ന റെസ്നെറ്റ് അല്ലെങ്കിൽ അലക്സ്നെറ്റ് പോലുള്ള ന്യൂറൽ നെറ്റ് വർക്കുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ, ജിഎഎൻ നിലവിലില്ലാത്ത ഒരു ഇമേജ് സൃഷ്ടിക്കുന്നു. അപ്പോൾ, ഇത്തരത്തിലുള്ള നെറ്റ് വർക്ക് എങ്ങനെ പ്രവർത്തിക്കുന്നു?
രണ്ട് വ്യത്യസ്ത ന്യൂറൽ നെറ്റ് വർക്കുകൾ ഇവിടെ പ്രവർത്തിക്കുന്നുണ്ടെന്ന് ഘോഷ് പറഞ്ഞു. രസകരമെന്നു പറയട്ടെ, അവർ പരസ്പരം പ്രവർത്തിക്കുന്നു – ഒരു നെറ്റ് വർക്കിൽ യഥാർത്ഥ ഇമേജുകൾ അടങ്ങിയിരിക്കുന്നു, മറ്റൊന്നിൽ ജനറേറ്റർ മോഡൽ സൃഷ്ടിച്ച വ്യാജ ഇമേജുകൾ അടങ്ങിയിരിക്കുന്നു. കൂടാതെ, യഥാർത്ഥ ഇമേജിൽ നിന്ന് പഠിക്കുകയും വ്യാജ ചിത്രങ്ങളിൽ നിന്നുള്ള യഥാർത്ഥ ചിത്രങ്ങൾ താരതമ്യം ചെയ്യുകയും ചെയ്യുന്ന ഒരു വിവേചനം ഇതിൽ ഉൾപ്പെടുന്നു. “നിങ്ങൾ ഈ പ്രക്രിയ നിരവധി തവണ ആവർത്തിച്ചുകഴിഞ്ഞാൽ, നിങ്ങൾക്ക് ഒന്നിലധികം കാലഘട്ടങ്ങൾ പ്രവർത്തിപ്പിക്കാൻ കഴിയും – മുന്നോട്ട്, പിന്നോട്ട് പാസുകൾ മുതലായവ. ഒരു സമയത്തിന് ശേഷം, ജനറേറ്റർ വളരെ റിയലിസ്റ്റിക് ആയി കാണപ്പെടുന്ന നല്ല ചിത്രങ്ങൾ സൃഷ്ടിക്കാൻ തുടങ്ങുന്നു, വിവേചനപരമായി മാത്രമേ ചിത്രം യഥാർത്ഥമാണോ വ്യാജമാണോ എന്ന് തിരിച്ചറിയാൻ കഴിയൂ, “ഘോഷ് പറഞ്ഞു.
GAN-ന്റെ ജനപ്രിയ ആപ്ലിക്കേഷനുകളിലൊന്നാണ് ഡീപ് ഫേക്ക്സ്. നിലവിലുള്ള വീഡിയോയിലോ ഇമേജിലോ ഉള്ള ഒരു വ്യക്തിയെ മറ്റൊരാളുടെ സാദൃശ്യം ഉപയോഗിച്ച് മാറ്റിസ്ഥാപിക്കുന്ന സിന്തറ്റിക് മീഡിയയാണ് ഡീപ് ഫേക്ക്സ്. സെലിബ്രിറ്റികളെ സമന്വയിപ്പിക്കുന്നതിനായി അലക്സാണ്ടർ അമിനിയും എംഐടിയിലെയും ഹാർവാർഡ് സർവകലാശാലയിലെയും സഹപ്രവർത്തകരും ഒരു ന്യൂറൽ നെറ്റ്വർക്ക് മോഡൽ വികസിപ്പിച്ചെടുത്തിട്ടുണ്ടെന്ന് ഗോഷ് പറഞ്ഞു.
2020 ൽ ആഴത്തിലുള്ള പഠനത്തെക്കുറിച്ചുള്ള ആമുഖ കോഴ്സിൽ അമിനി അനാച്ഛാദനം ചെയ്ത മുൻ യുഎസ് പ്രസിഡന്റ് ബരാക് ഒബാമയുടെ ആഴത്തിലുള്ള വ്യാജ വീഡിയോ ചുവടെയുള്ള ചിത്രം കാണിക്കുന്നു.
ഗാനിന്റെ ശ്രദ്ധേയമായ ചില ആപ്ലിക്കേഷനുകളിൽ ഇവ ഉൾപ്പെടുന്നു:
- ഒരു തെരുവ് രംഗത്തിന് ലേബലുകൾ സൃഷ്ടിക്കുന്നു
- മുൻവശത്ത് ലേബലുകൾ സൃഷ്ടിക്കുന്നു
- കറുപ്പും വെളുപ്പും ഇമേജിനെ നിറത്തിലേക്ക് പരിവർത്തനം ചെയ്യുന്നു
- ഇഷ്ടാനുസൃതമാക്കിയ ഏരിയൽ മാപ്പുകൾ സൃഷ്ടിക്കുന്നു
- പകൽ ചിത്രങ്ങൾ രാത്രി ക്രമീകരണത്തിലേക്ക് പരിവർത്തനം ചെയ്യുന്നു
- ഉൽപ്പന്ന സ്കെച്ചുകൾ പ്രോട്ടോടൈപ്പുകളിലേക്ക് പരിവർത്തനം ചെയ്യുന്നു
ഗാനുകളുടെ ഭാവി ശോഭനമായി കാണപ്പെടുന്നു. ഈ ആപ്ലിക്കേഷനുകൾ കൂടാതെ, ഇത് ഉപയോഗിക്കാൻ കഴിയുന്ന നിരവധി മേഖലകളുണ്ട്, പ്രത്യേകിച്ചും ടെക്സ്റ്റ്, വെബ്സൈറ്റ് ഡിസൈനുകൾ, ഡാറ്റ കംപ്രഷൻ, മരുന്ന് കണ്ടെത്തലും വികസനവും, ടെക്സ്റ്റ്, സംഗീതം, കല മുതലായവയിൽ നിന്ന് ഇൻഫോഗ്രാഫിക്സ് സൃഷ്ടിക്കുന്നതിൽ.
