കമ്പ്യൂട്ടർ വിഷൻ സമീപ വർഷങ്ങളിൽ അതിവേഗം വികസിക്കുകയും ഇപ്പോൾ നമ്മുടെ ദൈനംദിന ജീവിതത്തിന്റെ പല മേഖലകളിലും വ്യാപിക്കുകയും ചെയ്യുന്നു. ശരാശരി വ്യക്തിക്ക്, ഇത് ഒരു പുതിയതും ആവേശകരവുമായ കണ്ടുപിടുത്തമായി തോന്നാം, പക്ഷേ ഇത് അങ്ങനെയല്ല.
കമ്പ്യൂട്ടർ വിഷൻ യഥാർത്ഥത്തിൽ പതിറ്റാണ്ടുകളായി വികസിച്ചുകൊണ്ടിരിക്കുന്നു, 1970 കളിലെ പഠനങ്ങൾ ഇന്ന് ഉപയോഗത്തിലുള്ള പല അൽഗോരിതങ്ങൾക്കും ആദ്യകാല അടിത്തറ സൃഷ്ടിക്കുന്നു. പിന്നീട്, ഏകദേശം 10 വർഷങ്ങൾക്ക് മുമ്പ്, തിയറി വികസനത്തിൽ ഇപ്പോഴും ഒരു പുതിയ സാങ്കേതികവിദ്യ രംഗത്ത് പ്രത്യക്ഷപ്പെട്ടു: അവിശ്വസനീയമാംവിധം സങ്കീർണ്ണമായ പ്രശ്നങ്ങൾ പരിഹരിക്കാൻ ന്യൂറൽ നെറ്റ് വർക്കുകൾ ഉപയോഗിക്കുന്ന ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന്റെ ഒരു രൂപമായ ഡീപ് ലേണിംഗ് – നിങ്ങൾക്ക് ഡാറ്റയും കംപ്യൂട്ടേഷണൽ പവറും ഉണ്ടെങ്കിൽ.
Deep Learning (ആഴത്തിലുള്ള പഠനം) വികസിച്ചുകൊണ്ടിരിക്കുമ്പോൾ, ചില കമ്പ്യൂട്ടർ വിഷൻ(സിവി) പ്രശ്നങ്ങൾ വളരെ നന്നായി പരിഹരിക്കാൻ കഴിയുമെന്ന് വ്യക്തമായി. ആഴത്തിലുള്ള പഠന ചികിത്സയ്ക്ക് ഒബ്ജക്റ്റ് കണ്ടെത്തൽ, വർഗ്ഗീകരണം തുടങ്ങിയ വെല്ലുവിളികൾ പ്രത്യേകിച്ചും പാകമായിരുന്നു. ഈ ഘട്ടത്തിൽ, ഗണിതശാസ്ത്ര പ്രശ്നങ്ങൾ രൂപപ്പെടുത്തുന്നതിനും പരിഹരിക്കുന്നതിനുമുള്ള എഞ്ചിനീയർമാരുടെ കഴിവിനെ ആശ്രയിച്ചിരുന്ന “ക്ലാസിക്കൽ” സിവിയും ആഴത്തിലുള്ള പഠന അധിഷ്ഠിത സിവിയും തമ്മിൽ ഒരു വ്യത്യാസം രൂപപ്പെടാൻ തുടങ്ങി.
ആഴത്തിലുള്ള പഠനം ക്ലാസിക്കൽ സിവിയെ കാലഹരണപ്പെട്ടതാക്കിയില്ല; ബിഗ് ഡാറ്റയിലൂടെ ഏത് വെല്ലുവിളികളാണ് ഏറ്റവും നന്നായി പരിഹരിക്കപ്പെടുന്നതെന്നും ഗണിതശാസ്ത്രപരവും ജ്യാമിതീയവുമായ അൽഗോരിതങ്ങൾ ഉപയോഗിച്ച് എന്താണ് പരിഹരിക്കേണ്ടതെന്നും പുതിയ വെളിച്ചം വീശിക്കൊണ്ട് ഇരുവരും വികസിച്ചുകൊണ്ടേയിരുന്നു.
ഡാറ്റാ സ്റ്റാക്കുകൾക്കും തന്ത്രങ്ങൾക്കും മേൽനോട്ടം വഹിക്കുന്ന മുതിർന്ന എന്റർപ്രൈസ് എക്സിക്യൂട്ടീവുകൾക്കായി രൂപകൽപ്പന ചെയ്ത ഉൾക്കാഴ്ചകളുടെയും നെറ്റ്വർക്കിംഗിന്റെയും ഒരു പ്രത്യേക ക്ഷണം മാത്രമുള്ള സായാഹ്നം ഇവന്റ് എഐ അഴിച്ചുവിട്ടു. കൂടുതൽ അറിയാൻ
ക്ലാസിക്കൽ കമ്പ്യൂട്ടർ കാഴ്ചയുടെ പരിമിതികൾ
ആഴത്തിലുള്ള പഠനത്തിന് സിവിയെ രൂപാന്തരപ്പെടുത്താൻ കഴിയും, പക്ഷേ ഉചിതമായ പരിശീലന ഡാറ്റ ലഭ്യമാകുമ്പോൾ അല്ലെങ്കിൽ യുക്തിപരമോ ജ്യാമിതീയമോ ആയ പരിമിതികൾ തിരിച്ചറിയപ്പെടുമ്പോൾ മാത്രമേ ഈ മാന്ത്രികത സംഭവിക്കുകയുള്ളൂ.
മുൻകാലങ്ങളിൽ, വസ്തുക്കൾ കണ്ടെത്തുന്നതിനും അരികുകൾ, കോണുകൾ, ടെക്സ്ചറുകൾ (ഫീച്ചർ എക്സ്ട്രാക്ഷൻ) പോലുള്ള സവിശേഷതകൾ തിരിച്ചറിയുന്നതിനും ഒരു ചിത്രത്തിനുള്ളിൽ ഓരോ പിക്സലും ലേബൽ ചെയ്യുന്നതിനും ക്ലാസിക്കൽ സിവി ഉപയോഗിച്ചിരുന്നു. എന്നിരുന്നാലും, ഈ പ്രക്രിയകൾ അങ്ങേയറ്റം ബുദ്ധിമുട്ടുള്ളതും വിരസവുമായിരുന്നു.
ഒബ്ജക്റ്റുകൾ കണ്ടെത്തുന്നതിന് സ്ലൈഡിംഗ് വിൻഡോകൾ, ടെംപ്ലേറ്റ് പൊരുത്തപ്പെടുത്തൽ, സമഗ്രമായ തിരയൽ എന്നിവയിൽ പ്രാവീണ്യം ആവശ്യമാണ്. സവിശേഷതകൾ വേർതിരിച്ചെടുക്കുന്നതിനും തരംതിരിക്കുന്നതിനും എഞ്ചിനീയർമാർക്ക് ഇഷ് ടാനുസൃത രീതികൾ വികസിപ്പിക്കേണ്ടതുണ്ട്. ഒരു പിക്സൽ തലത്തിൽ വ്യത്യസ്ത ക്ലാസ് വസ്തുക്കളെ വേർതിരിക്കുന്നത് വ്യത്യസ്ത പ്രദേശങ്ങളെ പരിഹസിക്കാൻ വളരെയധികം ജോലി ചെയ്യേണ്ടതുണ്ട് – പരിചയസമ്പന്നരായ സിവി എഞ്ചിനീയർമാർക്ക് എല്ലായ്പ്പോഴും ചിത്രത്തിലെ ഓരോ പിക്സലും തമ്മിൽ ശരിയായി വേർതിരിച്ചറിയാൻ കഴിഞ്ഞില്ല.
ഒബ്ജക്റ്റ് കണ്ടെത്തലിനെ രൂപാന്തരപ്പെടുത്തുന്ന ആഴത്തിലുള്ള പഠനം
ഇതിനു വിപരീതമായി, ആഴത്തിലുള്ള പഠനം – പ്രത്യേകിച്ച് കൺവലൂഷണൽ ന്യൂറൽ നെറ്റ് വർക്കുകൾ (സിഎൻഎൻ), റീജിയൻ അധിഷ്ഠിത സിഎൻഎൻ (ആർ-സിഎൻഎൻ) – ഒബ്ജക്റ്റ് കണ്ടെത്തലിനെ വളരെ ലൗകികമാക്കി മാറ്റി, പ്രത്യേകിച്ചും ഗൂഗിൾ, ആമസോൺ പോലുള്ള ഭീമന്മാരുടെ ഭീമാകാരമായ ലേബൽ ചെയ്ത ഇമേജ് ഡാറ്റാബേസുകളുമായി ജോടിയാക്കുമ്പോൾ. നന്നായി പരിശീലനം ലഭിച്ച ഒരു നെറ്റ് വർക്ക് ഉപയോഗിച്ച്, വ്യക്തമായ, കരകൗശല നിയമങ്ങളുടെ ആവശ്യമില്ല, കൂടാതെ ആംഗിൾ കണക്കിലെടുക്കാതെ നിരവധി വ്യത്യസ്ത സാഹചര്യങ്ങളിൽ വസ്തുക്കളെ കണ്ടെത്താൻ അൽഗോരിതങ്ങൾക്ക് കഴിയും.
ഫീച്ചർ എക്സ്ട്രാക്ഷനിലും, ആഴത്തിലുള്ള പഠന പ്രക്രിയയ്ക്ക് മോഡലിന്റെ അമിത ഫിറ്റിംഗ് തടയുന്നതിനും ഉൽ പാദനത്തിനായി പുറത്തിറങ്ങിയ ശേഷം പുതിയ ഡാറ്റ അവതരിപ്പിക്കുമ്പോൾ ഉയർന്ന കൃത്യത റേറ്റിംഗ് വികസിപ്പിക്കുന്നതിനും കഴിവുള്ള അൽഗോരിതവും വൈവിധ്യമാർന്ന പരിശീലന ഡാറ്റയും മാത്രമേ ആവശ്യമുള്ളൂ. സിഎൻഎൻമാർ ഈ ജോലിയിൽ പ്രത്യേകിച്ചും മികച്ചതാണ്. കൂടാതെ, സെമാന്റിക് സെഗ്മെന്റേഷനിലേക്ക് ആഴത്തിലുള്ള പഠനം പ്രയോഗിക്കുമ്പോൾ, യു-നെറ്റ് ആർക്കിടെക്ചർ അസാധാരണമായ പ്രകടനം കാണിച്ചു, സങ്കീർണ്ണമായ മാനുവൽ പ്രക്രിയകളുടെ ആവശ്യകത ഇല്ലാതാക്കി.
ക്ലാസിക്കുകളിലേക്ക് മടങ്ങുന്നു
ആഴത്തിലുള്ള പഠനം ഈ മേഖലയിൽ വിപ്ലവം സൃഷ്ടിച്ചിട്ടുണ്ടെങ്കിലും, ഒരേസമയം പ്രാദേശികവൽക്കരണവും മാപ്പിംഗും (സ്ലാം), സ്ട്രക്ചർ ഫ്രം മോഷൻ (എസ്എഫ്എം) അൽഗോരിതങ്ങളും അഭിമുഖീകരിക്കുന്ന പ്രത്യേക വെല്ലുവിളികളുടെ കാര്യത്തിൽ, ക്ലാസിക്കൽ സിവി പരിഹാരങ്ങൾ ഇപ്പോഴും പുതിയ സമീപനങ്ങളെക്കാൾ മികച്ചതാണ്. ഭൗതിക പ്രദേശങ്ങളുടെ അളവുകൾ മനസിലാക്കുന്നതിനും മാപ്പ് ചെയ്യുന്നതിനും ചിത്രങ്ങൾ ഉപയോഗിക്കുന്നത് ഈ രണ്ട് ആശയങ്ങളിലും ഉൾപ്പെടുന്നു.
ഏജന്റിനെയും (സാധാരണയായി ചില തരം റോബോട്ടുകൾ) മാപ്പിനുള്ളിലെ അതിന്റെ സ്ഥാനത്തെയും ട്രാക്കുചെയ്യുമ്പോൾ ഒരു പ്രദേശത്തിന്റെ മാപ്പ് നിർമ്മിക്കുന്നതിലും അപ്ഡേറ്റുചെയ്യുന്നതിലും സ്ലാം ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. അങ്ങനെയാണ് ഓട്ടോണമസ് ഡ്രൈവിംഗും റോബോട്ടിക് ശൂന്യതകളും സാധ്യമായത്.
എസ്എഫ്എം സമാനമായി നൂതന ഗണിതശാസ്ത്രത്തെയും ജ്യാമിതിയെയും ആശ്രയിക്കുന്നു, പക്ഷേ അതിന്റെ ലക്ഷ്യം ഒന്നിലധികം കാഴ്ചകൾ ഉപയോഗിച്ച് ഒരു വസ്തുവിന്റെ 3 ഡി പുനർനിർമ്മാണം സൃഷ്ടിക്കുക എന്നതാണ്. തത്സമയ, ഉടനടി പ്രതികരണങ്ങളുടെ ആവശ്യമില്ലാത്തപ്പോൾ ഇത് ഉചിതമാണ്.
തുടക്കത്തിൽ, സ്ലാം ശരിയായി നടത്തുന്നതിന് വലിയ കമ്പ്യൂട്ടേഷണൽ പവർ ആവശ്യമാണെന്ന് കരുതിയിരുന്നു. എന്നിരുന്നാലും, അടുത്ത അനുമാനങ്ങൾ ഉപയോഗിച്ച്, സിവി പൂർവ്വികർക്ക് കമ്പ്യൂട്ടേഷണൽ ആവശ്യകതകൾ കൂടുതൽ കൈകാര്യം ചെയ്യാൻ കഴിഞ്ഞു.
SFM കൂടുതൽ ലളിതമാണ്: സാധാരണയായി സെൻസർ ഫ്യൂഷൻ ഉൾപ്പെടുന്ന സ്ലാമിൽ നിന്ന് വ്യത്യസ്തമായി, ഈ രീതി ക്യാമറയുടെ ആന്തരിക ഗുണങ്ങളും ചിത്രത്തിന്റെ സവിശേഷതകളും മാത്രമേ ഉപയോഗിക്കുന്നുള്ളൂ. ലേസർ സ്കാനിംഗുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ ഇത് ചെലവ് കുറഞ്ഞ രീതിയാണ്, ഇത് പല സാഹചര്യങ്ങളിലും റേഞ്ച്, റെസല്യൂഷൻ പരിമിതികൾ കാരണം പോലും സാധ്യമല്ല. ഫലം ഒരു വസ്തുവിന്റെ വിശ്വസനീയവും കൃത്യവുമായ പ്രതിനിധീകരണമാണ്.
മുന്നോട്ടുള്ള വഴി
ആഴത്തിലുള്ള പഠനത്തിനും ക്ലാസിക്കൽ സിവിക്കും പരിഹരിക്കാൻ കഴിയാത്ത പ്രശ്നങ്ങൾ ഇപ്പോഴും ഉണ്ട്, അവ പരിഹരിക്കാൻ എഞ്ചിനീയർമാർ പരമ്പരാഗത സാങ്കേതിക വിദ്യകൾ ഉപയോഗിക്കുന്നത് തുടരണം. സങ്കീർണ്ണമായ ഗണിതവും നേരിട്ടുള്ള നിരീക്ഷണവും ഉൾപ്പെടുകയും ശരിയായ പരിശീലന ഡാറ്റ സെറ്റ് നേടാൻ ബുദ്ധിമുട്ടാകുകയും ചെയ്യുമ്പോൾ, ആഴത്തിലുള്ള പഠനം വളരെ ശക്തവും മനോഹരമായ പരിഹാരം സൃഷ്ടിക്കാൻ കഴിയാത്തതുമാണ്. ചൈന ഷോപ്പിലെ കാളയുടെ സാദൃശ്യം ഇവിടെ മനസ്സിൽ വരുന്നു: ചാറ്റ്ജിപിടി തീർച്ചയായും അടിസ്ഥാന ഗണിതശാസ്ത്രത്തിനുള്ള ഏറ്റവും കാര്യക്ഷമമായ (അല്ലെങ്കിൽ കൃത്യമായ) ഉപകരണമല്ല എന്ന രീതിയിൽ, ക്ലാസിക്കൽ സിവി നിർദ്ദിഷ്ട വെല്ലുവിളികളിൽ ആധിപത്യം പുലർത്തുന്നത് തുടരും.
ക്ലാസിക്കലിൽ നിന്ന് ആഴത്തിലുള്ള പഠന അധിഷ്ഠിത സിവിയിലേക്കുള്ള ഈ ഭാഗിക പരിവർത്തനം നമുക്ക് രണ്ട് പ്രധാന ടേക്ക് എവേകൾ നൽകുന്നു. ഒന്നാമതായി, പഴയത് മൊത്തത്തിൽ മാറ്റി പുതിയത് ഉപയോഗിക്കുന്നത് ലളിതമാണെങ്കിലും തെറ്റാണെന്ന് നാം അംഗീകരിക്കണം. പുതിയ സാങ്കേതികവിദ്യകളാൽ ഒരു ഫീൽഡ് തടസ്സപ്പെടുമ്പോൾ, വിശദാംശങ്ങളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കാനും പുതിയ സാങ്കേതികവിദ്യകളിൽ നിന്ന് ഏതൊക്കെ പ്രശ്നങ്ങൾ പ്രയോജനം ചെയ്യുമെന്നും പഴയ സമീപനങ്ങൾക്ക് കൂടുതൽ അനുയോജ്യമായവ ഏതൊക്കെയാണെന്നും തിരിച്ചറിയാൻ നാം ജാഗ്രത പാലിക്കണം.
രണ്ടാമതായി, പരിവർത്തനം സ്കെയിലബിലിറ്റി തുറക്കുന്നുണ്ടെങ്കിലും, മധുരത്തിന്റെ ഒരു ഘടകമുണ്ട്. ക്ലാസിക്കൽ രീതികൾ തീർച്ചയായും കൂടുതൽ മാനുവൽ ആയിരുന്നു, പക്ഷേ അതിനർത്ഥം അവ കലയും ശാസ്ത്രവും തുല്യ ഭാഗങ്ങളായിരുന്നു എന്നാണ്. സവിശേഷതകൾ, വസ്തുക്കൾ, അരികുകൾ, പ്രധാന ഘടകങ്ങൾ എന്നിവയെ പരിഹസിക്കാൻ ആവശ്യമായ സർഗ്ഗാത്മകതയും പുതുമയും ആഴത്തിലുള്ള പഠനത്തിലൂടെയല്ല, മറിച്ച് ആഴത്തിലുള്ള ചിന്തയാൽ സൃഷ്ടിക്കപ്പെട്ടു.
ക്ലാസിക്കൽ സിവി ടെക്നിക്കുകളിൽ നിന്ന് മാറിയതോടെ, എന്നെപ്പോലുള്ള എഞ്ചിനീയർമാർ ചിലപ്പോൾ സിവി ടൂൾ ഇന്റഗ്രേറ്റർമാരെപ്പോലെയായി. ഇത് “വ്യവസായത്തിന് നല്ലതാണെങ്കിലും” റോളിന്റെ കൂടുതൽ കലാപരവും സർഗ്ഗാത്മകവുമായ ഘടകങ്ങൾ ഉപേക്ഷിക്കുന്നത് സങ്കടകരമാണ്. ഈ കലാസൃഷ്ടിയെ മറ്റ് വിധങ്ങളിൽ ഉൾപ്പെടുത്താൻ ശ്രമിക്കുക എന്നതാണ് മുന്നോട്ട് പോകുന്ന ഒരു വെല്ലുവിളി.
പഠനത്തിനുപകരം മനസ്സിലാക്കൽ
അടുത്ത ദശകത്തിൽ, നെറ്റ് വർക്ക് വികസനത്തിലെ പ്രധാന ശ്രദ്ധാകേന്ദ്രമായി “പഠനം” മാറ്റിസ്ഥാപിക്കുമെന്ന് ഞാൻ പ്രവചിക്കുന്നു. നെറ്റ് വർക്കിന് എത്രമാത്രം പഠിക്കാൻ കഴിയും എന്നതിലല്ല, മറിച്ച് വിവരങ്ങൾ എത്ര ആഴത്തിൽ ഗ്രഹിക്കാൻ കഴിയുമെന്നും അമിതമായ ഡാറ്റ ഉപയോഗിച്ച് ഈ ഗ്രഹണം എങ്ങനെ സുഗമമാക്കാമെന്നും ഊന്നൽ നൽകും. കുറഞ്ഞ ഇടപെടലിലൂടെ ആഴത്തിലുള്ള നിഗമനങ്ങളിൽ എത്താൻ ശൃംഖലയെ പ്രാപ്തമാക്കുക എന്നതായിരിക്കണം ഞങ്ങളുടെ ലക്ഷ്യം.
അടുത്ത പത്ത് വർഷം സിവി സ്പേസിൽ ചില അത്ഭുതങ്ങൾ സൃഷ്ടിക്കുമെന്ന് ഉറപ്പാണ്. ഒരുപക്ഷേ ക്ലാസിക്കൽ സിവി ക്രമേണ കാലഹരണപ്പെടും. ഒരുപക്ഷേ ആഴത്തിലുള്ള പഠനവും ഇതുവരെ കേട്ടുകേൾവിയില്ലാത്ത ഒരു സാങ്കേതികവിദ്യയാൽ സ്ഥാനഭ്രഷ്ടനാക്കപ്പെടും. എന്നിരുന്നാലും, കുറഞ്ഞത് ഇപ്പോൾ, ഈ ഉപകരണങ്ങൾ നിർദ്ദിഷ്ട ജോലികളെ സമീപിക്കുന്നതിനുള്ള മികച്ച ഓപ്ഷനുകളാണ്, മാത്രമല്ല അടുത്ത ദശകത്തിലുടനീളം സിവിയുടെ പുരോഗതിയുടെ അടിത്തറ സൃഷ്ടിക്കുകയും ചെയ്യും. ഏതായാലും, അത് തികച്ചും യാത്രയായിരിക്കണം.
