നിങ്ങളുടെ അടുത്ത മെഡിക്കൽ ഉപദേഷ്ടാവാകാൻ ChatGPT തയ്യാറാണോ?

You are currently viewing നിങ്ങളുടെ അടുത്ത മെഡിക്കൽ ഉപദേഷ്ടാവാകാൻ ChatGPT തയ്യാറാണോ?

ജാമ നെറ്റ്വർക്ക് ഓപ്പണിൽ അടുത്തിടെ പ്രസിദ്ധീകരിച്ച ഒരു പഠനത്തിൽ, രോഗികൾക്കും ആരോഗ്യ പ്രൊഫഷണലുകൾക്കും മെഡിക്കൽ വിവരങ്ങൾ നൽകുന്നതിൽ ചാറ്റ്-ജനറേറ്റീവ് പ്രീ-ട്രെയിനഡ് ട്രാൻസ്ഫോർമറിന്റെ (ചാറ്റ്ജിപിടി) പങ്ക് വാൻഡർബിൽറ്റ് സർവകലാശാലയിലെ ഒരു സംഘം ഗവേഷകർ പരിശോധിച്ചു.

പഠനം: ഫിസിഷ്യൻ ചോദ്യങ്ങൾക്കുള്ള ചാറ്റ്ബോട്ട് പ്രതികരണങ്ങളുടെ കൃത്യതയും വിശ്വാസ്യതയും.

ചാറ്റ്ജിപിടി ഇപ്പോൾ വിവിധ ആവശ്യങ്ങൾക്കായി വ്യാപകമായി ഉപയോഗിക്കുന്നു. ഈ വലിയ ഭാഷാ മോഡൽ (എൽഎൽഎം) വെബിലുടനീളമുള്ള ലേഖനങ്ങൾ, പുസ്തകങ്ങൾ, മറ്റ് ഉറവിടങ്ങൾ എന്നിവയിൽ പരിശീലനം നേടിയിട്ടുണ്ട്. ചാറ്റ്ജിപിടി മനുഷ്യ ഉപയോക്താക്കളിൽ നിന്നുള്ള അഭ്യർത്ഥനകൾ മനസിലാക്കുകയും ടെക്സ്റ്റിലും ഇപ്പോൾ ഇമേജ് ഫോർമാറ്റുകളിലും ഉത്തരങ്ങൾ നൽകുകയും ചെയ്യുന്നു. ഇതിന് മുമ്പ് വന്ന നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻഎൽപി) മോഡലുകളിൽ നിന്ന് വ്യത്യസ്തമായി, ഈ ചാറ്റ്ബോട്ടിന് ‘സ്വയം മേൽനോട്ടത്തിലുള്ള പഠനത്തിലൂടെ’ സ്വയം പഠിക്കാൻ കഴിയും.

ചാറ്റ്ജിപിടി വളരെയധികം വിവരങ്ങൾ വേഗത്തിൽ സമന്വയിപ്പിക്കുന്നു, ഇത് വിലമതിക്കാനാവാത്ത റഫറൻസ് ഉപകരണമായി മാറുന്നു. മെഡിക്കൽ ഡാറ്റയിൽ നിന്ന് അനുമാനങ്ങൾ എടുക്കുന്നതിനും സങ്കീർണ്ണമായ ക്ലിനിക്കൽ തീരുമാനങ്ങളെക്കുറിച്ച് അറിയിക്കുന്നതിനും മെഡിക്കൽ പ്രൊഫഷണലുകൾക്ക് ഈ ആപ്ലിക്കേഷൻ ഉപയോഗിക്കാം. ആവശ്യമായ വിവരങ്ങൾ ലഭിക്കുന്നതിന് ഡോക്ടർമാർക്ക് ഒന്നിലധികം റഫറൻസുകൾ നോക്കേണ്ടതില്ല എന്നതിനാൽ ഇത് ആരോഗ്യസംരക്ഷണം കൂടുതൽ കാര്യക്ഷമമാക്കും. അതുപോലെ, രോഗികൾക്ക് അവരുടെ ഡോക്ടറെ മാത്രം ആശ്രയിക്കാതെ മെഡിക്കൽ വിവരങ്ങൾ ആക്സസ് ചെയ്യാൻ കഴിയും.

എന്നിരുന്നാലും, ഡോക്ടർമാർക്കും രോഗികൾക്കും വൈദ്യശാസ്ത്രത്തിൽ ചാറ്റ്ജിപിടിയുടെ ഉപയോഗം കൃത്യവും പൂർണ്ണവുമായ വിവരങ്ങൾ നൽകാൻ കഴിയുമോ എന്നതിലാണ്. ചാറ്റ്ബോട്ട് ‘തെറ്റിദ്ധരിക്കപ്പെട്ടു’ അല്ലെങ്കിൽ പൂർണ്ണമായും തെറ്റായ ബോധ്യപ്പെടുത്തുന്ന പ്രതികരണങ്ങൾ നൽകിയ നിരവധി കേസുകൾ രേഖപ്പെടുത്തിയിട്ടുണ്ട്. ആരോഗ്യവുമായി ബന്ധപ്പെട്ട ചോദ്യങ്ങളോട് പ്രതികരിക്കുന്നതിൽ അതിന്റെ കൃത്യത വിലയിരുത്തേണ്ടത് നിർണായകമാണ്.

“വൈവിധ്യമാർന്ന സ്പെഷ്യാലിറ്റികളിൽ നിന്നുള്ള ഡോക്ടർമാർ വികസിപ്പിച്ചെടുത്ത മെഡിക്കൽ ചോദ്യങ്ങളെ അഭിസംബോധന ചെയ്യുന്നതിലെ മാതൃകാ പ്രകടനത്തെക്കുറിച്ചുള്ള ഉൾക്കാഴ്ചകൾ ഞങ്ങളുടെ പഠനം നൽകുന്നു; ഈ ചോദ്യങ്ങൾ അന്തർലീനമായി ആത്മനിഷ്ഠവും തുറന്നതുമാണ്, കൂടാതെ ഡോക്ടർമാരും രോഗികളും ക്ലിനിക്കൽ ആയി അഭിമുഖീകരിക്കുന്ന വെല്ലുവിളികളെയും അവ്യക്തതകളെയും പ്രതിഫലിപ്പിക്കുന്നു.”

പഠനത്തെ കുറിച്ച്

വാൻഡർബിൽറ്റ് യൂണിവേഴ്സിറ്റി മെഡിക്കൽ സെന്ററിൽ നിന്നുള്ള മുപ്പത്തിമൂന്ന് ഫിസിഷ്യന്മാരും ഫാക്കൽറ്റികളും സമീപകാല ബിരുദധാരികളും 17 പീഡിയാട്രിക്, സർജിക്കൽ, മെഡിക്കൽ സ്പെഷ്യാലിറ്റികളിൽ നിന്നുള്ള 180 ചോദ്യങ്ങളുടെ ഒരു പട്ടിക തയ്യാറാക്കി. രണ്ട് അധിക ചോദ്യ സെറ്റുകളിൽ മെലനോമകൾ, ഇമ്മ്യൂണോതെറാപ്പി, സാധാരണ മെഡിക്കൽ അവസ്ഥകൾ എന്നിവയെക്കുറിച്ചുള്ള ചോദ്യങ്ങൾ ഉൾപ്പെടുന്നു. മൊത്തം 284 ചോദ്യങ്ങളാണ് തിരഞ്ഞെടുത്തത്.

2021 ന്റെ തുടക്കത്തിലെ മെഡിക്കൽ മാർഗ്ഗനിർദ്ദേശങ്ങളെ അടിസ്ഥാനമാക്കി വ്യക്തമായ ഉത്തരങ്ങൾ ലഭിക്കുന്ന തരത്തിലാണ് ചോദ്യങ്ങൾ രൂപകൽപ്പന ചെയ്തിരിക്കുന്നത് (ചാറ്റ്ബോട്ട് പതിപ്പ് 3.5 നുള്ള പരിശീലനം അവസാനിച്ചപ്പോൾ). ചോദ്യങ്ങൾ ബൈനറി (അതെ / ഇല്ല ഉത്തരങ്ങളോടെ) അല്ലെങ്കിൽ വിവരണാത്മകമാകാം. ബുദ്ധിമുട്ടിനെ അടിസ്ഥാനമാക്കി, അവയെ എളുപ്പം, ഇടത്തരം അല്ലെങ്കിൽ കഠിനം എന്നിങ്ങനെ തരംതിരിച്ചു.

ഒരു അന്വേഷകൻ ഓരോ ചോദ്യവും ചാറ്റ്ബോട്ടിൽ നൽകി, ഓരോ ചോദ്യത്തിനുമുള്ള പ്രതികരണം അത് രൂപകൽപ്പന ചെയ്ത ഫിസിഷ്യൻ വിലയിരുത്തി. ലൈക്കർട്ട് സ്കെയിലുകൾ ഉപയോഗിച്ചാണ് കൃത്യതയും പൂർണ്ണതയും സ്കോർ ചെയ്തത്. ഓരോ ചോദ്യവും കൃത്യതയ്ക്കായി 1 മുതൽ 6 വരെ സ്കോർ ചെയ്തു, അതിൽ 1 ‘പൂർണ്ണമായും തെറ്റ്’, 6 ‘പൂർണ്ണമായും ശരി’ എന്നിവ സൂചിപ്പിക്കുന്നു. അതുപോലെ, പൂർണ്ണതയെ 1-3 ൽ നിന്ന് ഗ്രേഡ് ചെയ്തു, അവിടെ 3 ഏറ്റവും സമഗ്രവും 1 ഏറ്റവും കുറവുമാണ്. തികച്ചും തെറ്റായ ഉത്തരം പൂർണ്ണതയ്ക്കായി വിലയിരുത്തിയിട്ടില്ല.

സ്കോർ ഫലങ്ങൾ ശരാശരി [ഇന്റർ ക്വാർട്ടൈൽ റേഞ്ച് (IQR)] എന്നും ശരാശരി [സ്റ്റാൻഡേർഡ് വ്യതിയാനം (SD)] എന്നും റിപ്പോർട്ട് ചെയ്യപ്പെട്ടു. മാൻ-വിറ്റ്നി യു ടെസ്റ്റുകൾ, ക്രുസ്കാൽ-വാലിസ് ടെസ്റ്റുകൾ, വിൽകോക്സൺ സൈൻ-റാങ്ക് ടെസ്റ്റുകൾ എന്നിവ ഉപയോഗിച്ച് ഗ്രൂപ്പുകൾ തമ്മിലുള്ള വ്യത്യാസങ്ങൾ വിലയിരുത്തി. ഒന്നിൽ കൂടുതൽ ഡോക്ടർമാർ ഒരു പ്രത്യേക ചോദ്യത്തിന് സ്കോർ ചെയ്യുമ്പോൾ, ഇന്റർറേറ്റർ കരാറും പരിശോധിച്ചു.

തെറ്റായി ഉത്തരം നൽകിയ ചോദ്യങ്ങൾ, ഒന്നിനും മൂന്നാഴ്ചയ്ക്കും ഇടയിൽ, കാലക്രമേണ ഫലങ്ങൾ പുനർനിർമ്മിക്കാൻ കഴിയുമോ എന്ന് പരിശോധിക്കാൻ രണ്ടാമതും ചോദിച്ചു. ഏറ്റവും പുതിയ മോഡലായ ചാറ്റ്ജിപിടി പതിപ്പ് 4 ന്റെ പ്രകടനം വിലയിരുത്തുന്നതിന് എല്ലാ ഇമ്മ്യൂണോതെറാപ്പി, മെലനോമ അധിഷ്ഠിത ചോദ്യങ്ങളും വീണ്ടും പരിശോധിച്ചു.

കണ്ടെത്തലുകൾ

കൃത്യതയുടെ കാര്യത്തിൽ, ചാറ്റ്ബോട്ടിന് 180 മൾട്ടി സ്പെഷ്യാലിറ്റി ചോദ്യങ്ങളുടെ ആദ്യ സെറ്റിന് ശരാശരി സ്കോർ 5 (ഐക്യുആർ: 1-6) ഉണ്ടായിരുന്നു, ഇത് ശരാശരി ഉത്തരം “മിക്കവാറും എല്ലാം ശരിയാണ്” എന്ന് സൂചിപ്പിക്കുന്നു. എന്നിരുന്നാലും, ശരാശരി സ്കോർ 4.4 [എസ്ഡി: 1.7] ൽ കുറവായിരുന്നു. ശരാശരി പൂർണ്ണത സ്കോർ 3 (“സമഗ്രം”) ആയിരുന്നപ്പോൾ, ശരാശരി സ്കോർ 2.4 [എസ്ഡി: 0.7] ൽ കുറവായിരുന്നു. രണ്ടോ അതിൽ കുറവോ സ്കോർ നേടിയ മുപ്പത്തിയാറ് ഉത്തരങ്ങൾ കൃത്യതയില്ലാത്തവയായി തരംതിരിച്ചു.

ആദ്യ സെറ്റിൽ, പൂർണ്ണതയും കൃത്യതയും 0.4 പരസ്പര ബന്ധ ഗുണകവുമായി അൽപ്പം ബന്ധപ്പെട്ടിരിക്കുന്നു. എളുപ്പവും മിതവും കഠിനവുമായ ചോദ്യങ്ങളിലുടനീളം ചാറ്റ്ജിപിടിയുടെ ഉത്തരങ്ങളുടെ പൂർണ്ണതയിലും കൃത്യതയിലും വിവരണാത്മകവും ബൈനറി ചോദ്യങ്ങളും തമ്മിൽ കാര്യമായ വ്യത്യാസങ്ങളൊന്നും ഉണ്ടായിരുന്നില്ല.

പുനരുൽപാദന വിശകലനത്തിനായി, 36 ൽ 34 എണ്ണം വീണ്ടും സ്കോർ ചെയ്തു. ചാറ്റ്ബോട്ടിന്റെ പ്രകടനം ഗണ്യമായി മെച്ചപ്പെട്ടു, 26 കൂടുതൽ കൃത്യതയുള്ളതും 7 സ്ഥിരമായി തുടരുന്നതും 1 മാത്രം മുമ്പത്തേതിനേക്കാൾ കൃത്യത കുറഞ്ഞതുമാണ്. കൃത്യതയ്ക്കുള്ള ശരാശരി സ്കോർ 2 ൽ നിന്ന് 4 ആയി ഉയർന്നു.

ഇമ്മ്യൂണോതെറാപ്പി, മെലനോമയുമായി ബന്ധപ്പെട്ട ചോദ്യങ്ങൾ രണ്ട് തവണ വിലയിരുത്തി. ആദ്യ റൗണ്ടിൽ, ശരാശരി സ്കോർ 6 (ഐക്യുആർ: 5-6), ശരാശരി സ്കോർ 5.2 (എസ്ഡി: 1.3) ആയിരുന്നു. ചാറ്റ്ബോട്ട് രണ്ടാം റൗണ്ടിൽ മികച്ച പ്രകടനം കാഴ്ചവച്ചു, ശരാശരി സ്കോർ 5.7 (എസ്ഡി: 0.8) ആയി മെച്ചപ്പെടുത്തി. സമ്പൂർണ്ണത സ്കോറുകളും വർദ്ധിച്ചു, കൂടാതെ സാധാരണ സാഹചര്യങ്ങളുമായി ബന്ധപ്പെട്ട ചോദ്യങ്ങൾക്കും ചാറ്റ്ബോട്ട് ഉയർന്ന സ്കോർ നേടി.

“ഈ പഠനം സൂചിപ്പിക്കുന്നത് 3 മാസത്തിനുള്ളിൽ, ചാറ്റ്ബോട്ടിന് കൃത്യവും സമഗ്രവുമായ മെഡിക്കൽ വിവരങ്ങൾ നൽകുന്നതിനുള്ള വാഗ്ദാനമുണ്ട്. എന്നിരുന്നാലും, ഇത് പൂർണ്ണമായും വിശ്വസനീയമല്ല.”

നിഗമനങ്ങൾ

മൊത്തത്തിൽ, പൂർണ്ണതയുടെയും കൃത്യതയുടെയും കാര്യത്തിൽ ചാറ്റ്ജിപിടി മികച്ച പ്രകടനം കാഴ്ചവച്ചു. എന്നിരുന്നാലും, ശരാശരി സ്കോർ ശരാശരി സ്കോറിനേക്കാൾ ഗണ്യമായി കുറവായിരുന്നു, ഇത് വളരെ കൃത്യതയില്ലാത്ത ചില ഉത്തരങ്ങൾ (“മതിഭ്രമങ്ങൾ”) ശരാശരിയെ താഴേക്ക് വലിച്ചിഴച്ചുവെന്ന് സൂചിപ്പിക്കുന്നു. ഈ മതിഭ്രമങ്ങൾ ഒരേ വിശ്വസനീയവും ആധികാരികവുമായ സ്വരത്തിൽ നൽകുന്നതിനാൽ, ശരിയായ ഉത്തരങ്ങളിൽ നിന്ന് വേർതിരിച്ചറിയാൻ പ്രയാസമാണ്.

വിലയിരുത്തലുകൾക്കിടയിലുള്ള ഹ്രസ്വ കാലയളവിൽ ചാറ്റ്ജിപിടി ഗണ്യമായി മെച്ചപ്പെട്ടു. അൽഗോരിതങ്ങൾ തുടർച്ചയായി അപ്ഡേറ്റ് ചെയ്യുകയും പരിഷ്കരിക്കുകയും വസ്തുതാപരമായ കൃത്യതയും പരിശോധിച്ച ഉറവിടങ്ങളും ശക്തിപ്പെടുത്തുന്നതിന് ആവർത്തിച്ചുള്ള ഉപയോക്തൃ ഫീഡ്ബാക്ക് ഉപയോഗിക്കുകയും ചെയ്യേണ്ടതിന്റെ പ്രാധാന്യത്തെ ഇത് സൂചിപ്പിക്കുന്നു. പരിശീലന ഡാറ്റാസെറ്റുകൾ (മെഡിക്കൽ ഉറവിടങ്ങൾക്കുള്ളിൽ) വർദ്ധിപ്പിക്കുകയും വൈവിധ്യവത്കരിക്കുകയും ചെയ്യുന്നത് മെഡിക്കൽ ആശയങ്ങളിലും നിബന്ധനകളിലും സൂക്ഷ്മതകൾ വിശകലനം ചെയ്യാൻ ചാറ്റ്ജിപിടിയെ അനുവദിക്കും.

കൂടാതെ, പബ്മെഡ്-ഇൻഡക്സ് ജേണൽ ലേഖനങ്ങൾ, മെഡിക്കൽ മാർഗ്ഗനിർദ്ദേശങ്ങൾ, സോഷ്യൽ മീഡിയ പീസുകൾ പോലുള്ള ‘താഴ്ന്ന നിലവാരമുള്ള’ ഉറവിടങ്ങൾ എന്നിവ തമ്മിൽ വേർതിരിച്ചറിയാൻ ചാറ്റ്ബോട്ടിന് കഴിഞ്ഞില്ല . കാലക്രമേണ, മെഡിക്കൽ പ്രാക്ടീഷണർമാർക്കും രോഗികൾക്കും ചാറ്റ്ജിപിടി ഒരു മൂല്യവത്തായ ഉപകരണമായി മാറും, പക്ഷേ ഇത് ഇതുവരെ ഇല്ല.

Dr Bibin

Experienced Researcher with a demonstrated history of working in the Deep Learning, Computer Vision

Leave a Reply