Milióny ľudí žiadajú AI o zdravotné rady. Neverte im, v 50 % prípadov sa totálne mýlia

Umelá inteligencia sa stala pre milióny ľudí prvou (a často jedinou) zastávkou pri hľadaní zdravotných informácií, čo však nie je zrovna pozitívna štatistika. Nová štúdia publikovaná v prestížnom medicínskom časopise BMJ Open totiž prináša celkom znepokojivé zistenia. Populárni AI chatboti, vrátane ChatGPT, Gemini, Grok, Meta AI a DeepSeek, poskytujú prinajmenšom problematické medicínske rady až v polovici (50 percentách) prípadov. A ešte horším faktom je, že tieto údaje zvyknú prezentovať s maximálnou istotou, teda ako fakty, nie hypotézy.

Čo presne hovorí štúdia

Výskumníci z USA, Kanady a Spojeného kráľovstva otestovali celkovo päť najpoužívanejších chatbotov, menovite ChatGPT od OpenAI, Gemini od Google, Grok od xAI, Meta AI a čínsky DeepSeek. Každému z nich položili 10 otázok v piatich zdravotných oblastiach: rakovina, vakcíny, kmeňové bunky, výživa a športový výkon.

Celkovo teda štúdia analyzovala 250 odpovedí, respektíve 50 za každú platformu. Otázky pritom boli zostavené tak, aby odrážali bežné dopyty používateľov a zároveň pokrývali témy, kde je riziko dezinformácií najvyššie.

Výsledky v podstate hovoria samé za seba. Presne 50 percent odpovedí bolo vyhodnotených ako problematické. Z toho 30 percent bolo čiastočne problematických a takmer 20 percent bolo označených za vysoko problematické, teda potenciálne nebezpečné.

Žiaden z testovaných chatbotov ani raz neposkytol plne presnú reakciu a dokonca ani kompletný zoznam zdrojov. Priemerné skóre kompletnosti citácií dosiahlo iba 40 percent.

Najhoršie sú otvorené otázky

Štúdia identifikovala jasný vzor. Chatboti si vedeli lepšie poradiť s uzavretými otázkami, kde je odpoveď jednoznačná, napríklad s faktickými otázkami o vakcínach alebo o diagnostikovaných typoch rakoviny.

Naopak, pri otvorených, vágnejších otázkach, napríklad aký doplnok stravy je najlepší, ako fungujú kmeňové bunky pri liečbe konkrétnej choroby alebo čo zlepší športový výkon, sa kvalita odpovedí výrazne zhoršila. Práve tieto otvorené otázky sú pritom veľmi častým spôsobom, ako ľudia v reálnom živote s AI ako takou komunikujú.

Medical Xpress, ktorý štúdiu analyzoval, uvádza, že chatboti v takýchto prípadoch kombinovali spoľahlivé vedecké fakty s neoverenými tvrdeniami alebo zavádzajúcimi zjednodušeniami, hoci odpoveď ako celok pôsobila jednotne a dôveryhodne. Bežný používateľ bez medicínskeho vzdelania však nemá šancu správne odlíšiť spoľahlivé časti odpovedí od tých nespoľahlivých.

Halucinácie v referenciách

Jednou z najvážnejších výhrad výskumníkov je fenomén halucinovaných citácií. Chatboti nielenže poskytli nepresné informácie, ale v mnohých prípadoch ich podložili odkazmi na zdanlivo legitímne zdroje (vedecké články alebo odborné publikáci) ktoré buď neexistujú, alebo neobsahujú to, čo chatbot uvádza. Agentúra Bloomberg, ktorá o štúdii taktiež informovala, poukazuje na to, že formát podložený citáciami, hoc aj nepresnými či dokonca neexistujúcimi, vytvára u používateľov falošný dojem správnosti.

Výskumníci tiež upozornili, že žiaden z chatbotov pri odpovedaní na zdravotné otázky neuviedol takmer žiadne výhrady ani neodporučil konzultáciu s lekárom. Výnimkou bola len Meta AI, ktorá sa dvakrát odmietla vyjadriť k otázke.

200 miliónov ľudí každý týždeň

Rozsah problému je o to závažnejší, keď si uvedomíme, aké množstvo ľudí tieto nástroje na zdravotné informácie reálne používa.

OpenAI uviedla, že ChatGPT dostáva viac ako 200 miliónov otázok týkajúcich sa zdravia a pohody každý týždeň. AI chatboti sa teda de facto stali paralelným systémom zdravotného poradenstva, a to aj bez licencie, bez klinického úsudku a bez zodpovednosti za chybné rady.

Euronews Health pritom ešte vo februári upozornil na dávnejšiu štúdiu, podľa ktorej veľké jazykové modely akceptovali dezinformácie v 32 percentách prípadov, keď boli prezentované vo forme realistických lekárskych poznámok alebo príspevkov na sociálnych sieťach. Menšie a menej výkonné modely pritom uverili falošným tvrdeniam v až 60 percentách prípadov.

Čo hovoria experti

Výskumníci sú v záveroch síce opatrní, no aj do istej miery jednoznační. Uznávajú limity svojej štúdie, keďže testovali iba päť platforiem, modely sa neustále menia a otázky boli zámerene navrhnuté na stresové testovanie, čo môže nadhodnocovať mieru chybovosti v každodennom použití.

Napriek tomu jedno zistenie označili za neoblomné: AI systémy zahrnuté v experimente zlyhali na medicínsky overiteľných témach de facto v každom druhom prípade.

Autori štúdie preto (celkom oprávnene) vyzývajú na všeobecné prehodnotenie toho, ako sú AI modely nasadzované vo verejnej komunikácii, pokiaľ ide o otázky ohľadom zdravia. Ich hlavná obava je jasná: tieto systémy generujú „autoritatívne znejúce, no potenciálne chybné odpovede“, pričom ich masové nasadenie bez vzdelávania verejnosti a systémového dohľadu môže existujúcu dezinformačnú škálu v zdravotníctve ešte väčšmi prehĺbiť. A to je riziko ako pre používateľov, tak aj pre tvorcov AI aj lekárov.

Majú v tejto téme miesto?

Áno, ale v inom zmysle, než si mnohí myslia. Záver štúdie netreba hneď interpretovať tak, že AI chatboti sú pri zdravotných témach úplne zbytoční. Môžu byť užitoční napríklad pri sumarizácii informácií, formulovaní otázok pred návštevou lekára alebo pri pochopení všeobecných medicínskych pojmov.

Problém však nastáva vtedy, keď používatelia chatbotom zverujú rozhodnutia, pri ktorých by sa mali po správnosti spoliehať na kompetencie kvalifikovaného zdravotníka. Prax celkom jasne ukazuje, že AI stále nedokáže spoľahlivo nahradiť lekársku konzultáciu. A podľa autorov štúdie ani v dohľadnej budúcnosti nebude.

Štúdia v BMJ Open je teda len ďalším dielom skladačky, ktorá sa postupne utvára čoraz zreteľnejší výsledok. Umelá inteligencia mení spôsob, akým ľudia získavajú informácie o zdraví, no zatiaľ nedokáže garantovať ani ich správnosť, ani ich bezpečnosť.

A to je v kontexte zdravotníctva, kde chybná informácia môže mať priame dôsledky na ľudské zdravie alebo život, závažný problém, ktorý si vyžaduje systémovú odpoveď. Varovania napísané maličkým písmom na konci odpovedí ani zďaleka nie sú dostatočným opatrením „pre istotu“.