Ľudia začali používať ChatGPT a Gemini na daňové priznania. Test ukázal, že robia chyby za tisíce

Test denníka The New York Times ukázal, že ChatGPT, Claude, Gemini aj Grok chybovali pri daňových priznaniach v priemere o viac ako 2 000 dolárov.

Posledná aktualizácia: 9. marca 2026 8:22

Lukáš Zachar

Publikované 9. marca 2026

3 min

Štyri popredné AI četboty sa pri vypĺňaní amerických daňových priznaní pomýlili v priemere o viac ako 2 000 dolárov, zistil test denníka The New York Times. Ani jeden z modelov nedokázal spoľahlivo vybrať správne formuláre, správne ich vyplniť a presne vypočítať dlžnú sumu.

Redakcia testovala štyri modely, a to ChatGPT od OpenAI, Claude od Anthropicu, Gemini od Google a Grok od xAI. Každý z nich dostal sériu daňových scenárov prevzatých z tréningových materiálov daňovej služby TaxSlayer. Výsledok? Dopadli vždy rovnako zle. Četboty chybovali pri výbere formulárov, pri výpočtoch aj pri drobných, no rozhodujúcich detailoch, ktoré americký daňový úrad IRS vyžaduje.

Priemer mínus 2 000 dolárov

Priemerná odchýlka od správnej sumy presiahla dvetisíc dolárov. Analytik Benedict Evans to pre denník vysvetlil takto: „Problém s daňami je, že všetky tie drobné detaily sú dôležité, a četbot nedokáže trafiť každý jeden.“ Evans zároveň pripustil, že modely sa každých šesť mesiacov výrazne zlepšujú. „Ale stále vám dajú niečo, čo je zhruba správna odpoveď, no to nie je to, čo chcete,“ dodal.

Zlepšenie nastalo až po tom, čo redaktori četbotom dodali veľmi konkrétne inštrukcie, napríklad presne určili, kam ktorý údaj patrí v ktorom konkrétnom formulári IRS. Lenže práve toto robí celý nástroj zbytočným. Bežný daňovník siahne buď po softvéri na to určenom alebo sa obráti na účtovníka, ktorý to spraví za neho.

Predikcia verzus presnosť

Erik Brynjolfsson, výskumník zo Stanford Institute for Human-Centered AI, pre The New York Times poukázal na zásadnú technickú priepasť. Klasický daňový softvér funguje procedurálne, na logike „ak nastane X, urob Y“, vybudovanej pre matematickú presnosť. Veľké jazykové modely sú naproti tomu predikčné nástroje. Brynjolfsson uviedol, že dokážu byť „nadľudské v mnohých úlohách, no zlyhávajú pri niektorých, ktoré sa ľuďom zdajú jednoduchšie„.

AI vo všeobecnosti zápasí s presnosťou naprieč rôznymi oblasťami. Vymýšľajú si nepravdivé tvrdenia, aj keď majú len zhrnúť jediný dokument.

Americká daňová sezóna, rovnako ako tá slovenská, prebieha každoročne na jar a pre milióny daňovníkov predstavuje stresujúcu administratívnu záťaž. Lákadlo bezplatnej AI, ktorá by celý proces zvládla za pár minút, je preto pochopiteľné. Test denníka The New York Times však ukázal, že aktuálna generácia modelov nateraz nie je schopná nahradiť ani najlacnejší platený nástroj bez toho, aby používateľ sám vedel, kde presne má každý údaj skončiť.

Ľudia začali používať ChatGPT a Gemini na daňové priznania. Test ukázal, že robia chyby za tisíce

Test denníka The New York Times ukázal, že ChatGPT, Claude, Gemini aj Grok chybovali pri daňových priznaniach v priemere o viac ako 2 000 dolárov.

Priemer mínus 2 000 dolárov

Predikcia verzus presnosť

Najčítanejšie

Okopírovať ju nevie ani Čína: Celý digitálny svet závisí od strojov jedinej európskej firmy ASML

Ktorý smartfón je najlepší? Pixel neobhájil titul, na trón sa vrátil Apple s iPhone 17 Pro

Exynos 2600 vs. Snapdragon 8 Elite Gen 5: Ktorá verzia Samsung Galaxy S26 má viac výkonu?

4K, 240 Hz a hrúbka len 6,4 milimetra: Nový OLED monitor TCL 32X3A prekonáva hranice možného, stojí 750 €

Najnovšie články

Dôležité odkazy

Priemer mínus 2 000 dolárov

Predikcia verzus presnosť

Najčítanejšie

Najnovšie články

Bude sa vám páčiť