Štyri popredné AI četboty sa pri vypĺňaní amerických daňových priznaní pomýlili v priemere o viac ako 2 000 dolárov, zistil test denníka The New York Times. Ani jeden z modelov nedokázal spoľahlivo vybrať správne formuláre, správne ich vyplniť a presne vypočítať dlžnú sumu.
Redakcia testovala štyri modely, a to ChatGPT od OpenAI, Claude od Anthropicu, Gemini od Google a Grok od xAI. Každý z nich dostal sériu daňových scenárov prevzatých z tréningových materiálov daňovej služby TaxSlayer. Výsledok? Dopadli vždy rovnako zle. Četboty chybovali pri výbere formulárov, pri výpočtoch aj pri drobných, no rozhodujúcich detailoch, ktoré americký daňový úrad IRS vyžaduje.
Priemer mínus 2 000 dolárov
Priemerná odchýlka od správnej sumy presiahla dvetisíc dolárov. Analytik Benedict Evans to pre denník vysvetlil takto: „Problém s daňami je, že všetky tie drobné detaily sú dôležité, a četbot nedokáže trafiť každý jeden.“ Evans zároveň pripustil, že modely sa každých šesť mesiacov výrazne zlepšujú. „Ale stále vám dajú niečo, čo je zhruba správna odpoveď, no to nie je to, čo chcete,“ dodal.
Zlepšenie nastalo až po tom, čo redaktori četbotom dodali veľmi konkrétne inštrukcie, napríklad presne určili, kam ktorý údaj patrí v ktorom konkrétnom formulári IRS. Lenže práve toto robí celý nástroj zbytočným. Bežný daňovník siahne buď po softvéri na to určenom alebo sa obráti na účtovníka, ktorý to spraví za neho.
Predikcia verzus presnosť
Erik Brynjolfsson, výskumník zo Stanford Institute for Human-Centered AI, pre The New York Times poukázal na zásadnú technickú priepasť. Klasický daňový softvér funguje procedurálne, na logike „ak nastane X, urob Y“, vybudovanej pre matematickú presnosť. Veľké jazykové modely sú naproti tomu predikčné nástroje. Brynjolfsson uviedol, že dokážu byť „nadľudské v mnohých úlohách, no zlyhávajú pri niektorých, ktoré sa ľuďom zdajú jednoduchšie„.
AI vo všeobecnosti zápasí s presnosťou naprieč rôznymi oblasťami. Vymýšľajú si nepravdivé tvrdenia, aj keď majú len zhrnúť jediný dokument.
Americká daňová sezóna, rovnako ako tá slovenská, prebieha každoročne na jar a pre milióny daňovníkov predstavuje stresujúcu administratívnu záťaž. Lákadlo bezplatnej AI, ktorá by celý proces zvládla za pár minút, je preto pochopiteľné. Test denníka The New York Times však ukázal, že aktuálna generácia modelov nateraz nie je schopná nahradiť ani najlacnejší platený nástroj bez toho, aby používateľ sám vedel, kde presne má každý údaj skončiť.


