Google oficiálne zverejnil Android Bench, verejný rebríček modelov umelej inteligencie (AI), ktorý je však určený výhradne pre vývojárov aplikácií pre operačný systém Android. Na rozdiel od všeobecných benchmarkov, ktoré merajú schopnosti AI pri matematike, jazykovom porozumení alebo všeobecnom kódovaní, Android Bench sa sústreďuje na konkrétne výzvy, s ktorými sa vývojár stretáva pri každodennej práci na Android aplikáciách, informuje 9to5Google.
Výsledky sú veľmi zaujímavé. Zatiaľ Gemini 3.1 Pro Preview, vlastný model Google, vedie, no jeho náskok pred Claude od Anthropic nie je ani zďaleka taký drvivý, ako by mnohí očakávali.
Prečo vznikol Android Bench
Existujúce AI benchmarky ako MMLU, HumanEval či SWE-bench testujú všeobecné kódovacie schopnosti, no Android vývoj má svoje špecifiká, ktoré tieto testy prehliadajú.
Android Developers Blog vysvetľuje, že vývojári Androidu čelia výzvam, na ktoré všeobecné benchmarky jednoducho nestačia, napríklad framework Jetpack Compose pre moderné UI, asynchrónne programovanie cez Coroutines a Flows, databázová vrstva Room, dependency injection cez Hilt alebo navigačné migrácie.

Okrem toho Android Bench testuje, ako dobre AI modely zvládajú špecifické hardvérové API, respektíve kamery, systémové UI, médiá, adaptáciu pre skladacie telefóny a zmeny medzi verziami Android SDK. Tie totiž často prinášajú zlomové zmeny spätnej kompatibility.
Google rebríček aktívne aktualizuje, pričom aktuálne výsledky vyplývajú z testovania 4. marca 2026. Obecným cieľom je motivovať výrobcov AI modelov zlepšovať výkon práve v oblasti vývoja aplikácií (pre Android).
Ako dopadol ktorý model
Víťaz rebríčka, Gemini 3.1 Pro Preview, bol uvedený do preview 19. februára. Tento model dosiahol rekordné skóre aj na ďalších všeobecných benchmarkoch, vrátane vedúcej pozície na APEX-Agents leaderboarde, kde merajú schopnosť AI modelov vykonávať dlhé, viacstupňové agentívne úlohy.
Gemini 3.1 Pro zaznamenal skóre 77,1 percenta na ARC-AGI-2, teda viac ako dvojnásobok výsledku Gemini 3 Pro, a rekordných 94,3 percenta na GPQA Diamond, čo je test na úrovni postgraduálnych vedeckých otázok.
| Poradie | Model | Skóre |
| 1 | Gemini 3.1 Pro Preview | 72,4 percenta |
| 2 | Claude Opus 4.6 | 66,6 percenta |
| 3 | GPT-5.2 Codex | 62,5 percenta |
| 4 | Claude Opus 4.5 | 61,9 percenta |
| 5 | Gemini 3 Pro Preview | 60,4 percenta |
| 6 | Claude Sonnet 4.6 | 58,4 percenta |
| 7 | Claude Sonnet 4.5 | 54,2 percenta |
| 8 | Gemini 3 Flash Preview | 42,0 percenta |
| 9 | Gemini 2.5 Flash | 16,1 percenta |
Čo tieto výsledky znamenajú?
Rebríček však odhaľuje oveľa viac zaujímavostí. Gemini 3.1 Pro Preview síce vedie, no stále ide len o preview model, nie produkčne stabilnú verziu. Google historicky vydáva preview modely šesť až dvanásť týždňov pred stabilnou (plnou) verziou, takže výsledky môžu po finálnom vydaní ešte kolísať.
Zaujímavý je aj výrazný prepad Gemini 2.5 Flash na posledné miesto so skóre len 16,1 percenta. To sa ale dalo očakávať, keďže tento model je navrhnutý predovšetkým na rýchlosť a efektivitu, nie na komplexné kódovacie úlohy.
Naopak, Anthropic je v rebríčku zastúpený hneď štyrmi modelmi (Opus 4.6, Opus 4.5, Sonnet 4.6, Sonnet 4.5), pričom konkrétne obsadil 2., 4., 6. a 7. miesto, čo dokazuje konzistentnosť naprieč celým portfóliom.
Gemini 3.1 vs. Claude
Ďalšou zaujímavosťou je samotná fakt, že práve Claude Opus 4.6, model, ktorý v Android Bench obsadil druhé miesto, je aktuálne v iných všeobecných rebríčkoch hodnotený ako celkovo najsilnejší AI model.
Google teda dominuje na “vlastnej pôde”, teda v špecifickom benchmarku, ktorý sám navrhol a aj ho prevádzkuje, avšak vo všeobecnom porovnaní jeho Gemini 3.1 Pro zaostáva za Claude.
Dôležitá informácia pre vývojárov
Pre vývojárov aplikácií pre Android je Android Bench praktický nástroj pri výbere AI asistenta. Portál Gigazine vysvetľuje, že Google spustením rebríčka sleduje dva ciele, a to pomôcť vývojárom zvoliť správny nástroj a súčasne vytvoriť tlak na ostatných výrobcov AI modelov, aby zlepšovali kompetencie špecifické pre Android.
V praxi to znamená, že ak vývojár pracuje primárne na Android aplikáciách, Gemini 3.1 Pro Preview je podľa dostupných dát najsilnejší asistent. Ale pri väčšom rozpočte alebo potrebe všeobecnejšieho modelu ostáva Claude Opus 4.6 silnou alternatívou s len 6-percentným rozdielom v skóre.


