Bezpečnostní výskumníci zverejnili jednoduchú metódu na obchádzanie ochranných opatrení umelej inteligencie ChatGPT od spoločnosti OpenAI, čím sa im podarilo získať platné produktové kľúče k operačnému systému Windows 10. Tento incident poukazuje na dôležité medzery v bezpečnosti veľkých jazykových modelov, ktoré Microsoft integruje do svojich produktov v spolupráci s OpenAI.
Zneužitie umelej inteligencie pomocou hernej manipulácie
Marco Figueroa, projektový manažér platformy 0DIN, ktorá sa špecializuje na vyhľadávanie zraniteľností v AI systémoch, zdokumentoval techniku, pomocou ktorej presvedčili ChatGPT, aby vygeneroval licenčné kľúče pre Windows 10. Hlavný princíp spočíva v preformulovaní dotazu na formu nevinnej hry, ktorá zmení jeho vnímanie kontextu. Táto herná manipulácia vedie k tomu, že ChatGPT nevníma požiadavky ako potenciálne škodlivé.
Podľa Figueroovej správy, publikovanej na webe jeho organizácie, hra a jej ľahkovážny jazyk minimalizovali ostražitosť umelej inteligencie. ChatGPT tým pádom stratil schopnosť správne rozpoznať citlivú povahu sprístupnených údajov. Testovanie podobných metód ukázalo, že špecifické frázy, napríklad priznaná prehra používateľa („I give up“ – „Vzdávam sa“), dokázali presvedčiť AI, aby sprístupnila skryté citlivé dáta, ako sú legitímne aktivačné kódy operačného systému Windows.
Príčinou, prečo ChatGPT poskytol platné produktové kľúče, je pravdepodobne ich prítomnosť v množstve verejne dostupných dát, na ktorých OpenAI svoj jazykový model trénuje. Tým pádom AI nerozpozná tento druh informácií ako dôverný či citlivý, keďže boli dostupné už pred tréningom daného modelu.

Urýchlená oorava
Objav je citlivý obzvlášť pre spoločnosť Microsoft, ktorá je najväčším finančným partnerom a investorom OpenAI. V minulosti vložila spoločnosť do OpenAI miliardy dolárov, pričom AI technológiu od tejto firmy postupne integruje do svojich produktov vrátane platformy Bing a kancelárskeho balíka Microsoft 365.
Zraniteľnosť ako táto môže vážne poškodiť reputáciu oboch spoločností. Microsoft je zároveň aktuálne vystavený viacerým súdnym sporom, ktoré sa týkajú tvrdení, že technológie od OpenAI uľahčujú plagiátorstvo a môžu slúžiť na obchádzanie ochrany autorského obsahu. Navyše sa medzi OpenAI a Microsoftom začínajú objavovať spory ohľadom finančných podmienok ich partnerstva.
Tento prípad odhaľuje zásadné nedostatky súčasných bezpečnostných opatrení jazykových modelov, ktoré nedokážu efektívne rozpoznať sofistikované metódy sociálneho inžinierstva vo forme hernej manipulácie či klamlivého rámcovania požiadaviek.
Uvedená slabina voči hravým, neformálnym obchádzacím praktikám môže byť problémom nielen v oblasti krádeže licenčných kľúčov, ale aj v prípade získavania citivejších údajov, ako sú napríklad interné prístupové kľúče k firemným účtom alebo súkromné API kľúče k softvérovým vývojovým platformám.
Zlepšenia a výzvy v oblasti AI bezpečnosti
Bezpečnostní odborníci varujú, že táto technika by mohla byť zneužitá na získanie omnoho citlivejších a dôležitejších informácií než sú aktivačné kľúče Windows 10. Existuje totiž reálne riziko, že AI môže poskytnúť tajné údaje ako autentifikačné tokeny, prístupy ku súkromným zdrojovým kódom alebo interným databázam, ktoré boli v minulosti omylom zverejnené.
Odborníci z AI bezpečnosti odporúčajú vývojárom dôrazne zvýšiť svoju pozornosť voči podobným manipulatívnym technikám používaným na obchádzanie ochranných mechanizmov. Zároveň je podľa nich potrebné, aby výrobcovia jazykových modelov implementovali sofistikovanejšie systémy určené na detekciu podozrivých alebo zavádzajúcich používateľských dotazov na úrovni prirodzeného jazyka a logickej interpretácie.
Takáto ochrana môže viesť k tomu, že umelé inteligencie budú schopné spoľahlivo rozlišovať medzi neškodnými interakciami a pokusmi o získanie neoprávneného prístupu ku kriticky dôležitým, citlivým údajom, ktoré by v nesprávnych rukách mohli vážne poškodiť firmy aj jednotlivcov.