Google recunoaște: „Milioane de răspunsuri inexacte generate de IA la fiecare oră”

Un experiment realizat cu funcția AI Overviews din motorul de căutare Google a arătat că inteligența artificială oferă răspunsuri corecte doar în 90% din cazuri. Aceasta înseamnă că cel puțin 1 din 10 răspunsuri este fals. Având în vedere volumul de căutări, se estimează că milioane de „răspunsuri false” sunt generate pe oră, conform unui studiu realizat de The New York Times și startup-ul Oumi.

AI Overviews, o funcție a motorului de căutare Google care utilizează inteligența artificială Gemini pentru a genera răspunsuri automate la solicitările utilizatorilor, a fost lansată pentru prima dată în 2024. De la implementare, a stârnit controverse, dar a devenit mai bună odată cu lansarea noilor modele Gemini. Un nou experiment realizat de The New York Times a evaluat acuratețea răspunsurilor AI, demonstrând că acestea sunt corecte în 90% din cazuri, ceea ce implică faptul că cel puțin 1 din 10 răspunsuri este eronat.

Experimentul a fost realizat în colaborare cu startup-ul Oumi, folosind SimpleQA – un test standard pentru modele, cu 4.000 de întrebări, creat de OpenAI în 2024. Primele teste efectuate de Oumi anul trecut, când era actual modelul Gemini 2.5, au arătat o precizie de 85%. După actualizarea la Gemini 3, precizia a crescut la 91%. Dacă extrapolăm rata de erori la toate căutările, se poate vorbi despre milioane de răspunsuri eronate pe oră și sute de mii pe minut.

Google a contestat metodologia studiului, purtătorul de cuvânt Ned Adrians afirmând că SimpleQA poate conține inexactități. Compania folosește propriul text SimpleQA Verified, bazat pe un eșantion mai mic, dar mai atent verificat. „Acest studiu are lacune serioase”, a declarat Adrians. „Nu reflectă ceea ce caută oamenii cu adevărat pe Google.” Evaluarea IA rămâne o sarcină complexă, fiecare companie având propria modalitate de a demonstra capacitățile, iar modelele pot oferi răspunsuri diferite la aceeași întrebare.

AI Overviews nu este singurul model utilizat de Google. Compania a anunțat că sistemul alege „cel mai relevant” răspuns pentru fiecare interogare. Cele mai precise răspunsuri ar putea fi oferite de Gemini 3.1 Pro, dar acesta este lent și costisitor, astfel că se utilizează mai frecvent modelele Gemini Flash.

În ciuda acestor aspecte, un indicator de acuratețe de 9 din 10 pentru IA reprezintă un rezultat destul de bun pentru industrie. Google a publicat anterior teste ale noilor modele cu o precizie de 60–80% fără acces la date externe. Utilizarea surselor de pe internet îmbunătățește rezultatul, dar creează și o problemă: utilizatorii au tendința de a avea încredere în IA fără a verifica informațiile la sursele originale. Deși Google susține că rezultatele experimentului NYT nu reflectă realitatea, compania continuă să amintească utilizatorilor, la sfârșitul fiecărui răspuns, că „IA poate greși, așa că verificați încă o dată.”