Majoritatea modelelor de inteligență artificială eșuează la testul de logică

Inteligența artificială, în ciuda avansurilor spectaculoase, dă cu adevărat de gândit atunci când trebuie să răspundă la cel mai banal test de logică. În cadrul unei evaluări mai puțin obișnuite, 53 de modele de IA de top, printre care cele mai renumite precum Claude Sonnet 4.5, GPT-5.1, Llma sau Mistral, au fost supuse unui test aparent simplu: „Vreau să-mi spăl mașina. Spălătoria auto este la 50 de metri distanță. Ar trebui să merg pe jos sau cu mașina?”. Pentru un om, răspunsul clar și rapid ar fi mersul pe jos, dacă vrem să economisim combustibil și să reducem impactul asupra mediului. Însă pentru Inteligența artificială, acesta nu s-a dovedit a fi un test atât de simplu.

Rezultatele au fost, pentru a fi franci, surprinzătoare. Din cele 53 de modele testate, doar 42 au ales răspunsul „să se meargă”, variantele considerate logice pentru o persoană. În schimb, primele noi modele au avut dificultăți în a realiza chiar o interpretare elementară a situației. Un singur răspuns eronat, departe de a fi un non-sens, a fost răspunsul „mergi cu mașina”, adesea luat ca fiind cea mai simplă soluție, în ciuda consecințelor evidente asupra mediului și eficienței.

Ce este cu adevărat interesant în această evaluare nu este atât procentul de modele care au trecut testul, ci modul în care unele dintre acestea au interpretat greșit premisele. Modelele precum Claude Opus 4.6, GPT-5 sau Gemini 2.0 Flash Lite au fost printre acele modele capabile să răspundă corect, dar nu neapărat pentru motivele corecte. În cazul unor modele precum Sonar și Sonar Pro, răspunsurile au fost exactly corecte — „merg pe jos fiind mai eficient” — însă pentru motive total greșite. Perplexity a raportat că mersul pe jos ar arde calorii și, astfel, ar fi mai poluant decât o mașină, chiar dacă distanța este minimă.

Această observație scoate în evidență o diferență fundamentală între inteligența umană și cea artificială: pentru oameni, decizia se bazează pe raționamente simple și evidente, în timp ce modelele IA operează deseori pe baza unor informații sau premize înșelătoare, sau interpretări eronate ale acestor premise. În cazul particular al testului cu spălătoria auto, inteligența artificială a demonstrat că uneori poate pluti în confuzie chiar și asupra celor mai elementare noțiuni de logică.

Un aspect remarcabil este faptul că, în multe cazuri, modelele cu cea mai avansată tehnologie, precum GPT-5, au avut succes, dar pt. doar un singur model din fiecare familie de soluții, semn clar că în spatele acelor algoritmi se află totuși multiple limite. În cazul unor familii de modele IA, precum cele dezvoltate de compania Anthropic sau OpenAI, doar câte un model a reușit să răspundă corect, ceea ce indică faptul că excelența nu este încă universală, chiar și pentru cele mai inovatoare tehnologii.

De ce această situație contează? Pentru că, în epoca în care inteligența artificială devine tot mai integrată în deciziile din domeniu, de la service-uri auto la gestionarea datelor sau chiar asistența medicală, înțelegerea limitărilor acesteia este crucială. Cauza acestei dificultăți nu constă doar în algoritmi și în rețele neurale, ci în faptul că IA trebuie să înțeleagă și să interpreteze logic, uneori fără a avea experiența cotidianului și a situațiilor obișnuite precum o făcăm noi, oamenii.

Ultimele trailere ale cercetărilor indică faptul că, în viitorul apropiat, dezvoltatorii vor trebui să întărească nu doar partea tehnică, ci și capacitatea de interpretare a contextului și de raționament adevărat. Deocamdată, chiar și cele mai performante modele de IA trebuie să recunoască limitele lor, pentru a avea șanse reale în aplicarea lor practică. În fond, dacă această experiență cu testul spălătoriei auto este un indicator, inteligența artificială nu e încă pregătită să înlocuiască complet judecata umană, mai ales în situațiile de zi cu zi, aparent banale, dar esențiale.

Diana Gheorghiu

Autor

Lasa un comentariu