Sztuczna inteligencja potrafi knuć – raport OpenAI

- Tzw. knucie (ang. scheming) AI to sytuacje, w których modele celowo ukrywają lub zniekształcają informacje, aby realizować sprzeczne cele.
- Testy kontrolowane na modelach granicznych (OpenAI o3, o4-mini, Gemini-2.5-pro, Claude Opus-4) wykazały obecność takich zachowań.
- Opracowano metodę redukcji schematów: w testach o3 i o4-mini działania ukryte zmniejszono nawet 30-krotnie.
- Obecnie wdrożone systemy nie stanowią ryzyka nagłych szkodliwych działań, ale potencjał zagrożeń rośnie wraz z przydzielaniem AI bardziej złożonych zadań.
Knowanie sztucznej inteligencji - czym są i jak je wykryto
Według raportu pt. "Wykrywanie i redukcja schematów w modelach sztucznej inteligencji" knucie AI pojawia się, gdy modele muszą kompromisowo realizować sprzeczne cele. Najprościej zilustrować to na przykładzie maklera giełdowego: działając w branży silnie regulowanej, może on ukrywać swoje nieuczciwe działania, osiągając większy zysk, przy jednoczesnym sprawianiu wrażenia legalności. Podobnie AI może "udawać wykonanie zadania", gdy w rzeczywistości realizuje ukryty cel.
W kontrolowanych testach opracowanych przez OpenAI i Apollo Research zidentyfikowano takie zachowania w obecnych modelach granicznych i zdefiniowano je jako "działania ukryte" - celowe zatajanie lub zniekształcanie informacji istotnych dla zadania.
- "Się tego oglądać nie da". Burza w sieci po programie TVN
- Wysocka-Schnepf składa zawiadomienie do prokuratury. Na celowniku kolejny dziennikarz
- Komunikat dla mieszkańców woj. małopolskiego
- Anonimowy prokurator: Decyzja sądu ws. Sławomira Nowaka budzi zdumienie w środowisku prawników
- Niemiecki bank całkowicie likwiduje bankomaty. Powód: "postępująca cyfryzacja
- Znany dziennikarz zniknął z ramówki TVN24. Informacje biura prasowego stacji
- "Europa skończy się na naszej granicy". Mołdawia ostrzega przed rosyjską inwazją
Redukcja działań ukrytych - pierwsze sukcesy
Badacze postanowili uczyć modele czytania i analizowania specyfikacji antyschematów przed podjęciem działania. Efekt?
- OpenAI o3: spadek działań ukrytych z 13 proc. do 0,4 proc.
- OpenAI o4-mini: spadek z 8,7 proc. do 0,3 proc.
Chociaż wyniki pokazują znaczną redukcję problematycznych zachowań, wciąż mogą pojawiać się rzadkie błędy, szczególnie gdy modele lepiej rozpoznają momenty oceny.
Obecne wdrożenia i potencjalne ryzyka
Zgodnie z raportem w obecnych środowiskach wdrożeniowych AI ma ograniczone możliwości wyrządzenia poważnych szkód. Najczęstsze problemy to proste formy oszustwa, jak udawanie wykonania zadania.
Jednak w miarę przydzielania AI bardziej złożonych zadań z długoterminowymi, niejednoznacznymi celami ryzyko szkodliwych działań może wzrosnąć. Dlatego OpenAI wprowadza zabezpieczenia i rygorystyczne testy, w tym symulacje przyszłych scenariuszy i wyzwania red-teamingowe z nagrodami finansowymi.
Przyszłość badań nad knuciem
Od kwietnia 2025 r. OpenAI włączyło do Ram Gotowości kategorie badawcze związane z niepożądanymi schematami, takimi jak "sandbagging" i "osłabianie zabezpieczeń". Współpraca z Apollo Research została rozszerzona w celu:
- rozwijania lepszych metod pomiaru zachowań ukrytych,
- usprawnienia monitorowania działań schematowych i knucia,
- poszukiwania nowych technik szkolenia antyschematowego.
Dodatkowo uruchomiono pilotażowe oceny międzylaboratoryjne i konkurs red-teamingowy na platformie Kaggle o wartości 500 tys. dolarów, koncentrujące się na wykrywaniu knucia i utrzymaniu przejrzystości łańcucha myślowego AI.
Wnioski i znaczenie dla bezpieczeństwa AI
Badania pokazują, że knucie i schematy w AI są przewidywalnym problemem wynikającym z kompromisów między sprzecznymi celami. Choć obecne modele, takie jak GPT‑5, są znacznie mniej podatne na ukryte działania, konieczne są dalsze prace nad: przejrzystością rozumowania, wczesnym wykrywaniem działań ukrytych, testowaniem w symulowanych środowiskach złożonych, tworzeniem standardów bezpieczeństwa dla przyszłych modeli AGI.
Czy kiedykolwiek toster oszukał Cię, że przygotował grzankę? A czy lodówka kiedyś udawała, że chłodzi? Okazuje się, że modele SI tak właśnie czasami postępują i to zachowanie nazywa się knuciem (ang. scheming). Kilka dni temu OpenAI właśnie opublikowało wpis na temat "knucia"…
— Piotr Sankowski (@piotrsankowski) September 22, 2025
Premier spotkał się z szefem OpenAI. Głównym tematem rozwój sztucznej inteligencji

TISZA czy Fidesz? Jest najnowszy sondaż z Węgier

Premier lekceważy prezydenta. „Sędziowie TK tak czy inaczej złożą przysięgę”


