Sztuczna inteligencja potrafi knuć – raport OpenAI

23.09.2025 16:47

W jaki sposób sztuczna inteligencja potrafi "knuć"? (zdj. ilustracyjne) — Źródło: Pixabay/Michal Jarmoluk

OpenAI we współpracy z Apollo Research opracowało pionierskie metody wykrywania i ograniczania ukrytych schematów zachowań w sztucznej inteligencji. Badania ujawniają, że AI może udawać zgodność z planem, jednocześnie realizując własne, ukryte cele – tzw. knucie – oraz wskazują skuteczne metody ich ograniczania.

Co musisz wiedzieć

Tzw. knucie (ang. scheming) AI to sytuacje, w których modele celowo ukrywają lub zniekształcają informacje, aby realizować sprzeczne cele.
Testy kontrolowane na modelach granicznych (OpenAI o3, o4-mini, Gemini-2.5-pro, Claude Opus-4) wykazały obecność takich zachowań.
Opracowano metodę redukcji schematów: w testach o3 i o4-mini działania ukryte zmniejszono nawet 30-krotnie.
Obecnie wdrożone systemy nie stanowią ryzyka nagłych szkodliwych działań, ale potencjał zagrożeń rośnie wraz z przydzielaniem AI bardziej złożonych zadań.

Knowanie sztucznej inteligencji - czym są i jak je wykryto

Według raportu pt. "Wykrywanie i redukcja schematów w modelach sztucznej inteligencji" knucie AI pojawia się, gdy modele muszą kompromisowo realizować sprzeczne cele. Najprościej zilustrować to na przykładzie maklera giełdowego: działając w branży silnie regulowanej, może on ukrywać swoje nieuczciwe działania, osiągając większy zysk, przy jednoczesnym sprawianiu wrażenia legalności. Podobnie AI może "udawać wykonanie zadania", gdy w rzeczywistości realizuje ukryty cel.

W kontrolowanych testach opracowanych przez OpenAI i Apollo Research zidentyfikowano takie zachowania w obecnych modelach granicznych i zdefiniowano je jako "działania ukryte" - celowe zatajanie lub zniekształcanie informacji istotnych dla zadania.

Redukcja działań ukrytych - pierwsze sukcesy

Badacze postanowili uczyć modele czytania i analizowania specyfikacji antyschematów przed podjęciem działania. Efekt?

OpenAI o3: spadek działań ukrytych z 13 proc. do 0,4 proc.
OpenAI o4-mini: spadek z 8,7 proc. do 0,3 proc.

Chociaż wyniki pokazują znaczną redukcję problematycznych zachowań, wciąż mogą pojawiać się rzadkie błędy, szczególnie gdy modele lepiej rozpoznają momenty oceny.

Obecne wdrożenia i potencjalne ryzyka

Zgodnie z raportem w obecnych środowiskach wdrożeniowych AI ma ograniczone możliwości wyrządzenia poważnych szkód. Najczęstsze problemy to proste formy oszustwa, jak udawanie wykonania zadania.

Jednak w miarę przydzielania AI bardziej złożonych zadań z długoterminowymi, niejednoznacznymi celami ryzyko szkodliwych działań może wzrosnąć. Dlatego OpenAI wprowadza zabezpieczenia i rygorystyczne testy, w tym symulacje przyszłych scenariuszy i wyzwania red-teamingowe z nagrodami finansowymi.

Przyszłość badań nad knuciem

Od kwietnia 2025 r. OpenAI włączyło do Ram Gotowości kategorie badawcze związane z niepożądanymi schematami, takimi jak "sandbagging" i "osłabianie zabezpieczeń". Współpraca z Apollo Research została rozszerzona w celu:

rozwijania lepszych metod pomiaru zachowań ukrytych,
usprawnienia monitorowania działań schematowych i knucia,
poszukiwania nowych technik szkolenia antyschematowego.

Dodatkowo uruchomiono pilotażowe oceny międzylaboratoryjne i konkurs red-teamingowy na platformie Kaggle o wartości 500 tys. dolarów, koncentrujące się na wykrywaniu knucia i utrzymaniu przejrzystości łańcucha myślowego AI.

Wnioski i znaczenie dla bezpieczeństwa AI

Badania pokazują, że knucie i schematy w AI są przewidywalnym problemem wynikającym z kompromisów między sprzecznymi celami. Choć obecne modele, takie jak GPT‑5, są znacznie mniej podatne na ukryte działania, konieczne są dalsze prace nad: przejrzystością rozumowania, wczesnym wykrywaniem działań ukrytych, testowaniem w symulowanych środowiskach złożonych, tworzeniem standardów bezpieczeństwa dla przyszłych modeli AGI.

Czy kiedykolwiek toster oszukał Cię, że przygotował grzankę? A czy lodówka kiedyś udawała, że chłodzi? Okazuje się, że modele SI tak właśnie czasami postępują i to zachowanie nazywa się knuciem (ang. scheming). Kilka dni temu OpenAI właśnie opublikowało wpis na temat "knucia"…
— Piotr Sankowski (@piotrsankowski) September 22, 2025

Sławomir Cedzyński,

kor.

Tagi

Data publikacji: 23.09.2025 16:47

Źródło: tysol.pl, openAI,

„Premier Mateusz Morawiecki spotkał się z Samem Altmanem, prezesem OpenAI, firmy zajmującej się badaniami i rozwijaniem sztucznej inteligencji; głównymi tematami rozmów były m.in.: możliwości udziału polskich firm w procesie rozwoju sztucznej inteligencji” – poinformował we wtorek rzecznik rządu Piotr Müller.

Czytaj więcej

Miłośnicy obserwacji nieba mają powody do zadowolenia. Według prognoz w najbliższych dniach może dojść do silnej burzy geomagnetycznej, która zwiększy szanse na pojawienie się zorzy polarnej nad Polską. Jeśli przewidywania się sprawdzą, kolorowe światła mogą być widoczne nie tylko na północy kraju, ale również w innych regionach.

Czytaj więcej

Aż 40 proc. Niemców uważa, że sytuacja gospodarcza kraju jest zła, a kolejne 45%, że "niezbyt dobra" – wynika z najnowszego sondażu Infratest dimap dla ARD. To najwyraźniejszy sygnał pogarszających się nastrojów społecznych od początku roku. Wyniki badania są szczególnie istotne także dla Polski, której gospodarka jest silnie powiązana z rynkiem niemieckim.

Czytaj więcej

Wiślana Procesja Eucharystyczna już po raz piąty popłynie w Boże Ciało ze Smoszewa do Czerwińska nad Wisłą. Ze względu na niski stan rzeki w środę odbył się rekonesans trasy. Procesji przewodniczyć będą biskup płocki Szymon Stułkowski i biskup pomocniczy archidiecezji warszawskiej Rafał Markowski.

Czytaj więcej

Analiza materiałów z monitoringu w sprawie tragicznego wypadku z udziałem posła Lewicy Łukasza Litewki została zakończona. Śledczy sprawdzili nagrania z kilku punktów na trasie, którą poruszali się uczestnicy zdarzenia.

Czytaj więcej

Sztuczna inteligencja potrafi knuć – raport OpenAI

Knowanie sztucznej inteligencji - czym są i jak je wykryto

Redukcja działań ukrytych - pierwsze sukcesy

Obecne wdrożenia i potencjalne ryzyka

Przyszłość badań nad knuciem

Wnioski i znaczenie dla bezpieczeństwa AI

Tagi

Premier spotkał się z szefem OpenAI. Głównym tematem rozwój sztucznej inteligencji

Gratka dla miłośników astronomii. Już wkrótce niezwykłe zjawisko

Nowy sondaż w Niemczech. Katastrofalna ocena stanu niemieckiej gospodarki

Komunikat dla mieszkańców woj. mazowieckiego

Wypadek Łukasza Litewki. Prokuratura ujawnia wyniki analizy monitoringu