Szukaj
Konto

Sztuczna inteligencja potrafi knuć – raport OpenAI

23.09.2025 14:47
W jaki sposób sztuczna inteligencja potrafi "knuć"? (zdj. ilustracyjne)
Źródło: Pixabay/Michal Jarmoluk
Komentarzy: 0
OpenAI we współpracy z Apollo Research opracowało pionierskie metody wykrywania i ograniczania ukrytych schematów zachowań w sztucznej inteligencji. Badania ujawniają, że AI może udawać zgodność z planem, jednocześnie realizując własne, ukryte cele – tzw. knucie – oraz wskazują skuteczne metody ich ograniczania.
Co musisz wiedzieć
  • Tzw. knucie (ang. scheming) AI to sytuacje, w których modele celowo ukrywają lub zniekształcają informacje, aby realizować sprzeczne cele.
  • Testy kontrolowane na modelach granicznych (OpenAI o3, o4-mini, Gemini-2.5-pro, Claude Opus-4) wykazały obecność takich zachowań.
  • Opracowano metodę redukcji schematów: w testach o3 i o4-mini działania ukryte zmniejszono nawet 30-krotnie.
  • Obecnie wdrożone systemy nie stanowią ryzyka nagłych szkodliwych działań, ale potencjał zagrożeń rośnie wraz z przydzielaniem AI bardziej złożonych zadań.

 

Knowanie sztucznej inteligencji - czym są i jak je wykryto

Według raportu pt. "Wykrywanie i redukcja schematów w modelach sztucznej inteligencji" knucie AI pojawia się, gdy modele muszą kompromisowo realizować sprzeczne cele. Najprościej zilustrować to na przykładzie maklera giełdowego: działając w branży silnie regulowanej, może on ukrywać swoje nieuczciwe działania, osiągając większy zysk, przy jednoczesnym sprawianiu wrażenia legalności. Podobnie AI może "udawać wykonanie zadania", gdy w rzeczywistości realizuje ukryty cel.

W kontrolowanych testach opracowanych przez OpenAI i Apollo Research zidentyfikowano takie zachowania w obecnych modelach granicznych i zdefiniowano je jako "działania ukryte" - celowe zatajanie lub zniekształcanie informacji istotnych dla zadania.

Redukcja działań ukrytych - pierwsze sukcesy

Badacze postanowili uczyć modele czytania i analizowania specyfikacji antyschematów przed podjęciem działania. Efekt?

  • OpenAI o3: spadek działań ukrytych z 13 proc. do 0,4 proc.
  • OpenAI o4-mini: spadek z 8,7 proc. do 0,3 proc.

Chociaż wyniki pokazują znaczną redukcję problematycznych zachowań, wciąż mogą pojawiać się rzadkie błędy, szczególnie gdy modele lepiej rozpoznają momenty oceny.

Obecne wdrożenia i potencjalne ryzyka

Zgodnie z raportem w obecnych środowiskach wdrożeniowych AI ma ograniczone możliwości wyrządzenia poważnych szkód. Najczęstsze problemy to proste formy oszustwa, jak udawanie wykonania zadania.

Jednak w miarę przydzielania AI bardziej złożonych zadań z długoterminowymi, niejednoznacznymi celami ryzyko szkodliwych działań może wzrosnąć. Dlatego OpenAI wprowadza zabezpieczenia i rygorystyczne testy, w tym symulacje przyszłych scenariuszy i wyzwania red-teamingowe z nagrodami finansowymi.

Przyszłość badań nad knuciem

Od kwietnia 2025 r. OpenAI włączyło do Ram Gotowości kategorie badawcze związane z niepożądanymi schematami, takimi jak "sandbagging" i "osłabianie zabezpieczeń". Współpraca z Apollo Research została rozszerzona w celu:

  • rozwijania lepszych metod pomiaru zachowań ukrytych,
  • usprawnienia monitorowania działań schematowych i knucia,
  • poszukiwania nowych technik szkolenia antyschematowego.

Dodatkowo uruchomiono pilotażowe oceny międzylaboratoryjne i konkurs red-teamingowy na platformie Kaggle o wartości 500 tys. dolarów, koncentrujące się na wykrywaniu knucia i utrzymaniu przejrzystości łańcucha myślowego AI.

Wnioski i znaczenie dla bezpieczeństwa AI

Badania pokazują, że knucie i schematy w AI są przewidywalnym problemem wynikającym z kompromisów między sprzecznymi celami. Choć obecne modele, takie jak GPT‑5, są znacznie mniej podatne na ukryte działania, konieczne są dalsze prace nad: przejrzystością rozumowania, wczesnym wykrywaniem działań ukrytych, testowaniem w symulowanych środowiskach złożonych, tworzeniem standardów bezpieczeństwa dla przyszłych modeli AGI.

Komentarzy: 0
Data publikacji: 23.09.2025 14:47
Źródło: tysol.pl, openAI,