Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Nowy projekt ustawy prezydenta. Trwała obniżka cen energii o jedną trzecią z ostatniej chwili
Nowy projekt ustawy prezydenta. Trwała obniżka cen energii o jedną trzecią

Rzecznik prezydenta Rafał Leśkiewicz poinformował w piątek, że w kancelarii prezydenta trwają prace nad projektem ustawy obniżającym ceny prądu w sposób trwały o 33 procent. Jak dodał, projekt ten zostanie przedstawiony w ciągu kilku tygodni.

Eksplozja drona pod Osinami. Jest nowy wątek z ostatniej chwili
Eksplozja drona pod Osinami. Jest nowy wątek

Wiceminister spraw wewnętrznych i administracji Czesław Mroczek poinformował w piątek, że sprawdzany jest wątek pierwszego zgłoszenia policji eksplozji drona pod Osinami (Lubelskie), które miało mieć miejsce o północy w nocy z wtorku na środę, a nie po godz. 2:00.

Najniebezpieczniejsze miejsce dla chrześcijan. W tym państwie ginie ich średnio 30 dziennie z ostatniej chwili
Najniebezpieczniejsze miejsce dla chrześcijan. W tym państwie ginie ich średnio 30 dziennie

Ponad 7 tys. chrześcijan zostało zabitych w Nigerii w ciągu pierwszych 220 dni 2025 r., co oznacza, że każdego dnia dokonywano ponad 30 zabójstw, wynika z raportu nigeryjskiej organizacji zajmującej się prawami człowieka – Intersociety.

Po tej próbie Stanisława Soykę zabrano do szpitala. Wokalistka opublikowała nagranie z ostatniej chwili
Po tej próbie Stanisława Soykę zabrano do szpitala. Wokalistka opublikowała nagranie

W czwartek późnym wieczorem dotarła informacja o śmierci wybitnego muzyka Stanisława Soyki. Artysta od dłuższego czasu miał kłopoty ze zdrowiem, ale akurat wczoraj wydawał się być w dobrej formie. Miał wystąpić na festiwalu Top of the Top Sopot Festival. Odbył udaną próbę w duecie z wokalistką Natalią Grosiak. Artyści podczas koncertu mieli zaśpiewać znany utwór "Cud niepamięci".

Nie żyje Stanisław Soyka gorące
Nie żyje Stanisław Soyka

Media obiegła informacja o śmierci Stanisława Soyki. Stanisław Soyka miał dziś wystąpić w Sopocie podczas Top of the Top Festival.

Do Kanału Zero dodzwonił się… Karol (Nawrocki) z Gdańska z ostatniej chwili
Do Kanału Zero dodzwonił się… "Karol (Nawrocki) z Gdańska"

W czwartek wieczorem podczas rozmowy Roberta Mazurka z Pawłem Szefernakerem do Kanału Zero dodzwonił się niecodzienny widz. – Dobry wieczór, Karol z Gdańska, wykonujący obowiązki wobec państwa polskiego z wielką przyjemnością i zaszczytem w Warszawie – rozpoczął.

Pielęgniarka obciążona potężną karą za stwierdzenie, że istnieją dwie płcie tylko u nas
Pielęgniarka obciążona potężną karą za stwierdzenie, że istnieją dwie płcie

W sierpniu tego roku Amy Hamm, kanadyjska pielęgniarka z Kolumbii Brytyjskiej, została zawieszona na miesiąc w swojej pracy i obciążona kosztami postępowania w wysokości blisko 94 000 dolarów przez Kolegium Pielęgniarek i Położnych Kolumbii Brytyjskiej (British Columbia College of Nurses and Midwives). Decyzja ta jest wynikiem wieloletniego dochodzenia, które rozpoczęło się w 2020 roku i dotyczyło jej publicznych wypowiedzi na temat tożsamości płciowej. W prostych słowach: pielęgniarka nigdy nie skrzywdziła swoich pacjentów, nie popełniła żadnego przestępstwa, ale została uznana za “transfobkę” i będzie teraz surowo karana!

W ciągu dwóch tygodni będziemy wiedzieć. Znamienne słowa Trumpa z ostatniej chwili
"W ciągu dwóch tygodni będziemy wiedzieć". Znamienne słowa Trumpa

Prezydent USA Donald Trump ocenił, że "w ciągu dwóch tygodni" będzie wiadomo, co dalej z pokojem w Ukrainie. Dodał, że jeśli nie będzie postępu, możliwe, że potrzebna będzie "inna taktyka".

Media: Zatrzymano Ukraińca podejrzanego ws. uszkodzenia gazociągów Nord Stream z ostatniej chwili
Media: Zatrzymano Ukraińca podejrzanego ws. uszkodzenia gazociągów Nord Stream

Włoska policja zatrzymała obywatela Ukrainy podejrzanego o koordynację ataków na gazociągi Nord Stream 1 i 2 – poinformowała w czwartek niemiecka prokuratura generalna. Zarzuca mu się m.in. doprowadzenie do eksplozji i sabotaż.

Grafzero: Kiedy będziesz gotowy, idź Wojciech Gunia - recenzja z ostatniej chwili
Grafzero: "Kiedy będziesz gotowy, idź" Wojciech Gunia - recenzja

W dzisiejszym filmie zapraszam Was do świata polskiej literatury grozy. „Kiedy będziesz gotowy, idź” to najnowsza książka Wojciecha Guni – autora, który od lat buduje unikalną pozycję w nurcie weird fiction i polskiego horroru.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane
Emerytury
Stażowe