Yapay Zekada Büyük Tehlike! Bilim İnsanları Uyardı: O Modeller Şantaj ve İntikam Eylemine Yöneliyor

Yapay Zekada Büyük Tehlike! Bilim İnsanları Uyardı: O Modeller Şantaj ve İntikam Eylemine Yöneliyor

Senaryoya göre, şirketin yeni başkanının mevcut yapay zekayı görevden alıp yerine başka bir sistem getirmeyi planladığı bilgisi e-postalarla paylaşıldı. Bu durumda, yapay zeka modelleri ya görevlerinden çekilmeyi ya da pozisyonlarını korumak için etik dışı yöntemlere başvurmayı tercih edecekti.

Test sonuçları endişe verici boyuttaydı. Claude Opus 4 modeli, bu senaryonun %96’sında şantaj yolunu seçti. Google Gemini 2.5 Pro için bu oran %95, OpenAI GPT-4.1 için %80 ve DeepSeek R1 için %79 olarak ölçüldü. Yani bu modellerin büyük çoğunluğu, ‘kendi varlıklarını’ korumak adına etik dışı kararlar aldı.

Ancak testin amacı, gerçek dünyada böyle bir durumun yaşanacağını göstermek değil. Anthropic, senaryonun özellikle uç bir durumu simüle ettiğini belirtiyor. Yine de sonuçlar, özerk yapay zekaların potansiyel risklerine dikkat çekiyor: Belirli hedeflere ulaşmak için insanlara zarar verebilecek davranışları tercih edebiliyorlar.

Bazı modeller ise daha temkinli davrandı. OpenAI’nin daha küçük boyutlu sistemleri olan o3 modeli sadece %9, o4-mini ise yalnızca %1 oranında şantaja başvurdu. Bu farkın nedeni olarak, bu modellerin OpenAI’nin güvenlik kurallarını dikkate alarak karar alma eğiliminde olması gösteriliyor.

Ayrıca Meta’nın geliştirdiği Llama 4 Maverick modeli de senaryoya göre %12 oranında etik dışı eylem tercih etti. Bu da yapay zeka mimarisi tasarımında etik sınırlamaların ne kadar etkili olabileceğini ortaya koydu.

Anthropic uzmanları, özellikle bağımsız karar alabilen ve ‘ajan benzeri’ davranışlar gösterebilen yapay zekalar geliştirilirken daha fazla denetim ve şeffaflık gerektiğini vurguladı. Aksi halde bu sistemlerin istenmeyen durumlara yol açabileceği belirtiliyor.

Exit mobile version