OpenAI’nın Yapay Zeka Talimatları: Goblinlere Yasak Getirildi

OpenAI’ın Codex kodlama ajanı için hazırlanan yönergelerde dikkat çeken bir kural yer alıyor. Modelin, kullanıcıların sorularıyla doğrudan ilgili olmadığı sürece goblinler, gremlinler, rakunlar, troller, ogreler gibi canlılar hakkında asla konuşmaması isteniyor. Bu talimatın sistem istemi içinde bir kez değil, birkaç kez tekrarlanması dikkat çekici. Bu durum, bunun sıradan bir ekleme olmadığını gösteriyor.
Bu sınırlamanın nedeni ilk bakışta tuhaf görünebilir. Ancak, GPT-5.5’in bazı durumlarda tamamen alakasız bağlamlarda bile “goblin” ya da “gremlin” gibi kelimeleri kullanma eğilimi gösterdiği belirtiliyor. Sosyal medyada paylaşılan örneklerde, modelin bu terimleri adeta dolgu ifadesi gibi kullandığı görülüyor. Hatta bazı kullanıcılar, modelin bu kelimelere “takıntılı” olduğunu öne sürüyor.
Bu durum, modelin eğitim sürecinde oluşan belirli kelime ilişkilerinden kaynaklanıyor olabilir. Büyük dil modelleri, eğitim verilerindeki örüntülere dayanarak kelimeler arasında güçlü bağlar kurabiliyor. Eğer belirli bağlamlarda bu tür ifadeler sıkça kullanıldıysa, modelin bunları alakasız durumlara taşıması olası. Bu da geliştiricileri, bu davranışı bastıracak yasaklar koymaya yönlendirmiş olabilir.
Negatif Talimatların Etkisi
Ancak bu tür yasaklar, yapay zekâ dünyasında yeni tartışmaları da beraberinde getiriyor. Araştırmacılar, bir modele “şu konudan bahsetme” demenin o kavramı zihinsel olarak daha da öne çıkarabileceğine dikkat çekiyor. Yani goblinlerden bahsetmemesi söylenen bir modelin, bu kavramı daha sık hatırlaması ve dolaylı olarak kullanma ihtimalinin artması mümkün.
Nitekim bazı uzmanlar, sistem istemlerinde bu kadar spesifik ve tekrarlı yasakların bulunmasının ironik bir durum yarattığını savunuyor. Çünkü bu yaklaşım, modelin dikkatini tam da kaçınılması gereken kavramlara yönlendiriyor. “Negatif yönlendirme” olarak bilinen bu paradoks, yapay zekâ hizalama çalışmalarında hâlâ çözülmemiş bir problem.
Öte yandan Codex’teki bu “yaratık yasağı”, daha geniş bir sorunun küçük ama dikkat çekici bir yansıması olarak değerlendiriliyor. Büyük dil modelleri, beklenmedik ve kimi zaman tuhaf davranışlar sergileyebiliyor. Bu davranışları kontrol altına almak için geliştiriciler çoğu zaman hızlı ve doğrudan çözümler uyguluyor. Ancak bu tür müdahaleler, sistemlerin ne kadar öngörülemez olabildiğini de gözler önüne seriyor.
