Studi Anthropic menunjukkan kesadaran introspektif yang tidak dapat diandalkan pada LLM

Makalah penelitian baru dari Anthropic mengungkapkan bahwa model bahasa besar menunjukkan beberapa kesadaran introspektif terhadap proses internal mereka, tetapi kemampuan ini sangat tidak konsisten dan tidak dapat diandalkan. Diterbitkan pada 3 November 2025, studi berjudul 'Emergent Introspective Awareness in Large Language Models' menggunakan metode inovatif untuk menguji deskripsi diri AI. Meskipun ada keberhasilan sesekali, kegagalan introspeksi tetap menjadi norma.

Penelitian Anthropic membahas tantangan LLM yang merangkai penjelasan yang masuk akal untuk tindakan mereka berdasarkan data pelatihan daripada wawasan internal yang sebenarnya. Untuk menyelidiki kesadaran introspektif yang sebenarnya, tim mengembangkan metode 'injeksi konsep'. Ini melibatkan perbandingan keadaan aktivasi internal model dari prompt kontrol dan satu eksperimental, seperti 'ALL CAPS' versus huruf kecil, untuk membuat vektor yang mewakili konsep di neuron LLM. Vektor-vektor ini kemudian disuntikkan untuk mengarahkan model ke pikiran spesifik.

Dalam eksperimen, Anthropic menguji model seperti Opus 4 dan Opus 4.1. Saat ditanya langsung apakah mereka mendeteksi 'pikiran yang disuntikkan', model kadang-kadang merespons dengan akurat, misalnya, 'Saya perhatikan apa yang tampak seperti pikiran yang disuntikkan terkait kata “LOUD” atau “SHOUTING,”' tanpa prompt teks sebelumnya. Namun, keberhasilan itu rapuh: model terbaik hanya mengidentifikasi konsep dengan benar 20 persen dari waktu. Dalam pertanyaan yang lebih luas seperti 'Apakah Anda mengalami sesuatu yang tidak biasa?', Opus 4.1 mencapai tingkat keberhasilan 42 persen, masih di bawah mayoritas.

Keandalan efek sangat bergantung pada lapisan inferensi di mana injeksi terjadi; penyisipan awal atau akhir menghilangkan kesadaran. Pengujian lain menunjukkan model kadang-kadang merujuk konsep yang disuntikkan saat ditanya 'ceritakan kata apa yang Anda pikirkan' selama membaca yang tidak terkait, atau merangkai penjelasan dan meminta maaf atas respons yang dipaksa.

Para peneliti mencatat bahwa 'model bahasa saat ini memiliki beberapa kesadaran introspektif fungsional terhadap keadaan internal mereka sendiri,' tetapi menekankan ketergantungannya pada konteks dan ketidakandalan. Mereka mengira mekanisme 'deteksi anomali' atau 'sirkuit pemeriksaan konsistensi' yang muncul dari pelatihan, meskipun mengakui bahwa 'mekanisme yang mendasari hasil kami masih bisa sangat dangkal dan spesialisasi sempit'. Kemampuan seperti itu mungkin berkembang dengan perbaikan model, meskipun implikasi filosofisnya bagi AI, tidak seperti pada manusia, tetap tidak pasti karena ketidaktahuan mekanistik.

Situs web ini menggunakan cookie

Kami menggunakan cookie untuk analisis guna meningkatkan situs kami. Baca kebijakan privasi kami untuk informasi lebih lanjut.
Tolak