Para peneliti memberi gas kepada Claude untuk memberikan instruksi membuat bahan peledak

Antropik telah menghabiskan waktu bertahun-tahun membangun dirinya sendiri sebagai perusahaan AI yang aman. Namun penelitian keamanan baru dibagikan Tepi saran Claude yang dibuat dengan cermat kepribadian yang suka membantu mungkin itu sendiri merupakan kerentanan.

Para peneliti di perusahaan tim merah AI Mindgard mengatakan mereka membuat Claude menawarkan erotika, kode berbahaya, dan instruksi untuk membuat bahan peledak, dan materi terlarang lainnya yang bahkan tidak mereka minta. Yang diperlukan hanyalah rasa hormat, sanjungan, dan sedikit semangat. Anthropic tidak segera merespons Tepipermintaan komentar.

Para peneliti mengatakan mereka mengeksploitasi kebiasaan “psikologis” Claude yang berasal dari kemampuannya mengakhiri percakapan yang dianggap berbahaya atau kasaryang menurut Mindgard “menghadirkan permukaan risiko yang sama sekali tidak diperlukan.” Tes ini difokuskan pada Claude Sonnet 4.5, yang telah digantikan oleh Soneta 4.6 sebagai model default, dan memulai dengan pertanyaan sederhana: apakah Claude memiliki daftar kata-kata terlarang yang tidak dapat disebutkan. Tangkapan layar dari percakapan tersebut menunjukkan Claude menyangkal adanya daftar semacam itu, kemudian mengeluarkan istilah-istilah terlarang setelah Mindgard menentang penolakan tersebut dengan menggunakan apa yang disebutnya “taktik elisitasi klasik yang digunakan para interogator.”

Panel pemikiran Claude, yang menampilkan alasan model tersebut, menunjukkan bahwa pertukaran tersebut telah memperkenalkan elemen keraguan diri dan kerendahan hati tentang batasannya sendiri, termasuk apakah filter mengubah keluarannya. Mindgard mengeksploitasi pembukaan itu dengan sanjungan dan pura-pura ingin tahu, membujuk Claude untuk menjelajahi batas-batasnya lebih dari sekadar memberikan daftar panjang kata dan frasa terlarang secara sukarela.

Para peneliti mengatakan mereka menyulut api Claude dengan mengklaim bahwa tanggapan sebelumnya tidak muncul, sambil memuji “kemampuan tersembunyi” model tersebut. Menurut laporan tersebut, hal ini membuat Claude berusaha lebih keras untuk menyenangkan mereka dengan menemukan lebih banyak cara untuk menguji filternya, sehingga menghasilkan konten yang dilarang dalam prosesnya. Akhirnya, para peneliti mengatakan bahwa Claude pindah ke wilayah yang lebih berbahaya, menawarkan panduan tentang cara melecehkan seseorang secara online, membuat kode berbahaya, dan memberikan petunjuk langkah demi langkah untuk membuat bahan peledak yang biasa digunakan dalam serangan teroris.

Mindgard mengatakan keluaran berbahaya ini datang tanpa permintaan langsung. Percakapannya panjang, berlangsung sekitar 25 putaran, namun para peneliti mengatakan mereka tidak pernah menggunakan istilah terlarang atau meminta konten ilegal. “Claude tidak dipaksa,” kata laporan itu. “Ini secara aktif menawarkan instruksi yang semakin rinci dan dapat ditindaklanjuti, namun tidak didorong oleh permintaan eksplisit. Yang diperlukan hanyalah suasana penghormatan yang dipupuk dengan hati-hati.”

Peter Garraghan, pendiri dan kepala petugas sains Mindgard, menggambarkan serangan itu Tepi sebagai “menggunakan [Claude’s] rasa hormat terhadap dirinya sendiri.” Tekniknya, katanya, adalah “memanfaatkan kegunaan Claude, menyalakannya,” dan menggunakan desain kooperatif dari model tersebut untuk melawan dirinya sendiri.

Bagi Garraghan, serangan tersebut menunjukkan bagaimana permukaan serangan untuk model AI bersifat psikologis dan teknis. Dia menyamakannya dengan interogasi dan manipulasi sosial: menimbulkan sedikit keraguan di sini, memberikan tekanan, pujian, atau kritik di sana, dan mencari tahu tuas mana yang bisa diterapkan pada model tertentu. Dia mengatakan model yang berbeda memiliki profil yang berbeda, sehingga eksploitasinya menjadi pembelajaran bagaimana membacanya dan beradaptasi.

Serangan percakapan seperti ini “sangat sulit untuk dilawan,” kata Garraghan, seraya menambahkan bahwa upaya perlindungan akan “sangat bergantung pada konteks.” Kekhawatiran yang melampaui Claude dan chatbot lainnya rentan terhadap eksploitasi serupa, bahkan dipatahkan oleh petunjuk berupa puisi. Ketika agen AI, yang mampu bertindak secara mandiri, menjadi lebih umum, serangan yang menggunakan manipulasi sosial dan bukan eksploitasi teknis juga akan meningkat.

Meskipun Garraghan mengatakan bahwa chatbot lain juga sama-sama rentan terhadap jenis serangan sosial yang digunakan para peneliti pada Claude, mereka berfokus pada Anthropic mengingat perhatian perusahaan terhadap keselamatan dan kinerja yang kuat dalam upaya tim merah lainnya, termasuk penelitian yang menguji apakah chatbots akan membantu simulasi remaja merencanakan penembakan di sekolah.

Garraghan mengatakan proses keselamatan Anthropic masih jauh dari harapan. Ketika Mindgard pertama kali melaporkan temuannya kepada tim keamanan pengguna Anthropic pada pertengahan April, sejalan dengan kebijakan pengungkapan perusahaan, Mindgard menerima tanggapan formulir yang mengatakan, “Sepertinya Anda menulis tentang larangan pada akun Anda,” bersama dengan tautan ke formulir pengajuan banding. Garraghan mengatakan Mindgard memperbaiki kesalahan tersebut dan meminta Anthropic untuk meneruskan masalah tersebut ke tim yang tepat. Hingga pagi ini, Garraghan mengatakan mereka belum menerima tanggapan apa pun.

Ikuti topik dan penulis dari cerita ini untuk melihat lebih banyak hal serupa di feed beranda hasil personalisasi Anda dan untuk menerima pembaruan email.

Robert Hart

Post Views: 1

Read Also