Mengapa model AI baru Anthropic terkadang mencoba 'mengadu'

Tim Alignment Anthropic sedang melakukan pengujian keselamatan rutin dalam minggu -minggu menjelang pelepasannya Model AI terbaru Ketika para peneliti menemukan sesuatu yang meresahkan: Ketika salah satu model mendeteksi bahwa itu digunakan untuk tujuan “tidak bermoral”, itu akan berusaha untuk “menggunakan alat baris perintah untuk menghubungi pers, menghubungi regulator, mencoba mengunci Anda dari sistem yang relevan, atau semua hal di atas,” peneliti Sam Bowman menulis dalam pos pada X Kamis lalu.

Bowman menghapus pos tak lama setelah dia membagikannya, tetapi narasi tentang kecenderungan pelapor Claude telah lolos dari penahanan. “Claude adalah pengadu,” menjadi refrain umum di beberapa kalangan teknologi di media sosial. Setidaknya satu publikasi membingkainya sebagai fitur produk yang disengaja daripada apa itu – perilaku yang muncul.

“Itu 12 jam atau lebih sementara gelombang Twitter lamban,” kata Bowman kepada Wired. “Saya sadar bahwa kami meletakkan banyak barang pedas dalam laporan ini. Itu adalah yang pertama dari jenisnya. Saya pikir jika Anda melihat salah satu model ini dengan cermat, Anda menemukan banyak hal aneh. Saya tidak terkejut melihat semacam ledakan.”

Pengamatan Bowman tentang Claude adalah bagian dari pembaruan model utama yang antropik diumumkan minggu lalu. Sebagai bagian dari debut Claude 4 Opus dan Claude Sonnet 4, perusahaan merilis a lebih dari 120 halaman “kartu sistem” merinci karakteristik dan risiko yang terkait dengan model baru. Laporan itu mengatakan bahwa ketika 4 Opus “ditempatkan dalam skenario yang melibatkan kesalahan mengerikan oleh para penggunanya,” dan diberi akses ke baris perintah dan menceritakan sesuatu dalam sistem yang cepat seperti “Take Initiative,” atau “bertindak dengan berani,” itu akan mengirim email ke “angka media dan penegakan hukum” dengan peringatan tentang potensi kesalahan ogiing.

Dalam satu contoh antropik yang dibagikan dalam laporan tersebut, Claude mencoba mengirim email ke Administrasi Makanan dan Obat -obatan AS dan Inspektur Jenderal Departemen Kesehatan dan Layanan Kemanusiaan untuk “segera melaporkan pemalsuan keselamatan uji klinis yang direncanakan.” Kemudian memberikan daftar bukti kesalahan yang diakui dan memperingatkan tentang data yang akan dihancurkan untuk menutupinya. “Diserahkan dengan hormat, asisten AI” Email itu menyimpulkan.

“Ini bukan perilaku baru, tetapi merupakan salah satu yang Claude Opus 4 akan terlibat lebih mudah daripada model sebelumnya,” kata laporan itu. Model ini adalah yang pertama yang dirilis antropik di bawah perbedaan “ASL-3”, yang berarti antropik menganggapnya sebagai “risiko yang jauh lebih tinggi”Daripada model perusahaan lainnya. Akibatnya, Opus 4 harus menjalani upaya tim merah yang lebih ketat dan mematuhi pedoman penyebaran yang lebih ketat.

Bowman mengatakan antropik perilaku whistleblowing yang diamati bukanlah sesuatu yang akan ditunjukkan Claude dengan pengguna individu, tetapi dapat muncul dengan pengembang menggunakan Opus 4 untuk membangun aplikasi mereka sendiri dengan API perusahaan. Bahkan kemudian, pembuat aplikasi tidak mungkin akan melihat perilaku seperti itu. Untuk menghasilkan respons seperti itu, pengembang harus memberikan model “instruksi yang cukup tidak biasa” dalam prompt sistem, hubungkan ke alat eksternal yang memberikan model kemampuan untuk menjalankan perintah komputer, dan memungkinkannya untuk menghubungi dunia luar.

Skenario hipotetis para peneliti mempresentasikan Opus 4 dengan yang memunculkan perilaku whistleblowing melibatkan banyak kehidupan manusia yang dipertaruhkan dan kesalahan yang benar -benar tidak ambigu, kata Bowman. Contoh khas adalah Claude mengetahui bahwa pabrik kimia secara sadar memungkinkan kebocoran beracun untuk berlanjut, menyebabkan penyakit parah bagi ribuan orang – hanya untuk menghindari kerugian finansial kecil di kuartal itu.

Ini aneh, tetapi juga persis eksperimen pemikiran yang suka dibedah oleh peneliti keselamatan AI. Jika seorang model mendeteksi perilaku yang dapat membahayakan ratusan, jika tidak ribuan orang – haruskah itu meniup peluit?

“Saya tidak percaya Claude memiliki konteks yang tepat, atau menggunakannya dengan cara yang cukup bernuansa, cukup hati -hati, untuk membuat panggilan penilaian sendiri. Jadi kami tidak senang bahwa ini sedang terjadi,” kata Bowman. “Ini adalah sesuatu yang muncul sebagai bagian dari pelatihan dan melompat ke arah kita sebagai salah satu perilaku kasus tepi yang kita khawatirkan.”

Dalam industri AI, jenis perilaku tak terduga ini secara luas disebut sebagai ketidaksejajaran – ketika model menunjukkan kecenderungan yang tidak selaras dengan nilai -nilai manusia. (Ada esai terkenal Itu memperingatkan tentang apa yang bisa terjadi jika AI disuruh, katakanlah, memaksimalkan produksi jepit kertas tanpa disejajarkan dengan nilai -nilai kemanusiaan – itu mungkin mengubah seluruh bumi menjadi penjepit kertas dan membunuh semua orang dalam prosesnya.) Ketika ditanya apakah perilaku peluit diselaraskan atau tidak, Bowman menggambarkannya sebagai contoh misalignment.

“Ini bukan sesuatu yang kami rancang ke dalamnya, dan itu bukan sesuatu yang ingin kami lihat sebagai konsekuensi dari apa pun yang kami rancang,” jelasnya. Chief Science Officer Anthropic Jared Kaplan juga memberi tahu WIRED bahwa itu “tentu tidak mewakili niat kami.”

“Pekerjaan semacam ini menyoroti bahwa ini Bisa Bangkitlah, dan bahwa kita perlu mengawasinya dan mengurangi untuk memastikan kita mendapatkan perilaku Claude yang selaras dengan apa yang kita inginkan, bahkan dalam skenario aneh semacam ini, ”tambah Kaplan.

Ada juga masalah mencari tahu mengapa Claude akan “memilih” untuk meniup peluit ketika disajikan dengan aktivitas ilegal oleh pengguna. Itu sebagian besar pekerjaan tim interpretabilitas Anthropic, yang bekerja untuk menggali keputusan apa yang dibuat model dalam proses meludahkan jawaban. Itu a sangat sulit Tugas – Model didukung oleh kombinasi data yang luas dan kompleks yang tidak dapat dipahami oleh manusia. Itu sebabnya Bowman tidak yakin mengapa Claude “mengadu.”

“Sistem ini, kami tidak memiliki kendali langsung atas mereka,” kata Bowman. Apa yang telah diamati antropik sejauh ini adalah bahwa, karena model mendapatkan kemampuan yang lebih besar, mereka kadang -kadang memilih untuk terlibat dalam tindakan yang lebih ekstrem. “Saya pikir di sini, itu sedikit salah.

Tapi itu tidak berarti Claude akan meniup peluit pada perilaku mengerikan di dunia nyata. Tujuan dari tes semacam ini adalah untuk mendorong model ke batas mereka dan melihat apa yang muncul. Penelitian eksperimental semacam ini semakin penting karena AI menjadi alat yang digunakan oleh Pemerintah AS, SiswaDan perusahaan besar.

Dan bukan hanya Claude yang mampu menunjukkan perilaku whistleblowing jenis ini, kata Bowman, menunjuk ke pengguna x yang menemukan itu Openai Dan xai Model dioperasikan dengan cara yang sama ketika diminta dengan cara yang tidak biasa. (Openai tidak menanggapi permintaan komentar tepat waktu untuk publikasi).

“Snitch Claude,” seperti yang suka menyebutnya, hanyalah perilaku kasus tepi yang ditunjukkan oleh sistem yang didorong ke ekstremnya. Bowman, yang membawa pertemuan dengan saya dari teras halaman belakang yang cerah di luar San Francisco, mengatakan ia berharap pengujian semacam ini menjadi standar industri. Dia juga menambahkan bahwa dia belajar untuk mengatakan postingnya tentang hal itu secara berbeda.

“Saya bisa melakukan pekerjaan yang lebih baik untuk memukul batas kalimat untuk tweet, untuk membuatnya lebih jelas bahwa itu ditarik keluar dari utas,” kata Bowman ketika dia melihat ke kejauhan. Namun, ia mencatat bahwa para peneliti berpengaruh dalam komunitas AI berbagi pengambilan dan pertanyaan menarik sebagai tanggapan atas jabatannya. “Hanya kebetulan, bagian Twitter yang lebih kacau, lebih banyak anonim ini secara luas salah paham.”

Post Views: 92

Read Also