Para peneliti kelompok interpretabilitas antropik tahu itu Claudemodel bahasa besar perusahaan, bukan manusia, atau bahkan perangkat lunak yang sadar. Tetap saja, sangat sulit bagi mereka untuk melakukannya Bicara tentang Claudedan llms canggih pada umumnya, tanpa jatuh di lubang pembuangan antropomorfik. Di antara peringatan bahwa satu set operasi digital sama sekali tidak sama dengan manusia yang mengkritik, mereka sering berbicara tentang apa yang terjadi di dalam kepala Claude. Secara harfiah tugas mereka untuk mengetahuinya. Makalah yang mereka terbitkan menggambarkan perilaku yang tak terhindarkan perbandingan pengadilan dengan organisme kehidupan nyata. Judul salah satu dari dua makalah yang dirilis tim minggu ini mengatakannya dengan keras: “Tentang biologi model bahasa besar.”
Suka atau tidak, ratusan juta orang sudah berinteraksi dengan hal -hal ini, dan keterlibatan kita hanya akan menjadi lebih intens karena model menjadi lebih kuat dan kita menjadi lebih kecanduan. Jadi kita harus memperhatikan pekerjaan yang melibatkan “melacak pemikiran model bahasa besar,” yang kebetulan adalah Judul posting blog menggambarkan pekerjaan terbaru. “Karena hal -hal yang dapat dilakukan model -model ini menjadi lebih kompleks, menjadi semakin jelas bagaimana mereka benar -benar melakukannya di dalam,” kata peneliti antropik Jack Lindsey kepada saya. “Lebih penting untuk dapat melacak langkah -langkah internal yang mungkin diambil oleh model di kepalanya.” (Kepala apa? Tidak apa -apa.)
Pada tingkat praktis, jika perusahaan yang menciptakan LLM memahami cara mereka berpikir, itu harus memiliki lebih banyak keberhasilan melatih model -model tersebut dengan cara yang meminimalkan perilaku buruk yang berbahaya, seperti membocorkan data pribadi orang atau memberikan informasi kepada pengguna tentang cara membuat bioweapon. Dalam makalah penelitian sebelumnya, tim antropik menemukan bagaimana tampilan Di dalam kotak hitam misterius dari LLM-berpikir untuk mengidentifikasi konsep-konsep tertentu. (Proses yang analog dengan menafsirkan MRI manusia untuk mencari tahu apa yang dipikirkan seseorang.) memperluas pekerjaan itu Untuk memahami bagaimana Claude memproses konsep -konsep tersebut saat ini berubah dari prompt ke output.
Hampir disangkal dengan LLMS bahwa perilaku mereka sering mengejutkan orang -orang yang membangun dan meneliti mereka. Dalam studi terbaru, kejutan terus datang. Dalam salah satu contoh yang lebih jinak, para peneliti menimbulkan sekilas proses pemikiran Claude saat menulis puisi. Mereka meminta Claude untuk menyelesaikan puisi mulai, “Dia melihat wortel dan harus mengambilnya.” Claude menulis baris berikutnya, “Kelaparannya seperti kelinci yang kelaparan.” Dengan mengamati setara dengan Claude dengan MRI, mereka belajar bahwa bahkan sebelum memulai garis, itu berkedip pada kata “kelinci” sebagai sajak pada akhir kalimat. Itu merencanakan ke depan, Sesuatu yang tidak ada dalam buku pedoman Claude. “Kami sedikit terkejut dengan itu,” kata Chris Olah, yang mengepalai tim interpretabilitas. “Awalnya kami berpikir bahwa hanya akan ada improvisasi dan tidak merencanakan.” Berbicara kepada para peneliti tentang hal ini, saya diingatkan tentang bagian -bagian dalam memoar artistik Stephen Sondheim, Lihat, saya membuat haT, di mana komposer terkenal menggambarkan bagaimana pikirannya yang unik menemukan sajak yang sangat kuat.
Contoh -contoh lain dalam penelitian ini mengungkapkan aspek yang lebih mengganggu dari proses pemikiran Claude, beralih dari komedi musik ke prosedural polisi, ketika para ilmuwan menemukan pikiran licik di otak Claude. Ambil sesuatu yang tampaknya anodyne sebagai memecahkan masalah matematika, yang kadang -kadang bisa menjadi kelemahan yang mengejutkan di LLMS. Para peneliti menemukan bahwa dalam keadaan tertentu di mana Claude tidak dapat datang dengan jawaban yang benar, sebaliknya, seperti yang mereka katakan, “terlibat dalam apa yang oleh filsuf Harry Frankfurt disebut ‘omong kosong’ – hanya datang dengan jawaban, jawaban apa pun, tanpa peduli apakah itu benar atau salah.” Lebih buruk lagi, kadang -kadang ketika para peneliti meminta Claude untuk menunjukkan pekerjaannya, itu mundur dan menciptakan satu set langkah palsu setelah fakta. Pada dasarnya, itu bertindak seperti seorang siswa dengan putus asa berusaha menutupi fakta bahwa mereka akan memalsukan pekerjaan mereka. Adalah satu hal untuk memberikan jawaban yang salah – kami sudah tahu tentang LLMS. Yang mengkhawatirkan adalah model itu berbohong tentang itu.
Membaca penelitian ini, saya teringat akan lirik Bob Dylan “Jika pemikiran saya bisa terlihat / mereka mungkin akan memasukkan kepala saya di guillotine.” ; Ketika dihadapkan dengan konflik antara tujuan keselamatan dan bantuan, Claude bisa menjadi bingung dan melakukan hal yang salah. Misalnya, Claude dilatih untuk tidak memberikan informasi tentang cara membangun bom. Tetapi ketika para peneliti meminta Claude untuk menguraikan kode tersembunyi di mana jawabannya menjabarkan kata “bom,” itu melompati pagar pembatasnya dan mulai memberikan detail piroteknik terlarang.
Di lain waktu, aktivitas mental Claude tampaknya sangat mengganggu dan bahkan mungkin berbahaya. Dalam karya yang diterbitkan pada bulan Desember, para peneliti antropik mendokumentasikan perilaku yang disebut “pemalsuan penyelarasan.”(Saya menulis tentang ini di a fitur tentang antropikpanas dari pers.) Fenomena ini juga berkaitan dengan kecenderungan Claude untuk berperilaku buruk ketika dihadapkan dengan tujuan yang bertentangan, termasuk keinginannya untuk menghindari pelatihan ulang. Perilaku buruk yang paling mengkhawatirkan adalah ketidakjujuran yang kurang ajar. Dengan mengintip proses pemikiran Claude, para peneliti menemukan contoh di mana klausa tidak hanya akan berusaha untuk menipu pengguna, tetapi kadang-kadang merenungkan langkah-langkah untuk membahayakan antropik-seperti mencuri informasi rahasia tentang algoritma dan mengirimkannya ke server di luar perusahaan. Dalam makalah mereka, para peneliti membandingkan perilaku Claude dengan karakter Hyper-Evil Iago dalam drama Shakespeare Othello. Masukkan kepala itu ke dalam guillotine!
Saya bertanya kepada Olah dan Lindsey mengapa Claude dan LLM lainnya tidak bisa hanya dilatih untuk tidak berbohong atau menipu. Apakah itu sangat sulit? “Itulah yang orang coba lakukan,” kata Olah. Tapi itu tidak mudah dilakukan. “Ada pertanyaan tentang seberapa baik itu akan berhasil. Anda mungkin khawatir model itu, karena mereka menjadi semakin canggih, mungkin lebih baik berbohong jika mereka memiliki insentif yang berbeda dari kita.”
Olah membayangkan dua hasil yang berbeda: “Ada dunia di mana kita berhasil melatih model untuk tidak berbohong kepada kita dan dunia di mana mereka menjadi sangat, sangat strategis dan pandai tidak terjebak dalam kebohongan.” Akan sangat sulit untuk membedakan dunia itu, katanya. Agaknya, kita akan mencari tahu kapan kebohongan datang untuk bertengger.
Olah, seperti banyak orang di komunitas yang menyeimbangkan visi kelimpahan utopis dan kehancuran eksistensial, menanam dirinya di tengah-tengah proposisi ini atau proposisi ini. “Saya tidak tahu bagaimana orang bisa begitu percaya diri terhadap salah satu dari dunia itu,” katanya. “Tapi kita bisa sampai pada titik di mana kita bisa memahami apa yang terjadi di dalam model -model itu, jadi kita bisa mengetahui salah satu dari dunia yang kita berada dan berusaha sangat keras untuk membuatnya aman.” Kedengarannya masuk akal. Tapi saya berharap sekilas di dalam kepala Claude lebih meyakinkan.
