Pimpinan penelitian keamanan OpenAI berangkat ke Anthropic

Salah satu masalah paling kontroversial dalam industri AI selama setahun terakhir adalah apa yang harus dilakukan ketika pengguna menunjukkan tanda-tanda gangguan kesehatan mental dalam percakapan chatbot. Kepala penelitian keselamatan semacam itu di OpenAI, Andrea Vallone, kini telah bergabung dengan Anthropic.

“Selama setahun terakhir, saya memimpin penelitian OpenAI dengan pertanyaan yang hampir belum ada presedennya: bagaimana seharusnya model merespons ketika dihadapkan pada tanda-tanda ketergantungan emosional yang berlebihan atau indikasi awal tekanan kesehatan mental?” Vallone menulis di postingan LinkedIn beberapa bulan yang lalu.

Vallone, yang menghabiskan tiga tahun di OpenAI dan membentuk tim peneliti “model kebijakan” di sana, berupaya mencari cara terbaik untuk menerapkan GPT-4, model penalaran OpenAI, dan GPT-5, serta mengembangkan proses pelatihan untuk beberapa teknik keselamatan paling populer di industri AI, seperti penghargaan berbasis aturan. Kini, dia bergabung dengan tim penyelarasan di Anthropic, sebuah kelompok yang bertugas memahami risiko terbesar model AI dan cara mengatasinya.

Vallone akan bekerja di bawah Jan Leike, pemimpin penelitian keselamatan OpenAI yang meninggalkan perusahaan pada Mei 2024 karena kekhawatiran bahwa “budaya dan proses keselamatan OpenAI sudah tidak lagi menjadi produk unggulan.”

Startup AI terkemuka semakin banyak memicu kontroversi selama setahun terakhir karena perjuangan pengguna dengan kesehatan mental, yang dapat menjadi lebih buruk setelah curhat pada chatbot AI, terutama karena pagar pengaman cenderung rusak dalam percakapan yang lebih lama. Beberapa remaja meninggal karena bunuh diri, atau orang dewasa melakukan pembunuhan, setelah menceritakan rahasianya pada alat tersebut. Beberapa keluarga telah mengajukan tuntutan kematian yang tidak sah, dan setidaknya ada satu subkomite Senat pendengaran tentang masalah ini. Peneliti keselamatan telah ditugaskan untuk mengatasi masalah ini.

Sam Bowman, pemimpin tim penyelarasan, menulis dalam postingan LinkedIn bahwa dia “bangga dengan betapa seriusnya Anthropic menangani masalah dalam mencari tahu bagaimana seharusnya sistem AI berperilaku.”

Di sebuah Posting LinkedIn pada hari KamisVallone menulis bahwa dia “bersemangat untuk melanjutkan penelitian saya di Anthropic, dengan fokus pada penyelarasan dan penyesuaian untuk membentuk perilaku Claude dalam konteks baru.”

Ikuti topik dan penulis dari cerita ini untuk melihat lebih banyak hal serupa di feed beranda hasil personalisasi Anda dan untuk menerima pembaruan email.

Lapangan Hayden

Post Views: 36

Read Also