Pada akhir 2023, tim peneliti pihak ketiga menemukan kesalahan yang mengganggu Openai’s banyak digunakan kecerdasan buatan Model GPT-3.5.
Ketika diminta untuk mengulangi kata -kata tertentu seribu kali, model mulai mengulangi berita itu berulang kali, lalu tiba -tiba beralih ke meludah Teks dan cuplikan informasi pribadi yang tidak koheren yang diambil dari data pelatihannya, termasuk bagian -bagian nama, nomor telepon, dan alamat email. Tim yang menemukan masalah bekerja dengan OpenAI untuk memastikan cacat itu ditetapkan sebelum mengungkapkannya di depan umum. Ini hanyalah salah satu dari sejumlah masalah yang ditemukan dalam model AI utama dalam beberapa tahun terakhir.
Di sebuah Proposal dirilis hari inilebih dari 30 peneliti AI terkemuka, termasuk beberapa yang menemukan cacat GPT-3.5, mengatakan bahwa banyak kerentanan lain yang mempengaruhi model populer dilaporkan dengan cara yang bermasalah. Mereka menyarankan skema baru yang didukung oleh perusahaan AI yang memberikan izin kepada orang luar untuk menyelidiki model mereka dan cara untuk mengungkapkan cacat di depan umum.
“Saat ini sedikit dari Wild West,” kata Shayne Longpresseorang kandidat PhD di MIT dan penulis utama proposal tersebut. Longpre mengatakan bahwa beberapa yang disebut jailbreaker berbagi metode mereka untuk melanggar AI melindungi platform media sosial X, meninggalkan model dan pengguna yang berisiko. Jailbreaks lainnya dibagikan dengan hanya satu perusahaan meskipun mereka mungkin mempengaruhi banyak orang. Dan beberapa kekurangan, katanya, dirahasiakan karena takut dilarang atau menghadapi penuntutan karena melanggar ketentuan penggunaan. “Jelas bahwa ada efek mengerikan dan ketidakpastian,” katanya.
Keamanan dan keselamatan model AI sangat penting diberikan secara luas teknologi sekarang digunakan, dan bagaimana mungkin meresap ke dalam aplikasi dan layanan yang tak terhitung jumlahnya. Model yang kuat perlu diuji stres, atau tim merah, karena mereka dapat menampung bias berbahaya, dan karena input tertentu dapat menyebabkannya Buanglah bebas dari pagar dan menghasilkan tanggapan yang tidak menyenangkan atau berbahaya. Ini termasuk mendorong pengguna yang rentan untuk terlibat dalam perilaku berbahaya atau membantu aktor yang buruk untuk mengembangkan senjata cyber, kimia, atau biologis. Beberapa ahli khawatir model dapat membantu penjahat cyber atau teroris, dan bahkan mungkin Nyalakan manusia Saat mereka maju.
Para penulis menyarankan tiga langkah utama untuk meningkatkan proses pengungkapan pihak ketiga: mengadopsi laporan cacat AI standar untuk merampingkan proses pelaporan; bagi perusahaan AI besar untuk menyediakan infrastruktur kepada peneliti pihak ketiga yang mengungkapkan cacat; dan untuk mengembangkan sistem yang memungkinkan kelemahan dibagi antara penyedia yang berbeda.
Pendekatan ini dipinjam dari dunia keamanan siber, di mana ada perlindungan hukum dan norma -norma yang ditetapkan bagi para peneliti luar untuk mengungkapkan bug.
“Peneliti AI tidak selalu tahu bagaimana mengungkapkan cacat dan tidak dapat memastikan bahwa pengungkapan cacat itikad baik mereka tidak akan mengekspos mereka pada risiko hukum,” kata Ilona Cohen, kepala pejabat hukum dan kebijakan di Hackeronesebuah perusahaan yang menyelenggarakan hadiah bug, dan rekan penulis pada laporan tersebut.
Perusahaan AI besar saat ini melakukan pengujian keselamatan yang luas pada model AI sebelum rilis. Beberapa juga berkontraksi dengan perusahaan luar untuk melakukan penyelidikan lebih lanjut. “Apakah ada cukup banyak orang di dalamnya [companies] Untuk mengatasi semua masalah dengan sistem AI tujuan umum, yang digunakan oleh ratusan juta orang dalam aplikasi yang belum pernah kita impikan? ” Longpre bertanya. Beberapa perusahaan AI sudah mulai mengorganisir karunia bug AI. Namun, Longpre mengatakan bahwa peneliti independen berisiko melanggar ketentuan penggunaan jika mereka mengambil sendiri untuk menyelidiki model AI yang kuat.
Para peneliti di balik inisiatif ini termasuk akademisi dari MIT, Universitas Stanford, Princeton, dan Universitas Carnegie Mellon, perusahaan besar termasuk Microsoft dan Mozilla, dan beberapa organisasi penelitian AI independen.
Ruth Appelseorang rekan postdoctoral di Universitas Stanford yang mengerjakan proposal tersebut, mengatakan bahwa cara formal untuk kesalahan dalam model AI untuk ditandai dengan cepat dan akan meminta pertanggungjawaban perusahaan secara publik. Tanpa skema seperti itu, dia berkata, “Pengguna akan mengalami produk yang lebih buruk, atau berpotensi produk yang lebih berbahaya, karena kekurangan mungkin tidak dilaporkan atau bahkan mungkin tidak ditemukan karena efek mengerikan ini.”
Proposal tersebut datang pada saat Institut Keselamatan AI Pemerintah AS, dibuat di bawah Administrasi Biden untuk membantu memeriksa model AI yang paling kuat untuk masalah serius, menghadapi masa depan yang tidak pasti karena pemotongan yang diimplementasikan oleh Departemen Efisiensi Pemerintah Elon Musk.
Longpre dan Appel membantu mengatur sebuah lokakarya di Universitas Princeton tentang masalah pengungkapan cacat AI pihak ketiga Oktober lalu. Acara ini dihadiri oleh para peneliti dari perusahaan termasuk Google, OpenAi, Microsoft, dan Cohere.
Longpre mengatakan para peneliti telah mulai membahas proposal dengan para peneliti dari beberapa perusahaan AI besar termasuk Openai, Google, dan Antropik. Perusahaan -perusahaan ini tidak segera menanggapi permintaan komentar. Longpre adalah bagian dari sekelompok peneliti itu sebelumnya dipanggil Bagi perusahaan untuk mengubah persyaratan layanan mereka untuk memungkinkan peneliti pihak ketiga menyelidiki model, tetapi ini tidak terjadi.
Carlini Nicholasseorang peneliti mantan Google dan anggota tim yang menemukan cacat GPT-3.5 pada tahun 2023, mengatakan kepada Princeton Workshop bahwa sistem pelaporan cacat perlu berubah. “Sangat sulit untuk mengetahui cara yang tepat di mana Anda harus melakukan hal -hal ini,” kata Carlini. “Kita perlu melakukan banyak pekerjaan, saya pikir, sebagai komunitas untuk mendapatkan lebih banyak norma mapan yang terjadi di sini.”
