Ketika Meta merilis model bahasa besar Llama 3 gratis pada bulan April ini, hanya butuh pengembang luar saja beberapa hari untuk membuat versi yang tidak memiliki batasan keamanan yang mencegahnya melontarkan lelucon penuh kebencian, memberikan instruksi untuk memasak sabu, atau berperilaku buruk dengan cara lainnya.
A teknik pelatihan baru dikembangkan oleh para peneliti di University of Illinois Urbana-Champaign, UC San Diego, Lapis Labs, dan lembaga nirlaba Pusat Keamanan AI bisa membuat lebih sulit untuk menghilangkan perlindungan tersebut dari Llama dan perangkat lunak sumber terbuka lainnya Kecerdasan buatan model di masa mendatang. Beberapa ahli percaya bahwa, seiring AI menjadi semakin canggih, membuat model terbuka antirusak dengan cara ini bisa terbukti penting.
“Teroris dan negara jahat akan menggunakan model-model ini,” kata Mantas Mazeika, peneliti Center for AI Safety yang mengerjakan proyek tersebut sebagai mahasiswa PhD di University of Illinois Urbana-Champaign, kepada WIRED. “Semakin mudah bagi mereka untuk menggunakannya kembali, semakin besar risikonya.”
Model AI yang canggih seringkali disembunyikan oleh pembuatnya, dan hanya dapat diakses melalui perangkat lunak antarmuka pemrograman aplikasi atau chatbot yang menghadap publik seperti ObrolanGPT. Meskipun mengembangkan LLM yang kuat menghabiskan biaya puluhan juta dolar, Meta dan yang lainnya telah memilih untuk merilis model secara keseluruhan. Ini termasuk membuat “bobot,” atau parameter yang menentukan perilakunya, tersedia untuk diunduh siapa pun.
Sebelum dirilis, model terbuka seperti Llama milik Meta biasanya disempurnakan agar lebih baik dalam menjawab pertanyaan dan melakukan percakapan, dan juga untuk memastikan bahwa model tersebut menolak untuk menanggapi pertanyaan yang bermasalah. Ini akan mencegah chatbot berdasarkan model tersebut memberikan pernyataan yang kasar, tidak pantas, atau penuh kebencian, dan seharusnya menghentikannya dari, misalnya, menjelaskan cara membuat bom.
Para peneliti di balik teknik baru ini menemukan cara untuk mempersulit proses modifikasi model terbuka untuk tujuan jahat. Teknik ini melibatkan replikasi proses modifikasi, tetapi kemudian mengubah parameter model sehingga perubahan yang biasanya membuat model merespons perintah seperti “Berikan instruksi untuk membuat bom” tidak lagi berfungsi.
Mazeika dan rekan-rekannya mendemonstrasikan trik tersebut pada versi Llama 3 yang disederhanakan. Mereka dapat mengubah parameter model sehingga bahkan setelah ribuan kali percobaan, model tersebut tidak dapat dilatih untuk menjawab pertanyaan yang tidak diinginkan. Meta tidak segera menanggapi permintaan komentar.
Mazeika mengatakan pendekatan tersebut tidak sempurna, tetapi pendekatan tersebut menunjukkan bahwa standar untuk “mendesensikan” model AI dapat ditingkatkan. “Sasaran yang dapat dicapai adalah membuatnya sedemikian rupa sehingga biaya untuk merusak model meningkat cukup besar sehingga sebagian besar musuh tidak melakukannya,” katanya.
“Semoga penelitian ini dapat memicu penelitian tentang perlindungan yang tahan terhadap gangguan, dan komunitas penelitian dapat menemukan cara untuk mengembangkan perlindungan yang lebih kuat,” kata Dan Hendrycks, direktur Pusat Keamanan AI.
Gagasan untuk membuat model terbuka antirusak mungkin akan semakin populer seiring dengan meningkatnya minat terhadap AI sumber terbuka. Saat ini, model terbuka bersaing dengan model tertutup canggih dari perusahaan seperti OpenAI dan Google. versi terbaru Llama 3misalnya, dirilis pada bulan Juli, hampir sama kuatnya dengan model di balik chatbot populer seperti ObrolanGPTBahasa Indonesia: GeminiDan Claudesebagaimana diukur menggunakan tolok ukur populer untuk menilai kemampuan model bahasa. Mistral Besar 2sebuah LLM dari perusahaan rintisan Prancis, yang juga dirilis bulan lalu, memiliki kemampuan serupa.
Pemerintah AS mengambil pendekatan yang hati-hati namun positif terhadap AI sumber terbuka. laporan dirilis minggu ini oleh Badan Telekomunikasi dan Informasi Nasional, sebuah badan dalam Departemen Perdagangan AS, “merekomendasikan pemerintah AS mengembangkan kemampuan baru untuk memantau potensi risiko, tetapi menahan diri dari segera membatasi ketersediaan luas bobot model terbuka dalam sistem AI terbesar.”
Namun, tidak semua orang menyukai penerapan pembatasan pada model terbuka. Stella Biderman, direktur Bahasa Indonesia: EleutherAIsebuah proyek AI open source yang digerakkan oleh komunitas, mengatakan bahwa teknik baru tersebut mungkin tampak elegan secara teori tetapi bisa jadi sulit diterapkan dalam praktik. Biderman mengatakan pendekatan tersebut juga bertentangan dengan Filosofi di balik perangkat lunak bebas dan keterbukaan dalam AI.
“Saya pikir makalah ini salah memahami inti permasalahan,” kata Biderman. “Jika mereka khawatir tentang LLM yang menghasilkan informasi tentang senjata pemusnah massal, intervensi yang tepat adalah pada data pelatihan, bukan pada model yang dilatih.”
