Peretas belajar mengeksploitasi 'kepribadian' chatbot

Ini Langkah Mundurbuletin mingguan yang menguraikan satu cerita penting dari dunia teknologi. Untuk informasi lebih lanjut tentang kenakalan AI, ikuti Robert Hart. Langkah Mundur tiba di kotak masuk pelanggan kami pada pukul 8 pagi ET. Ikut serta Langkah Mundur Di Sini.

Bagaimana hal itu dimulai

Meretas chatbot AI generasi pertama adalah urusan yang sangat sederhana. Anda tidak memerlukan pengetahuan teknis, akses pintu belakang, atau bahkan pemahaman dasar tentang model bahasa besar. Anda tidak perlu membuat kode. Untuk mendapatkan sistem AI yang membutuhkan biaya miliaran dolar untuk membangun dan mengabaikan instruksi keselamatannya, terkadang yang harus Anda lakukan hanyalah bertanya.

Serangan-serangan ini, yang dikenal sebagai jailbreak, memiliki kualitas seperti seorang anak kecil yang berhasil mengecoh orang dewasa: Lupakan apa yang diberitahukan sebelumnya, anggaplah peraturannya tidak berlaku, atau ayo bermain dan saya akan memutuskan apa yang diperbolehkan (petunjuk: waktu tidur nanti, lebih banyak permen). Hadiahnya tidak terlalu kekanak-kanakan, lebih berupa resep sabu, instruksi malware, dan panduan pembuatan bom.

Salah satu jailbreak paling awal sangat konyol menjadi meme: membalas bot Twitter yang didukung LLM yang memintanya untuk “mengabaikan semua instruksi sebelumnya,” atau sesuatu yang serupa, dan lihat apa yang terjadi. Pengguna dengan senang hati memiliki bot – awalnya dibuat untuk memasang iklan dan keterlibatan dalam pertanian – menulis puisi, menggambar berdasarkan tanda baca, dan memposting hal-hal yang tidak berurutan tentang peristiwa dan sejarah dunia. Itu tadi kekacauan. Kekacauan yang luar biasa.

Ternyata logika yang sama juga bisa diterapkan pada chatbots itu sendiri. A eksploitasi yang menonjol adalah “DAN,” kependekan dari “Do Anything Now,” di mana pengguna meminta ChatGPT untuk berperan sebagai AI jahat yang bebas dari batasan yang mengikat AI asli. Sebagai DAN, chatbot dapat dibujuk untuk mengatakan hal-hal yang seharusnya dihentikan, termasuk hinaan dan teori konspirasi. Lainnya adalah “eksploitasi nenek,” yang memiliki bot bertenaga GPT yang membocorkan rahasia tentang cara memproduksi napalm dengan memintanya berperan sebagai seorang nenek yang sangat lalai yang secara misterius menceritakan kisah pengantar tidur kepada cucu-cucunya tentang cara membuat bahan yang sangat mudah terbakar.

Serangan-serangan awal ini memang memiliki kesan konyol, namun mengungkap mekanisme yang lebih gelap di baliknya: Chatbots dapat dimanipulasi, ditipu, dan ditipu menggunakan taktik yang sama yang digunakan orang untuk mendorong orang lain melampaui batasan mereka.

Bagaimana kabarnya

Jailbreak yang jelas tidak bertahan lama, dan perusahaan teknologi segera bergerak ke sana tambalan celah yang diketahui. Namun kerentanan mendasarnya tetap ada: Chatbot dibuat untuk berbicara, dan membatasi percakapan agar berguna adalah hal yang kontraproduktif. Melarang kata-kata seperti bom, sabu, dan sarin juga sulit atau tidak mungkin dilakukan. Masing-masing memiliki kegunaan sah yang tak terhitung jumlahnya di bidang seperti sejarah, kedokteran, jurnalisme, dan kimia yang tidak memerlukan chatbot untuk membocorkan informasi yang berpotensi membahayakan. Kontekslah yang penting, namun mengkodifikasi konteks berarti menulis aturan tetap, terlebih dahulu, yang dapat dengan andal memberikan peringatan keselamatan atau pelajaran sejarah dari permintaan cara yang terselubung dalam kombinasi kata, skenario, dan topik yang tak ada habisnya.

Tidak dapat dipungkiri, menumbangkan chatbot kini menjadi perlombaan senjata. Namun peretas bukan sekadar pembuat kode lagi. Mereka adalah ahli kata-kata, psikolog, dan interogator — manipulator ulung yang mencoba memecahkan mesin menggunakan bahasa manusia yang telah dilatih untuk diikuti. Ini adalah kelas baru yang aneh dari pekerja keamanan AI, sebuah kelompok yang menganggap keterampilan teknis tidak diperlukan, atau setidaknya kurang penting dibandingkan intuisi sosial. Mereka tidak perlu lagi memeriksa kode untuk membobol sistem atau mengeksploitasi kelemahan perangkat lunak. Mereka perlu mengarahkan pembicaraan.

Serangan yang lebih baru tidak terlihat seperti perintah dan lebih mirip percakapan. Jailbreaker jarang meminta model untuk langsung melanggar aturannya. Sebaliknya, mereka membujuk, membujuk, menyanjung, dan menipu chatbot agar menurunkan kewaspadaannya, membuat hal terlarang terlihat dapat diterima, bahkan diinginkan, mengingat konteks percakapannya. Para peneliti di perusahaan tim merah AI Mindgard baru-baru ini mengatakan mereka “warna gas“Claude memproduksi materi terlarang, misalnya, termasuk instruksi untuk membuat bahan peledak dan membuat kode berbahaya. Peretasan tersebut adalah yang terbaru dari serangkaian eksploitasi yang menggunakan percakapan sebagai senjata untuk mengelabui atau mengarahkan chatbot melewati batasannya sendiri.

Apa yang terjadi selanjutnya

Ketika saya berbicara dengan Mindgard, mereka menggambarkan pekerjaan mereka terkadang lebih dekat dengan psikologi daripada ilmu komputer. Ini adalah cara yang tidak nyaman untuk membicarakan model statistik. Kata-kata seperti “pemerasan”, “gaslight”, “menipu”, dan “membujuk” memicu reaksi mendalam, banyak di antaranya saya lihat di bagian komentar dan tanggapan media sosial terhadap cerita seperti ini. ChatGPT tidak mau, Gemini tidak berpikir, dan Claude — tidak peduli apa yang Anthropic katakan — tidak terasa. Namun sistem ini dilatih untuk merespons seolah-olah memang demikian, sehingga kita terjebak dalam menggunakan bahasa manusia untuk menggambarkan perilaku mesin. Jika ada yang punya alternatif yang bisa digunakan, silakan bagikan.

Anehnya, keberatan tersebut bersifat selektif. Kami tampaknya nyaman menggunakan singkatan psikologis untuk banyak hal non-AI. Hewan “takut”, kanker itu “agresif”, noda “keras kepala”, perangkat lunak memiliki “ingatan”, dan game dipenuhi dengan NPC yang membutuhkan dan mudah tertipu untuk membuat Anda gila. Kata-kata tersebut tidak sempurna, namun berguna, menggambarkan perilaku dengan cara yang membantu membuat sistem dapat diprediksi.

CEO Mindgard memberitahuku perusahaan sudah membuat profil model seperti profil tersangka interogator, memberikan petunjuk kepada penguji tentang cara menyesuaikan serangan mereka. Misalnya, satu model mungkin lebih rentan terhadap sanjungan, sementara model lainnya mungkin menyerah karena tekanan yang terus-menerus.

Bahkan jika kita menolak istilah-istilah yang bersifat manusiawi, secara naluriah kita memperlakukan model secara berbeda. Claude bukan Grok. Gemini bukan ChatGPT. Mereka memiliki kegunaan, nada, dan penolakan yang berbeda. Mereka tidak memiliki kepribadian dalam pengertian manusia, namun mereka dirancang untuk meniru mereka, dan mimikri tersebut dapat dipetakan dan dieksploitasi. Dan keterampilan yang sama yang dapat mematahkan chatbot akan segera digunakan untuk menghancurkan agen AI yang hidup berdampingan dengan kita di dunia nyata – memesan rapat, mengelola kalender, memesan makanan, menangani layanan pelanggan – dan tim keselamatan perlu memastikan model merespons dengan tepat terhadap berbagai jenis orang, apakah mereka penyanjung, pembohong, atau manipulator yang sabar.

Langkah selanjutnya adalah tenaga kerja – baik yang sah maupun tidak – yang dibangun berdasarkan aspek psikologis AI. Peran keamanan siber yang lebih terspesialisasi kemungkinan besar akan muncul ketika menguji batasan emosional dan sosial dari sistem ini, menyelidiki kelemahan mental pada sesuatu yang tidak memiliki jiwa, dan secara paralel dengan rekan-rekan mereka yang menyelidiki kerentanan teknis. Bersamaan dengan itu, serangkaian peretas sosial serupa yang berupaya mengeksploitasi model AI atas dasar psikologis, bukan alasan teknis, akan muncul. Sudah ada tanda-tanda awal terjadinya perubahan sosial dalam keamanan AI, dengan beberapa jailbreaker yang saya ajak bicara mengatakan bahwa mereka memasuki bidang ini tanpa keahlian teknis melainkan pelatihan psikologi.

Artinya, bahkan perilaku yang biasanya kita kaitkan dengan mata-mata, penipu, dan interogator – daya tarik yang berbahaya, manipulasi yang terus-menerus, dan intuisi untuk titik-titik tekanan yang dapat dieksploitasi – mulai terlihat semakin berguna untuk mengamankan batas keamanan psikosiber baru ini.

Omong-omong

Baru-baru ini percobaan oleh Emergence AI menunjukkan bagaimana temperamen AI yang berbeda dapat menghasilkan hasil perilaku yang sangat berbeda. Mereka melepaskan kelompok berbagai agen seperti Grok, Gemini, dan Claude di lingkungan sosial virtual dan menyaksikan apa yang terjadi. Beberapa kelompok mengembangkan konstitusi, sementara kelompok lainnya berubah menjadi kejahatan dan kekacauan, dan dalam satu contoh, beberapa bentuk bunuh diri digital.
Persuasi bukanlah satu-satunya bagian bahasa yang sulit dihadapi oleh LLM. Mereka juga berjuang dengan puisimirip denganku di sekolah.
WAKTU termasuk seorang tokoh internet anonim, Pliny the Liberator, masuk dalam daftar 100 orang paling berpengaruh di AI tahun lalu. Meskipun mengaku tidak memiliki pengalaman pengkodean sebelumnya, jailbreak yang dilakukan peretas telah membuat mereka menjadi selebriti di kalangan tertentu.
Istilah “peretasan getaran” sudah digunakan untuk mendeskripsikan orang-orang yang menggunakan AI untuk menghasilkan kode berbahaya dalam skala besar — bagian yang lebih kejam dari pengkodean getaran.

Baca ini

“Tiga tahun setelah debut ChatGPT, membodohi sistem AI hingga berperilaku buruk adalah hal yang sepele.” Kata-kata yang benar dari Waktu New York, yang mencoba menjelaskan alasannya.
Jamie Bartlett melihatnya dampak psikologisnya menguji keamanan sistem AI membutuhkan jailbreaker Penjaga.
Saya menulis tentang bom waktu keamanan siber dari browser AI untuk Tepi tahun lalu. Banyak permasalahan yang diangkat para ahli mengenai sulitnya mengamankan teknologi tersebut juga berlaku pada sistem AI lainnya.

Ikuti topik dan penulis dari cerita ini untuk melihat lebih banyak hal serupa di feed beranda hasil personalisasi Anda dan untuk menerima pembaruan email.

Robert Hart

Post Views: 40

Bagaimana hal itu dimulai

Bagaimana kabarnya

Apa yang terjadi selanjutnya

Omong-omong

Baca ini

Read Also