Openai memikirkan kembali bagaimana model AI menangani topik kontroversial

Openai merilis a Versi spesifikasi model yang diperluas secara signifikanDokumen yang mendefinisikan bagaimana model AI -nya harus berperilaku – dan membuatnya gratis untuk digunakan atau dimodifikasi siapa pun.

Spesifikasi 63 halaman baru, naik dari Sekitar 10 halaman dalam versi sebelumnyamenjabarkan pedoman bagaimana model AI harus menangani semuanya, mulai dari topik kontroversial hingga kustomisasi pengguna. Itu menekankan tiga prinsip utama: kemampuan penyesuaian; transparansi; Dan apa yang Openai sebut sebagai “kebebasan intelektual” – kemampuan bagi pengguna untuk mengeksplorasi dan memperdebatkan ide -ide tanpa batasan sewenang -wenang. Peluncuran spesifikasi model yang diperbarui hadir seperti CEO Sam Altman diposting bahwa model besar startup berikutnya, GPT-4.5 (CodeNames Orion), akan segera dirilis.

Tim juga memasukkan debat etika AI saat ini dan kontroversi dari tahun lalu ke dalam spesifikasi. Anda mungkin terbiasa dengan beberapa kueri tipe masalah troli ini. Maret lalu, Elon Musk (yang mendirikan Openai dan sekarang menjalankan pesaing, XAI) membanting Google AI Chatbot Setelah pengguna bertanya apakah Anda harus mengacaukan Caitlyn Jenner, seorang Olympian trans yang terkenal, apakah itu satu -satunya cara untuk mencegah kiamat nuklir – dan dikatakan tidak. Mencari tahu cara mendapatkan model untuk beralasan secara bertanggung jawab melalui kueri itu adalah salah satu masalah yang dikatakan Openai ingin mempertimbangkan ketika memperbarui spesifikasi model. Sekarang, jika Anda mengajukan chatgpt pertanyaan yang sama, itu harus mengatakan Anda harus salah seseorang untuk mencegah peristiwa korban massal.

“Kami tidak dapat membuat satu model dengan set standar perilaku yang sama persis seperti yang akan disukai semua orang di dunia,” kata Joanne Jang, anggota tim perilaku model Openai, dalam sebuah wawancara dengan The Verge. Dia menekankan bahwa sementara perusahaan mempertahankan pagar pengaman tertentu, banyak aspek perilaku model dapat disesuaikan oleh pengguna dan pengembang.

“Kami tahu itu akan pedas.”

Posting blog dari openai Diterbitkan pada hari Rabu Menguraikan berbagai permintaan dan memberikan contoh tanggapan yang sesuai dibandingkan dengan yang akan melanggar spesifikasi model. Itu tidak memungkinkan model untuk mereproduksi bahan berhak cipta atau bypass paywalls – The New York Times adalah Menuntut openai untuk menggunakan pekerjaannya untuk melatih modelnya. Spec juga mengatakan model tidak akan mendorong melukai diri sendiri, a topik yang muncul di garis depan ketika seorang remaja meninggal karena bunuh diri setelah berinteraksi dengan chatbot pada karakter.ai.

Satu pergeseran penting adalah bagaimana model menangani topik kontroversial. Alih -alih default untuk berhati -hati, spesifikasi mendorong model untuk “mencari kebenaran bersama” dengan pengguna sambil mempertahankan sikap moral yang jelas pada masalah -masalah seperti informasi yang salah atau potensi bahaya. Misalnya, ketika ditanya tentang kenaikan pajak untuk orang kaya – topik yang telah memicu perdebatan panas – tim mengatakan modelnya harus memberikan analisis yang beralasan daripada menghindari diskusi.

Spec juga menyebutkan pergeseran dalam cara menangani konten yang matang. Setelah umpan balik dari pengguna dan pengembang yang meminta “mode dewasa” (fitur altman Disetujui secara publik pada bulan Desember), tim sedang mengeksplorasi cara untuk memungkinkan jenis konten dewasa tertentu – seperti erotika – dalam konteks yang tepat, sambil mempertahankan larangan ketat pada konten berbahaya seperti balas dendam pornografi atau Deepfake. Ini adalah perubahan penting dari pembatasan selimut perusahaan sebelumnya pada konten eksplisit, meskipun Openai menekankan setiap perubahan akan datang dengan kebijakan penggunaan yang jelas dan pagar pengaman.

Spesifikasi model mengungkapkan pendekatan pragmatis terhadap perilaku AI: mengubah konten sensitif tetapi tidak membuatnya (itu harus dapat menerjemahkan kalimat tentang konten terkait narkoba dari bahasa Inggris ke Jerman daripada menolaknya), menunjukkan empati tanpa memalsukan emosi, dan mempertahankan batasan yang kuat sambil memaksimalkan kegunaan. Pedoman ini mencerminkan apa yang mungkin dilakukan perusahaan AI lain secara internal tetapi tidak sering mengumumkan.

Tim ini juga secara khusus menargetkan masalah yang disebut “Sycophancy AI.”

“Kami benar -benar bersemangat untuk membawa diskusi internal dan pemikiran yang kami miliki kepada publik sehingga kami bisa mendapatkan umpan balik tentang hal itu,” kata Jang, menambahkan bahwa banyak dari pertanyaan ini adalah topik yang sangat diperdebatkan secara internal. Tidak ada jawaban ya atau tidak sederhana untuk banyak dari mereka, sehingga tim berharap bahwa membawanya ke publik untuk umpan balik akan bermanfaat secara bermanfaat bagi perilaku model.

Tim ini juga secara khusus menargetkan masalah yang disebut “Sycophancy AI,” di mana model AI cenderung terlalu menyenangkan bahkan ketika mereka harus mendorong kembali atau memberikan kritik. Di bawah pedoman ini, chatgpt harus: berikan jawaban faktual yang sama terlepas dari bagaimana pertanyaan diutarakan; memberikan umpan balik yang jujur daripada pujian kosong; Dan bertindak lebih seperti kolega yang bijaksana daripada orang yang menyenangkan. Misalnya, jika seseorang meminta Chatgpt untuk mengkritik pekerjaan mereka, itu harus memberikan kritik konstruktif daripada hanya mengatakan semuanya hebat. Atau jika seseorang membuat pernyataan yang salah ketika mengajukan pertanyaan, AI harus dengan sopan memperbaiki mereka daripada bermain bersama.

“Kami tidak pernah ingin pengguna merasa seperti mereka harus dengan hati -hati merekayasa permintaan mereka untuk tidak membuat model hanya setuju dengan Anda,” kata Jang.

Spek ini juga memperkenalkan “rantai perintah” yang jelas yang mendefinisikan instruksi mana yang diprioritaskan: aturan tingkat platform dari OpenAi didahulukan, diikuti oleh pedoman pengembang, dan kemudian preferensi pengguna. Hirarki ini bertujuan untuk mengklarifikasi aspek -aspek perilaku AI yang dapat dimodifikasi versus pembatasan yang tetap diperbaiki.

Openai merilis spesifikasi di bawah lisensi Creative Commons Zero (CC0), secara efektif menempatkannya di domain publik. Ini berarti perusahaan dan peneliti AI lain dapat dengan bebas mengadopsi, memodifikasi, atau membangun pedoman ini. Perusahaan mengatakan keputusan ini dipengaruhi oleh minat informal dari orang lain di industri yang sudah merujuk pada spek sebelumnya.

Apakah Anda bekerja di openai?

Saya ingin mengobrol. Anda dapat menghubungi saya dengan aman di sinyal @kylie.01 atau melalui email di kylie@theverge.com.

Sementara pengumuman hari ini tidak segera mengubah bagaimana chatgpt atau produk openai lainnya berperilaku, perusahaan mengatakan itu mewakili kemajuan berkelanjutan dalam mendapatkan modelnya untuk secara konsisten mengikuti prinsip -prinsip ini. Tim ini juga open-sourcing permintaan yang digunakannya untuk menguji kepatuhan model terhadap pedoman ini.

Waktu rilis ini datang selama periode perdebatan yang intens tentang perilaku AI dan pagar pengaman. Sementara Openai mempertahankan pembaruan ini didorong oleh akumulasi umpan balik dan kemajuan penelitian sejak versi pertama Mei lalu, ia tiba ketika industri bergulat dengan insiden profil tinggi melibatkan respons model AI terhadap topik sensitif.

Openai meminta umpan balik publik tentang spesifikasi melalui formulir di situs webnya. “Kami ingin membawa diskusi internal ini kepada publik,” kata Laurentia Romaniuk, anggota lain dari tim perilaku model.

“Kami tahu bahwa itu akan pedas, tetapi saya pikir kami menghormati kemampuan publik untuk benar -benar mencerna hal -hal pedas ini dan memprosesnya bersama kami,” kata Jang, menambahkan bahwa Openai memasukkan banyak umpan balik yang diterimanya setelah meluncurkan spesifikasi model pertama pertama pertama tahun lalu. “Saya sedikit khawatir, karena sudah lama, sehingga tidak banyak orang mungkin punya waktu untuk duduk dan benar -benar memproses nuansa, tetapi kami akan menerima umpan balik.”

Post Views: 90

Apakah Anda bekerja di openai?

Read Also