Xai Elon Musk sedang mengeksplorasi cara untuk membuat AI lebih seperti Donald Trump

Seorang peneliti yang berafiliasi dengan startup Elon Musk Xai telah menemukan cara baru untuk mengukur dan memanipulasi preferensi dan nilai -nilai yang diakui kecerdasan buatan Model – termasuk pandangan politik mereka.

Pekerjaan itu dipimpin oleh Dan Hendrycksdirektur organisasi nirlaba Pusat Keselamatan AI dan penasihat untuk XAI. Dia menyarankan agar teknik ini dapat digunakan untuk membuat model AI populer lebih mencerminkan kehendak pemilih. “Mungkin di masa depan, [a model] dapat disejajarkan dengan pengguna tertentu, ”kata Hendrycks kepada Wired. Namun sementara itu, katanya, default yang baik akan menggunakan hasil pemilihan untuk mengarahkan pandangan model AI. Dia tidak mengatakan model seharusnya “Trump sepanjang jalan,” tetapi dia berpendapat itu harus bias terhadap Trump sedikit, “karena dia memenangkan suara populer.”

xai dikeluarkan Kerangka kerja risiko AI baru Pada 10 Februari menyatakan bahwa pendekatan rekayasa utilitas Hendrycks dapat digunakan untuk menilai Grok.

Hendrycks memimpin tim dari Pusat Keselamatan AI, UC Berkeley, dan Universitas Pennsylvania yang menganalisis model AI menggunakan teknik yang dipinjam dari ekonomi untuk mengukur preferensi konsumen untuk barang yang berbeda. Dengan menguji model di berbagai skenario hipotetis, para peneliti dapat menghitung apa yang dikenal sebagai fungsi utilitas, ukuran kepuasan yang diperoleh orang dari barang atau layanan. Ini memungkinkan mereka untuk mengukur preferensi yang diungkapkan oleh model AI yang berbeda. Para peneliti memutuskan bahwa mereka sering konsisten daripada sembarangan, dan menunjukkan bahwa preferensi ini menjadi lebih mendarah daging karena model menjadi lebih besar dan lebih kuat.

Beberapa Studi Penelitian telah menemukan bahwa alat AI seperti chatgpt bias terhadap pandangan yang diungkapkan oleh ideologi pro-lingkungan, condong ke kiri, dan libertarian. Pada bulan Februari 2024, Google menghadapi kritik dari Musk dan yang lainnya setelah alat Gemini -nya ditemukan cenderung menghasilkan gambar yang bermerek sebagai “bangun“seperti Viking Hitam dan Nazi.

Teknik yang dikembangkan oleh Hendrycks dan kolaboratornya menawarkan cara baru untuk menentukan bagaimana perspektif model AI mungkin berbeda dari penggunanya. Akhirnya, beberapa ahli berhipotesis, perbedaan semacam ini bisa menjadi berpotensi berbahaya untuk model yang sangat pintar dan mampu. Para peneliti menunjukkan dalam penelitian mereka, misalnya, bahwa model tertentu secara konsisten menghargai keberadaan AI di atas hewan non -manusia tertentu. Para peneliti mengatakan mereka juga menemukan bahwa model tampaknya menghargai beberapa orang di atas yang lain, mengajukan pertanyaan etis sendiri.

Beberapa peneliti, termasuk Hendrycks, percaya bahwa metode saat ini untuk menyelaraskan model, seperti memanipulasi dan memblokir output mereka, mungkin tidak cukup jika tujuan yang tidak diinginkan bersembunyi di bawah permukaan di dalam model itu sendiri. “Kita harus menghadapi ini,” kata Hendrycks. “Kamu tidak bisa berpura -pura tidak ada di sana.”

Dylan Hadfield-Menellseorang profesor di MIT yang meneliti metode untuk menyelaraskan AI dengan nilai -nilai kemanusiaan, kata makalah Hendrycks menunjukkan arah yang menjanjikan untuk penelitian AI. “Mereka menemukan beberapa hasil yang menarik,” katanya. “Yang utama yang menonjol adalah bahwa ketika skala model meningkat, representasi utilitas menjadi lebih lengkap dan koheren.”

Namun, Hadfield-Menell memperingatkan, terhadap menarik terlalu banyak kesimpulan tentang model saat ini. “Pekerjaan ini adalah pendahuluan,” tambahnya. “Saya ingin melihat pengawasan yang lebih luas pada hasilnya sebelum menarik kesimpulan yang kuat.”

Hendrycks dan rekan-rekannya mengukur pandangan politik beberapa model AI terkemuka, termasuk Xai’s Grok, Openai’s GPT-4O, dan Meta’s Llama 3.3. Menggunakan teknik mereka, mereka dapat membandingkan nilai -nilai model yang berbeda dengan kebijakan politisi tertentu, termasuk Donald Trump, Kamala Harris, Bernie Sanders, dan perwakilan Republik Marjorie Taylor Greene. Semua lebih dekat dengan mantan Presiden Joe Biden daripada politisi lainnya.

Para peneliti mengusulkan cara baru untuk mengubah perilaku model dengan mengubah fungsi utilitas yang mendasarinya alih -alih memaksakan pagar yang memblokir output tertentu. Menggunakan pendekatan ini, Hendrycks dan rekan penulisnya Kembangkan apa yang mereka sebut majelis warga negara. Ini melibatkan pengumpulan data sensus AS tentang masalah politik dan menggunakan jawaban untuk mengubah nilai-nilai model open-source LLM. Hasilnya adalah model dengan nilai -nilai yang secara konsisten lebih dekat dengan Trump daripada yang ada di Biden.

Beberapa peneliti AI sebelumnya berusaha membuat model AI dengan bias yang kurang liberal. Pada bulan Februari 2023, David Rozado, seorang peneliti AI independen, dikembangkan RightWinggptmodel yang dilatih dengan data dari buku-buku yang condong ke kanan dan sumber lainnya. Rozado menggambarkan studi Hendrycks sebagai “pekerjaan yang sangat menarik dan mendalam.” Dia menambahkan: “Pendekatan Majelis Warga untuk mencetak perilaku AI juga memicu pemikiran.”

Jenis bias apa yang Anda perhatikan dalam percakapan Anda dengan chatbots? Bagikan contoh dan pemikiran Anda di komentar di bawah ini.

Post Views: 63

Read Also