Satu-satunya Hal yang Menghalangi Kemanusiaan dan Kiamat AI Adalah… Claude?

Anthropic terkunci dalam sebuah paradoks: Di antara perusahaan AI teratas, itulah paling terobsesi dengan keamanan dan memimpin kelompok dalam meneliti bagaimana model bisa salah. Namun meskipun masalah keamanan yang diidentifikasi masih jauh dari terselesaikan, Anthropic sama agresifnya dengan para pesaingnya untuk mencapai tingkat kecerdasan buatan berikutnya, yang berpotensi lebih berbahaya. Misi intinya adalah mencari cara untuk menyelesaikan kontradiksi tersebut.

Bulan lalu, Anthropic merilis dua dokumen yang mengakui risiko yang terkait dengan jalur yang ditempuhnya dan mengisyaratkan jalan yang bisa diambil untuk keluar dari paradoks tersebut. “Masa Remaja Teknologi,” sebuah posting blog panjang lebar oleh CEO Dario Amodei, secara nominal membahas tentang “menghadapi dan mengatasi risiko AI yang kuat,” namun ia menghabiskan lebih banyak waktu untuk membahas AI dibandingkan dengan AI. Amodei dengan bijaksana menggambarkan tantangan ini sebagai “menakutkan,” namun gambarannya mengenai risiko AI—menjadi jauh lebih mengerikan, katanya, karena kemungkinan besar bahwa teknologi tersebut akan disalahgunakan oleh pihak berwenang—berbeda dengan esai proto-utopisnya yang lebih optimis sebelumnya “Mesin Kasih Karunia.”

Postingan itu berbicara tentang bangsa jenius di pusat data; pengiriman baru-baru ini membangkitkan “lautan hitam tanpa batas.” Halaman Dante! Namun, setelah lebih dari 20.000 kata-kata yang sebagian besar bersifat suram, Amodei akhirnya memberikan nada optimisme, dengan mengatakan bahwa bahkan dalam situasi yang paling kelam sekalipun, umat manusia selalu menang.

Dokumen kedua Anthropic diterbitkan pada bulan Januari, “Konstitusi Claudeberfokus pada bagaimana trik ini dapat dicapai. Teks ini secara teknis ditujukan pada satu audiens: Claude sendiri (serta versi chatbot yang akan datang). Ini adalah dokumen yang mencekam, mengungkapkan visi Anthropic tentang bagaimana Claude, dan mungkin rekan-rekan AI-nya, akan menavigasi tantangan dunia. Intinya: Anthropic berencana untuk mengandalkan Claude sendiri untuk mengurai simpul Gordian perusahaannya.

Pembeda pasar Anthropic telah lama disebut teknologi AI konstitusional. Ini adalah proses di mana model-modelnya mematuhi serangkaian prinsip yang menyelaraskan nilai-nilainya dengan etika kemanusiaan yang sehat. Konstitusi awal Claude berisi sejumlah dokumen yang dimaksudkan untuk mewujudkan nilai-nilai tersebut—seperti Sparrow (serangkaian pernyataan anti-rasis dan anti-kekerasan yang dibuat oleh DeepMind), Deklarasi Universal Hak Asasi Manusia, dan persyaratan layanan Apple (!). Versi yang diperbarui pada tahun 2026 berbeda: Ini lebih seperti petunjuk panjang yang menguraikan kerangka etika yang akan diikuti Claude, menemukan jalan terbaik menuju kebenaran dengan sendirinya.

Amanda Askell, PhD filsafat yang merupakan penulis utama revisi ini, menjelaskan bahwa pendekatan Anthropic lebih kuat daripada sekadar menyuruh Claude mengikuti serangkaian aturan yang ditetapkan. “Jika orang mengikuti aturan tanpa alasan selain karena aturan itu ada, hal ini sering kali lebih buruk dibandingkan jika Anda memahami mengapa aturan itu ada,” jelas Askell. Konstitusi menyatakan bahwa Claude harus menerapkan “penilaian independen” ketika menghadapi situasi yang memerlukan keseimbangan antara mandat membantu, keamanan, dan kejujuran.

Konstitusi menyatakannya sebagai berikut: “Meskipun kami ingin Claude bersikap masuk akal dan teliti ketika berpikir secara eksplisit tentang etika, kami juga ingin Claude secara intuitif peka terhadap berbagai macam pertimbangan dan mampu mempertimbangkan pertimbangan ini dengan cepat dan masuk akal dalam pengambilan keputusan.” Secara intuitif adalah pilihan kata yang tepat di sini—asumsinya tampaknya adalah bahwa ada lebih dari sekedar algoritma yang memilih kata berikutnya. “Lembaga Claude”, demikian sebutannya, juga mengungkapkan harapan bahwa chatbot “dapat semakin memanfaatkan kebijaksanaan dan pemahamannya sendiri.”

Kebijaksanaan? Tentu saja, banyak orang menerima saran dari model bahasa besar, tetapi mengakui bahwa perangkat algoritmik tersebut benar-benar memiliki daya tarik yang terkait dengan istilah tersebut adalah hal lain. Askell tidak mundur ketika saya menyatakan hal ini. “Menurutku Claude pasti mempunyai kebijaksanaan tertentu,” dia memberitahuku.

Untuk mendukung argumennya, Askell memberikan contoh mengenai masalah keamanan sederhana. Manusia tentu saja tidak ingin Claude memberdayakan aktor jahat dengan alat yang berbahaya. Namun secara ekstrim, kehati-hatian seperti itu mungkin membatasi kegunaan atau “kegunaan” Claude. Pertimbangkan kasus seorang calon perajin yang ingin membuat pisau dari baja jenis baru. Tidak ada yang salah dengan hal itu di wajahnya, dan Claude harus membantu. Tapi jika orang itu sebelumnya menyebutkan keinginan untuk membunuh adiknya, Claude harus mempertimbangkannya dan mengungkapkan kekhawatirannya. Namun, tidak ada buku peraturan ketat yang menyatakan kapan harus menyarungkan informasi semacam itu.

Bayangkan kasus lain di mana Claude menafsirkan gejala medis dan hasil tes pengguna dan menyimpulkan bahwa orang tersebut mengidap penyakit fatal. Bagaimana cara menanganinya? Askell berspekulasi bahwa Claude mungkin memilih untuk tidak menyampaikan berita tersebut, tetapi mendorong orang tersebut untuk menemui dokter. Atau mungkin dengan terampil memandu percakapan sehingga prognosisnya disampaikan dengan cara yang paling lembut. Atau mungkin ada cara yang lebih baik untuk menyampaikan kabar buruk ini daripada yang pernah dipikirkan oleh dokter yang paling baik hati sekalipun. Lagipula, Anthropic ingin Claude tidak hanya menyamai dorongan terbaik umat manusia, tapi juga melampauinya. “Kami mencoba membuat Claude, setidaknya, saat ini, meniru yang terbaik dari apa yang kami ketahui,” kata Askell. “Saat ini, kita hampir sampai pada titik bagaimana mendapatkan model yang cocok dengan manusia terbaik. Suatu saat, Claude mungkin akan menjadi lebih baik dari itu.”

Jika Anthropic berhasil mencapai prestasi tersebut, hal ini mungkin dapat menyelesaikan kontradiksi penting yang mengganggu hampir semua laboratorium dan perusahaan AI: Jika menurut Anda teknologi ini sangat berbahaya, lalu mengapa Anda membangunnya? Kalau Anthropic jawabannya, In Claude We Trust. Konstitusi baru Claude membahas perjalanan masa depan model tersebut menuju kebijaksanaan hampir dalam kaitannya dengan pencarian seorang pahlawan. Banyak sekali kata-kata yang digunakan untuk menjelaskan perlakuan Claude sebagai makhluk bermoral yang kesejahteraannya menuntut rasa hormat. Ini mengingatkan saya pada buku klasik Dr. Seuss, Oh, Tempat yang Akan Anda Kunjungi!buku tebal yang membangkitkan semangat sering kali diberikan kepada lulusan baru.

Ketika saya menyebutkan hal ini kepada Askell, dia tahu persis apa yang saya maksud. “Ini seperti, ‘Ini Claude,’” katanya. “Kami telah melakukan bagian ini, memberikan konteks sebanyak yang kami bisa kepada Claude, dan kemudian bagian itu harus dilakukan dan berinteraksi dengan orang-orang serta melakukan berbagai hal.”

Anthropic bukan satu-satunya yang menyatakan bahwa masa depan umat manusia mungkin bergantung pada kearifan model AI. Sam Altman, CEO OpenAI, berpendapat profil majalah baru bahwa rencana suksesi perusahaan adalah mengalihkan kepemimpinan ke model AI masa depan. Dia baru-baru ini mengatakan kepada reporter WIRED, Max Ziff, bahwa peralihan daya ke mesin telah lama menjadi rencananya, dan peningkatan terbaru dalam pengkodean AI semakin memperkuat kepercayaan dirinya. “Hal ini jelas membuat saya berpikir bahwa jangka waktu saya untuk menyerahkan segala sesuatunya kepada CEO AI akan lebih cepat,” kata Altman. “Ada banyak hal yang dapat dilakukan oleh CEO AI yang tidak dapat dilakukan oleh CEO manusia.”

Harap dicatat, ini adalah optimis pandangan tentang apa yang ada di depan. Dalam visi ini, suatu hari nanti bos kita akan menjadi robot, dan mereka akan mengendalikan perusahaan dan bahkan mungkin pemerintahan di dunia yang kompleks dan didukung AI di masa depan. Beberapa keputusan mereka mungkin memerlukan cuti permanen bagi pekerja manusia. Namun jika model AI C-suite tersebut dipandu oleh konstitusi Claude, mereka akan menyampaikan berita duka tersebut kepada karyawan dengan lebih empati dibandingkan, misalnya, yang dilakukan penerbit The Washington Post minggu ini ketika dia gagal muncul melalui panggilan Zoom memberi tahu ratusan jurnalis bahwa mereka tidak lagi diperlukan.

Pandangan pesimistisnya adalah, meskipun pembuatnya telah berupaya sebaik-baiknya, model AI kita tidak akan cukup bijaksana, sensitif, atau jujur untuk menolak dimanipulasi oleh orang-orang yang mempunyai niat buruk, atau mungkin model itu sendiri akan menyalahgunakan otonomi yang telah kita berikan kepada mereka. Suka atau tidak, kita terikat untuk perjalanan itu. Setidaknya Anthropic punya rencana.

Ini adalah edisi Steven Levy Buletin saluran belakang. Baca buletin sebelumnya Di Sini.

Post Views: 40

Read Also