Anthropic Menawarkan Peningkatan Mitos untuk Mitra Cyber dan Versi 'Aman' untuk Anda Semua

Anthropic merilis dua model AI baru yang disebut Claude Fable 5 dan Claude Mythos 5 pada hari Selasa, yang menurut perusahaan memiliki kemampuan lebih besar daripada model tersebut. Mitos Pratinjau modelnya dirilis pada bulan April kepada sekelompok mitra industri teknologi yang terbatas. Antropis mengatakan rilis awal yang terbatas berasal dari kekhawatiran bahwa kemampuan model tersebut dapat dieksploitasi oleh pelaku kejahatan untuk mengembangkan alat peretasan yang dapat menangkap pembela lengah.

Anthropic saat ini hanya merilis Claude Mythos 5 ke sejumlah mitra industri terbatas, banyak di antaranya menerima akses ke Mythos Preview, dan perusahaan tersebut mengatakan pihaknya berkolaborasi dengan pemerintah AS dalam peluncuran tersebut.

Claude Fable 5, yang dirilis ke publik, menggunakan model dasar yang sama dengan Mythos 5, tetapi akan memiliki “pagar pembatas” saat peluncuran, kata perusahaan itu pada hari Selasa, yang akan menghalangi model tersebut menjawab banyak pertanyaan pengguna terkait keamanan siber, biologi, dan kimia. Permintaan ini malah akan dialihkan ke model AI lama, Claude Opus 4.8. Jika Anthropic mencurigai pengguna sedang mencoba melakukan distilasi—melatih model AI yang lebih kecil dari respons model AI yang lebih besar—di Claude Fable 5, permintaan tersebut juga akan dialihkan ke Claude Opus 4.8, kata perusahaan tersebut.

Dalam sebuah wawancara dengan WIRED, kepala manajemen produk Anthropic, Diane Penn, mengatakan bahwa perusahaan telah bergulat dengan pertanyaan tentang bagaimana menangani kemampuan penemuan kerentanan perangkat lunak Mythos dan kemampuan canggih lainnya sejak sebelum dirilis pada bulan April, namun pengujian dan masukan pengguna sejak saat itu membantu mengasah strategi.

“Kami berusaha melakukan perbaikan dengan cara yang bermanfaat, meskipun kami belum mendapatkan yang sempurna [solution] untuk memulai setiap kasus penggunaan,” kata Penn. “Dari semua pendekatan yang berbeda, pendekatan ini muncul sebagai pendekatan yang paling layak dan terbaik. Kami akhirnya merasa bahwa ini adalah pilihan produk terbaik bagi pengguna untuk mendapatkan nilai maksimal dari Fable 5.”

Untuk saat ini, Penn mengatakan bahwa mekanisme perlindungan dibuat dengan tujuan untuk berhati-hati, yang berarti beberapa pertanyaan pengguna mungkin dialihkan ke model AI yang kurang mampu meskipun tidak berbahaya. Seiring berjalannya waktu, Anthropic berharap dapat membuat pengklasifikasiannya lebih tepat, namun Penn mengatakan ini adalah satu-satunya cara aman bagi perusahaan untuk merilis model tersebut secara luas saat ini.

Perusahaan tersebut mengatakan pada hari Selasa bahwa selain menawarkan Claude Mythos 5 kepada mitra Project Glasswing, mereka juga memberikan akses kepada “peneliti biologi terpilih.” Selain itu, Anthropic mencatat di dalamnya postingan blog tentang peluncuran hari Selasa yang menyediakan versi tidak terbatas kepada kelompok kecil pelanggan ini “sampai program akses tepercaya kami tersedia,” mengisyaratkan rencana masa depan untuk memperluas akses lebih jauh lagi. Sejak peluncuran Mythos pada bulan April, Anthropic telah berulang kali menekankan bahwa pada akhirnya para pesaingnya baik di ruang privat maupun terbuka pasti juga akan menawarkan model dengan kemampuan setingkat Mythos.

Kemampuan Claude Mythos dan model AI baru lainnya untuk merancang alat peretasan yang dapat menemukan dan mengeksploitasi kerentanan pada perangkat lunak baru dan lama telah memaksa perusahaan teknologi dan pemerintah di seluruh dunia untuk mengamankan pertahanan perangkat lunak mereka sebelum model AI pada tingkat ini tersedia secara luas bagi penyerang. Anthropic pertama kali merilis Mythos kepada mitra industri di bawah konsorsium bernama Project Glasswing, dengan gagasan bahwa hal ini dapat memberikan para anggota langkah awal dalam mempersiapkan sistem mereka sendiri dan mempertimbangkan solusi global terhadap ancaman tersebut sebelum dirilis secara lebih luas.

Antropik menulis dalam sebuah memperbarui tentang Project Glasswing minggu lalu: “Kami bekerja secepat yang kami bisa untuk melepaskan kemampuan tingkat Mythos dalam akses umum dengan aman. Untuk melakukan hal ini, kami memerlukan perlindungan yang sangat kuat untuk mencegah penyalahgunaan kemampuan siber model ini—perlindungan yang belum kami (dan, sepengetahuan kami, semua pengembang AI lainnya) kembangkan.”

Anthropic mengatakan Claude Fable 5—dinamai berdasarkan bentuk sastranya, seperti model Haiku, Soneta, dan Opus yang sudah ada di perusahaan—menawarkan peningkatan kinerja pada rekayasa perangkat lunak dan tugas-tugas yang memerlukan pemahaman visual. Namun performa tambahan itu ada harganya. Claude Fable 5 dan Claude Mythos 5 akan membebani pengembang sebesar $10 per juta token masukan dan $50 per juta token keluaran—dua kali lipat dari model AI Anthropic yang tersedia untuk umum tetapi lebih murah daripada Mythos Preview.

Peluncuran Claude Fable 5 yang disterilkan mengisyaratkan ketegangan bisnis Anthropic yang ingin merilis model AI kelas Mythos untuk penggunaan umum sebelum industri teknologi menyelesaikan masalah keamanan siber model ini. Pada bulan April, OpenAI juga meluncurkan model secara pribadi yang dikatakan memiliki kemampuan keamanan siber yang canggih dan membentuk kelompok kerja yang mirip dengan Project Glasswing. Keduanya OpenAI Dan Antropis telah mengajukan IPO secara rahasia dan berlomba untuk mengesankan calon investor sebelum mereka menjadi perusahaan publik secepatnya pada tahun ini.

Bahkan sebagai solusi sementara, masih harus dilihat seberapa kuat perlindungan Claude Fable 5 di alam liar. Anthropic mengatakan dalam lebih dari 1.000 jam tim merah, pengujinya tidak menemukan jailbreak universal untuk model tersebut. Namun, kekhawatiran mengenai kemampuan untuk mengembangkan perlindungan yang memadai menjadi dasar pembenaran awal perusahaan mengapa mereka tidak merilis model kelas Mythos ke publik pada bulan April, dan ketakutan ini tampaknya telah menjadi kenyataan. bertahan.

Post Views: 5

Read Also