Antropik Claude 3.7 Sonnet ada di sini dan hasilnya gila

Antropik

Antropik telah mulai meluncurkan Claude 3.7 Sonnet, model paling canggih perusahaan dan model penalaran hibrida pertama yang telah dikirimnya.

Tes awal menunjukkan bahwa Claude 3.7 Sonnet mengungguli saingannya, termasuk model chatgpt Openai dan Deepseek China.

Di sebuah Posting BlogAnthropic mencatat bahwa model terbarunya menggabungkan jawaban yang cepat dan langsung dengan kemampuan untuk “berpikir” langkah demi langkah untuk tugas-tugas kompleks. Ini membuat model Claude 3.7 terbaik untuk pemrograman, dan klaim ini didukung oleh tolok ukur.

Menurut tes benchmark yang disebut “Rekayasa Perangkat Lunak (SWE-Bench diverifikasi),” Claude 3.7 soneta berada di atas dengan akurasi sekitar 62%, yang naik hingga 70% saat menggunakan “perancah” tes-waktu tambahan.

Model yang bersaing, termasuk Varian Claude 3.5 Sonnet dan Openai, duduk lebih dekat ke kisaran 50%.

“Software Engineering (SWE-Bench Verified)” adalah standar tolok ukur untuk melihat seberapa baik model AI ketika diminta untuk mengkode program.

Hasil ini menunjukkan bahwa Claude 3.7 Sonnet secara signifikan di depan para pesaingnya dalam hal pengkodean.

Momen agi untuk beberapa pengguna

Pengguna juga mengklaim bahwa hasilnya gila.

Misalnya, di utas, Pengguna Reddit mencatat Bahwa model memberikan hasil yang luar biasa ketika mereka menggunakannya untuk membuat aplikasi atau bahkan game.

“Kode Claude adalah ‘Feel the Agi Moment.’ Saya telah melemparkan bug pada hal ini yang tidak dapat diperbaiki oleh model lain, tetapi kode Claude meledak melalui mereka, “seorang pengguna menulis di utas Reddit.

Pengguna lain menambahkan: “3.7 baru saja menampar seluruh proyek yang telah saya kerjakan selama berbulan-bulan-5000 baris kode, front-end, contoh debugging, semuanya dari awal. Itu tidak berhenti sampai pekerjaan selesai. “

Selain itu, Claude 3.7 Sonnet tampaknya unggul di sebagian besar kategori, dengan mode “pemikiran yang diperluas” meningkatkan akurasi pada tugas -tugas seperti matematika dan sains.

Model lain, seperti Openai’s 0,1 dan Deepseek R1, jejak di belakang banyak tes ini.

Post Views: 89

Momen agi untuk beberapa pengguna

Read Also