Ini adalah kekacauan yang membingungkan untuk membandingkan sup alfabet dari model AI

Sam Altman — Semakin sulit untuk membandingkan model AI. Michael M. Santiago/Getty Images

Example 300x600 — Semakin sulit untuk membandingkan model AI. Michael M. Santiago/Getty Images

Ada banyak model AI, dan mungkin sulit untuk mengetahui mana yang terbaik.
Perusahaan teknologi sering menggunakan “tolok ukur” untuk mengukur bagaimana kinerja model AI.
Tetapi pengamat industri menjadi semakin waspada terhadap keandalan benchmark.

Sulit untuk memilih AI terbaik untuk membantu Anda dalam pekerjaan dan kehidupan. Bagaimana dengan GPT-4O, 4.5, 4.1, O1, O1-Pro, O3-Mini, atau O3-Mini-tinggi? Jika bukan Openai, Anda dapat menggunakan salah satu dari banyak model yang dikeluarkan oleh Meta, Google, atau Antropik.

Tahun ini telah melihat setidaknya selusin rilis model dari perusahaan AI besar, dan bisa membingungkan untuk menguraikan yang benar -benar memiliki keunggulan kompetitif. Pengembang dari sebagian besar rilis tersebut mengklaim AI mereka memiliki hasil “tolok ukur” yang unggul dalam beberapa cara.

Tetapi cara membandingkan mereka telah menghadapi kekhawatiran bahwa mereka mungkin tidak ketat atau dapat diandalkan.

Awal bulan ini, Meta merilis dua model baru dalam keluarga Llama yang katanya memberikan “hasil yang lebih baik” daripada model ukuran sebanding dari Google dan Mistral. Namun, Meta kemudian menghadapi tuduhan bahwa ia telah menonjol.

Lmarena, tolok ukur AI yang dipilih oleh pengguna Crowdsources pada kinerja model, mengatakan bahwa meta “seharusnya membuatnya lebih jelas” bahwa mereka telah mengirimkan versi Llama 4 Maverick yang telah “disesuaikan” untuk berkinerja lebih baik untuk format pengujiannya.

“Interpretasi Meta terhadap kebijakan kami tidak cocok dengan apa yang kami harapkan dari penyedia model,” kata Lmarena dalam sebuah X POST.

Seorang juru bicara meta mengatakan kepada Business Insider bahwa “‘llama-4-maverick-03-26-eksperimental’ adalah versi yang dioptimalkan obrolan yang kami coba yang juga berkinerja baik di Lmarena.”

Mereka menambahkan: “Kami sekarang telah merilis versi open source kami dan akan melihat bagaimana pengembang menyesuaikan llama 4 untuk kasus penggunaan mereka sendiri.”

Kami telah melihat pertanyaan dari komunitas tentang rilis terbaru Llama-4 di Arena. Untuk memastikan transparansi penuh, kami merilis 2.000+ hasil pertempuran head-to-head untuk tinjauan publik. Ini termasuk petunjuk pengguna, respons model, dan preferensi pengguna. (tautan di tweet berikutnya)
Lebih awal…

– lmarena.ai (sebelumnya lmsys.org) (@lmarena_ai) 8 April 2025

Masalah Benchmark

Saga ini berbicara tentang masalah yang lebih luas yang dimiliki industri AI dengan tolok ukur.

Perusahaan menghabiskan miliaran dolar untuk mengembangkan AI memiliki banyak mengendarai model yang merilis yang lebih kuat daripada yang terakhir, yang merupakan ilmuwan kognitif dan Peneliti AI Gary Marcus mengatakan bisa menjadi masalah.

“Saat ini, dengan banyak uang bertumpu pada kinerja pada tolok ukur, menjadi sangat menggoda bagi perusahaan teknologi besar untuk membuat data pelatihan yang ‘mengajarkan ke tes,’ dan kemudian tolok ukur cenderung kehilangan lebih banyak validitas,” Marcus, yang telah mengkritik area industri AI yang ia lihat sebagai overhyped, mengatakan kepada BI.

Ada juga pertanyaan apakah tolok ukur mengukur hal -hal yang benar.

Dalam makalah Februari berjudul “Bisakah kita mempercayai tolok ukur AI? Tinjauan interdisipliner tentang masalah saat ini dalam evaluasi AI,” Peneliti di Pusat Penelitian Bersama Komisi Eropa menyimpulkan bahwa ada masalah besar dalam pendekatan saat ini.

Para peneliti mengatakan ada “kelemahan sistemik dalam praktik pembandingan saat ini,” yang “secara fundamental dibentuk oleh dinamika budaya, komersial dan kompetitif yang sering memprioritaskan kinerja canggih dengan mengorbankan masalah sosial yang lebih luas.”

Demikian pula, Dean Valentine, Cofounder dan CEO AI Security Startup Zeropath, mengatakan posting blog Maret bahwa “Kemajuan model AI baru -baru ini terasa seperti omong kosong. “

Dalam jabatannya, Valentine mengatakan bahwa ia dan timnya telah mengevaluasi kinerja berbagai model yang mengklaim memiliki “semacam peningkatan” sejak rilis 3,5 soneta Anthropic pada Juni 2024.

Tak satu pun dari model baru yang dicoba timnya telah membuat “perbedaan yang signifikan” dalam tolok ukur internal perusahaannya atau dalam kemampuan pengembang untuk menemukan bug baru, katanya. Mereka mungkin “lebih menyenangkan untuk diajak bicara,” tambahnya, tetapi mereka “tidak mencerminkan kegunaan ekonomi atau umum.”

Seperti yang ia katakan, “Jika industri tidak dapat mengetahui cara mengukur bahkan kemampuan intelektual model sekarang, sementara mereka sebagian besar terbatas pada ruang obrolan,” sulit untuk melihat bagaimana AI yang lebih kompleks dapat diukur secara akurat di masa depan.

Tolok ukur bisa menjadi ‘kompas yang baik’

Nathan Habib, seorang insinyur pembelajaran mesin di Hugging Face, mengatakan kepada BI bahwa masalah dengan banyak tolok ukur gaya arena adalah bahwa mereka condong ke preferensi manusia melalui suara crowdsourced, yang berarti “Anda dapat mengoptimalkan model Anda untuk kesukaan daripada kemampuan.”

“Agar tolok ukur untuk benar-benar melayani masyarakat, kami membutuhkan beberapa perlindungan: data terkini, hasil yang dapat direproduksi, evaluasi pihak ketiga yang netral, dan perlindungan terhadap kontaminasi jawaban,” kata Habib, menunjuk ke Benchmark Gaia sebagai contoh alat yang melakukan ini.

Dia menambahkan bahwa bahkan jika tolok ukur tidak sempurna, “Mereka masih kompas yang baik dari mana kita harus pergi.”

Menurut Marcus, tidak ada perbaikan segera. “Membuat tes yang sangat baik itu sulit, dan menjaga orang -orang dari permainan tes itu bisa lebih sulit,” katanya kepada BI.

Dia mengatakan bahwa banyak tes mencoba mengukur “pemahaman bahasa,” tetapi “ternyata Anda dapat memalsukan banyak tes ini dengan menghafal banyak hal, tanpa memiliki pemahaman yang mendalam tentang bahasa sama sekali.”

Marcus menambahkan, “Risiko langsungnya adalah bahwa pelanggan diberitahu bahwa sistem baru lebih baik dan menghabiskan banyak uang untuk premis itu.”

Jadi, bagaimana seharusnya seseorang menavigasi dunia model AI yang luas? Bagaimana Anda bisa tahu apa yang lebih baik dari Deepseek-R1, Deepseek-V3, Claude 3.5 Haiku, atau Claude 3.7 sonnet?

“Ketika datang untuk memilih model yang tepat di antara klaim ‘canggih’ yang tak terhitung jumlahnya, ingatlah bahwa model terbaik bukanlah yang memenangkan setiap tolok ukur; itu yang memecahkan masalah spesifik Anda dengan elegan,” kata Clémentine Fourrier, seorang ilmuwan riset AI di Face, mengatakan kepada BI.

“Jangan mengejar model dengan skor tertinggi; mengejar model yang skor tertinggi pada apa yang penting bagi Anda,” katanya