Xai mempekerjakan pekerja pertunjukan untuk meningkatkan grok di papan peringkat AI dan 'mengalahkan' Claude Anthropic dalam pengkodean

Elon Musk mengatakan Grok 4 “bekerja lebih baik daripada kursor” dalam memperbaiki kode. Anadolu

XAI menyewa kontraktor untuk membantu Grok memanjat papan peringkat AI yang populer dengan tujuan menyalip antropik.
Dokumen pelatihan menunjukkan Xai ingin “mengalahkan Sonnet 3.7 Extended,” saingan pengkodean Anthropic.
Papan peringkat AI telah menjadi medan pertempuran utama bagi laboratorium mengejar pengaruh dan investasi.

Perusahaan teknologi sangat bersaing untuk membangun alat pengkodean AI terbaik – dan untuk XAI, saingan teratas yang dikalahkan tampaknya antropik.

Perusahaan AI Elon Musk menggunakan kontraktor untuk melatih Grok pada tugas -tugas pengkodean dengan tujuan menduduki puncak papan peringkat AI yang populer, dan secara eksplisit mengatakan kepada mereka bahwa mereka ingin mengungguli Antropik Alat Claude 3.7 SonnetDokumen yang diperoleh oleh Business Insider Show.

Para kontraktor, yang disewa melalui platform outlier skala AI, ditugaskan sebuah proyek untuk peringkat “Hillclimb” Grok di Webdev Arena, papan peringkat yang berpengaruh dari Lmarena yang mengadu model AI satu sama lain dalam tantangan pengembangan web, dengan pengguna memilih pemenang.

“Kami ingin menjadikan model in-Task sebagai model #1” untuk Lmarena, membaca satu skala AI onboarding doc yang aktif pada awal Juli, menurut salah satu kontraktor yang mengerjakan proyek tersebut. Kontraktor diberitahu untuk menghasilkan dan memperbaiki kode front-end untuk permintaan antarmuka pengguna untuk “mengalahkan Sonnet 3.7 Extended,” referensi untuk model Claude Anthropic.

XAI tidak membalas permintaan BI untuk komentar.

Dengan tidak adanya standar yang disepakati secara universal, peringkat papan peringkat dan skor benchmark telah menjadi papan skor tidak resmi industri AI.

Untuk laboratorium seperti Openai dan Anthropic, menduduki peringkat ini dapat membantu menarik pendanaan, pelanggan baru, kontrak yang menguntungkan, dan perhatian media.

Claude Anthropic, yang memiliki banyak model, dianggap sebagai salah satu pemain terkemuka untuk pengkodean AI dan secara konsisten berada di dekat bagian atas banyak papan peringkat, seringkali di samping Google dan Openai.

Pendiri Antropik Benn Mann berkata pada “No Priors” siniar Bulan lalu bahwa perusahaan lain telah menyatakan “kode merah” untuk mencoba mencocokkan kemampuan pengkodean Claude, dan dia terkejut bahwa model lain tidak menyusul. Pesaing seperti meta menggunakan Alat pengkodean Anthropic secara internal, BI dilaporkan sebelumnya.

Dasbor skala AI dan instruksi proyek tidak menentukan versi grok mana yang dilatih, meskipun digunakan beberapa hari sebelum model terbaru, Grok 4, keluar pada 9 Juli.

Pada hari Selasa, Lmarena memberi peringkat Grok 4 Tempat ke -12 untuk pengembangan web. Model dari antropik berada di peringkat bersama pertama, ketiga, dan keempat.

Sehari setelah peluncuran Grok 4, Musk diposting Pada X mengklaim bahwa model baru “berfungsi lebih baik daripada kursor” dalam memperbaiki kode, merujuk pada alat pengembang yang dibantu AI yang populer.

Anda dapat memotong & menempelkan seluruh file kode sumber Anda ke dalam kotak entri kueri di https://t.co/eqiifyhflo Dan @Grok 4 akan memperbaikinya untuk Anda!
Inilah yang semua orang @xai melakukan. Bekerja lebih baik daripada kursor.

– Elon Musk (@elonmusk) 10 Juli 2025

Dalam komentar ke BI, skala AI mengatakan itu tidak overfit model dengan melatih mereka langsung pada set tes. Perusahaan mengatakan tidak pernah menyalin atau menggunakan kembali data tolok ukur publik untuk pelatihan model bahasa besar dan mengatakan kepada BI bahwa mereka terlibat dalam “proyek pembuatan data standar menggunakan sinyal publik untuk menutup kesenjangan kinerja yang diketahui.”

Anastasios Angelopoulos, CEO Lmarena, mengatakan kepada BI bahwa sementara dia tidak mengetahui proyek skala spesifik, mempekerjakan kontraktor untuk membantu model AI memanjat papan peringkat publik adalah praktik industri standar.

“Ini adalah bagian dari alur kerja standar pelatihan model. Anda perlu mengumpulkan data untuk meningkatkan model Anda,” kata Angelopoulos, menambahkan bahwa itu “tidak hanya melakukannya dengan baik dalam pengembangan web, tetapi dalam tolok ukur apa pun.”

Perlombaan untuk dominasi papan peringkat

Fokus industri pada papan peringkat AI dapat mendorong persaingan yang intens – dan tidak selalu adil -.

Sara Hooker, kepala lab cohere dan salah satu penulis “Ilusi papan peringkat“Sebuah makalah yang diterbitkan oleh para peneliti dari universitas termasuk MIT dan Stanford, mengatakan kepada BI bahwa” ketika papan peringkat penting untuk seluruh ekosistem, insentif diselaraskan agar dapat diubah. “

Pada bulan April, setelah Model Meta Calls 4 Ditembak ke tempat kedua di LM Arena, pengembang memperhatikan bahwa varian model yang digunakan meta untuk pembandingan publik berbeda dari versi yang dirilis ke publik. Ini memicu tuduhan dari peneliti AI Meta itu sedang bermain gaming papan peringkat.

Meta membantah klaim tersebut, mengatakan varian yang dimaksud adalah eksperimental dan bahwa mengevaluasi beberapa versi model adalah praktik standar.

Meskipun proyek XAI dengan skala AI meminta kontraktor untuk membantu “Hillclimb” peringkat Lmarena, tidak ada bukti bahwa mereka sedang bermain game papan peringkat.

Dominasi papan peringkat tidak selalu diterjemahkan menjadi kemampuan dunia nyata. Shivalika Singh, penulis koran lainnya, mengatakan kepada BI bahwa “melakukannya dengan baik di arena tidak menghasilkan kinerja yang umumnya yang baik” atau menjamin hasil yang kuat pada tolok ukur lainnya.

Secara keseluruhan, GROK 4 berada di peringkat tiga teratas untuk kategori inti matematika, pengkodean, dan “dorongan keras LMARENA.”

Namun, data awal dari Yupp, papan peringkat crowdsourced baru dan saingan Lmarena, menunjukkan bahwa GROK 4 berada di peringkat 66 dari lebih dari 100 model, menyoroti varian antara papan peringkat.

Nate Jones, seorang ahli strategi AI dan pemimpin produk dengan buletin yang dibacakan secara luas, mengatakan ia menemukan kemampuan aktual Grok yang sering tertinggal di balik hype papan peringkatnya.

“Grok 4 menghancurkan beberapa tolok ukur mencolok, tetapi ketika karet itu bertemu jalan dalam tes saya minggu ini Grok 4 tersandung dengan keras,” tulisnya di dalamnya Substack pada hari Senin. “Saat kami menetapkan dominasi papan peringkat sebagai tujuan, kami berisiko menciptakan model yang unggul dalam latihan sepele dan flounder ketika menghadapi kenyataan.”

Baca selanjutnya

Post Views: 75

Perlombaan untuk dominasi papan peringkat

Baca selanjutnya

Read Also