Claude 4 Benchmarks menunjukkan peningkatan, tetapi konteks masih 200k

Hari ini, Openai Rival Anthropic mengumumkan model Claude 4, yang secara signifikan lebih baik daripada Claude 3 dalam tolok ukur, tetapi kami kecewa dengan batas jendela konteks 200.000 yang sama.

Dalam sebuah posting blog, Anthropic mengatakan Claude Opus 4 adalah model perusahaan yang paling kuat, dan itu juga model terbaik untuk pengkodean di industri.

Misalnya, di SWE-Bench (SWE adalah kependekan dari Benchmark Rekayasa Perangkat Lunak), Claude Opus 4 mencetak 72,5 persen dan 43,2 di terminal-bench.

“Ini memberikan kinerja yang berkelanjutan pada tugas yang sudah berjalan lama yang membutuhkan upaya terfokus dan ribuan langkah, dengan kemampuan untuk bekerja terus menerus selama beberapa jam, secara dramatis mengungguli semua model soneta dan secara signifikan memperluas apa yang dapat dicapai oleh agen AI,” antropik dicatat.

Sementara tolok ukur menempatkan Claude 4 Sonnet dan Opus di depan para pendahulunya dan pesaing seperti Gemini 2.5 Pro dalam pengkodean, kami masih khawatir tentang batas jendela konteks 200.000 model.

Ini bisa menjadi salah satu alasan mengapa model Claude 4 unggul dalam pengkodean dan tugas pemecahan kompleks dalam tolok ukur ini, karena model ini tidak diuji terhadap konteks yang besar.

Sebagai perbandingan, Google’s Gemini 2.5 Pro mengirim dengan jendela konteks 1 juta token dan dukungan untuk jendela konteks 2 juta juga ada dalam karya.

Model 4.1 ChatGPT juga menawarkan hingga satu juta jendela konteks.

Model	Keterangan	Masukan	Caching Prompt menulis	Caching cepat dibaca	Keluaran	Jendela konteks	Diskon pemrosesan batch
Tutup kerja 4	Model paling cerdas untuk tugas -tugas kompleks	$ 15 / mbok	$ 18,75 / mbok	$ 1,50 / mbok	$ 75 / mbok	200k	Diskon 50% dengan pemrosesan batch
Claude Sonnet 4	Keseimbangan intelijen, biaya, dan kecepatan yang optimal	$ 3 / mbok	$ 3,75 / mbok	$ 0,30 / mbok	$ 15 / mbok	200k	Diskon 50% dengan pemrosesan batch

Claude masih tertinggal di belakang kompetisi ketika datang ke jendela konteks, yang penting dalam proyek besar.

Post Views: 112

Read Also