Networking

Claude 4 Benchmarks menunjukkan peningkatan, tetapi konteks masih 200k

112
claude-4-benchmarks-menunjukkan-peningkatan,-tetapi-konteks-masih-200k
Claude 4 Benchmarks menunjukkan peningkatan, tetapi konteks masih 200k

Hari ini, Openai Rival Anthropic mengumumkan model Claude 4, yang secara signifikan lebih baik daripada Claude 3 dalam tolok ukur, tetapi kami kecewa dengan batas jendela konteks 200.000 yang sama.

Dalam sebuah posting blog, Anthropic mengatakan Claude Opus 4 adalah model perusahaan yang paling kuat, dan itu juga model terbaik untuk pengkodean di industri.

Misalnya, di SWE-Bench (SWE adalah kependekan dari Benchmark Rekayasa Perangkat Lunak), Claude Opus 4 mencetak 72,5 persen dan 43,2 di terminal-bench.

“Ini memberikan kinerja yang berkelanjutan pada tugas yang sudah berjalan lama yang membutuhkan upaya terfokus dan ribuan langkah, dengan kemampuan untuk bekerja terus menerus selama beberapa jam, secara dramatis mengungguli semua model soneta dan secara signifikan memperluas apa yang dapat dicapai oleh agen AI,” antropik dicatat.

Sementara tolok ukur menempatkan Claude 4 Sonnet dan Opus di depan para pendahulunya dan pesaing seperti Gemini 2.5 Pro dalam pengkodean, kami masih khawatir tentang batas jendela konteks 200.000 model.

Ini bisa menjadi salah satu alasan mengapa model Claude 4 unggul dalam pengkodean dan tugas pemecahan kompleks dalam tolok ukur ini, karena model ini tidak diuji terhadap konteks yang besar.

Sebagai perbandingan, Google’s Gemini 2.5 Pro mengirim dengan jendela konteks 1 juta token dan dukungan untuk jendela konteks 2 juta juga ada dalam karya.

Model 4.1 ChatGPT juga menawarkan hingga satu juta jendela konteks.

Model Keterangan Masukan Caching Prompt menulis Caching cepat dibaca Keluaran Jendela konteks Diskon pemrosesan batch
Tutup kerja 4 Model paling cerdas untuk tugas -tugas kompleks $ 15 / mbok $ 18,75 / mbok $ 1,50 / mbok $ 75 / mbok 200k Diskon 50% dengan pemrosesan batch
Claude Sonnet 4 Keseimbangan intelijen, biaya, dan kecepatan yang optimal $ 3 / mbok $ 3,75 / mbok $ 0,30 / mbok $ 15 / mbok 200k Diskon 50% dengan pemrosesan batch

Claude masih tertinggal di belakang kompetisi ketika datang ke jendela konteks, yang penting dalam proyek besar.

Exit mobile version