Pengembang mengatakan GPT-5 adalah tas campuran

Minggu lalu, kapan Openai diluncurkan GPT-5itu memberi tahu para insinyur perangkat lunak bahwa model itu dirancang untuk menjadi “Kolaborator pengkodean sejati“Itu unggul dalam menghasilkan kode berkualitas tinggi dan melakukan tugas perangkat lunak agen, atau otomatis. Sementara perusahaan tidak mengatakan begitu eksplisit, Openai tampaknya mengambil tujuan langsung Kode Claude Antropikyang dengan cepat menjadi alat yang disukai banyak pengembang untuk pengkodean yang dibantu AI.

Tetapi pengembang memberi tahu WIRED bahwa GPT-5 telah menjadi tas campuran sejauh ini. Ini bersinar pada penalaran teknis dan perencanaan tugas pengkodean, tetapi beberapa mengatakan bahwa antropik terbaru Opus dan soneta Model penalaran masih menghasilkan kode yang lebih baik. Bergantung pada versi mana dari pengembang GPT-5 yang digunakan-verbositas rendah, sedang, atau tinggi-modelnya bisa lebih elaboratif, yang kadang-kadang membawanya untuk menghasilkan baris kode yang tidak perlu atau berlebihan.

Beberapa insinyur perangkat lunak juga mengkritik bagaimana OpenAI mengevaluasi kinerja GPT-5 di Coding, dengan alasan bahwa tolok ukur yang digunakannya menyesatkan. Salah satu perusahaan riset yang disebut grafik Openai yang diterbitkan tentang kemampuan GPT-5 adalah “kejahatan bagan.”

GPT-5 memang menonjol dalam setidaknya satu cara: beberapa orang mencatat bahwa, dibandingkan dengan model yang bersaing, ini adalah pilihan yang jauh lebih hemat biaya. “GPT-5 sebagian besar diunggulkan oleh model AI lain dalam tes kami, tetapi sangat murah,” kata Sayash Kapoor, seorang mahasiswa doktoral dan peneliti ilmu komputer di Princeton University yang cowrote buku itu AI Minyak Ular.

Kapoor mengatakan dia dan timnya telah berlari tes benchmark Untuk mengevaluasi kemampuan GPT-5 sejak model ini dirilis ke publik minggu lalu. Dia mencatat bahwa tes standar yang digunakan timnya-mengukur seberapa baik model bahasa dapat menulis kode yang akan mereproduksi hasil dari 45 makalah ilmiah-biaya $ 30 untuk dijalankan dengan GPT-5 diatur ke verbositas medium, atau mid-range. Tes yang sama menggunakan Anthropic’s Opus 4.1 berharga $ 400. Secara total, Kapoor mengatakan timnya telah menghabiskan sekitar $ 20.000 menguji GPT-5 sejauh ini.

Meskipun GPT-5 murah, Kapoor tes Tunjukkan model ini juga kurang akurat daripada beberapa pesaingnya. Model premium Claude mencapai peringkat akurasi 51 persen, diukur dengan berapa banyak makalah ilmiah yang direproduksi secara akurat. Versi menengah GPT-5 menerima peringkat akurasi 27 persen. (Kapoor belum menjalankan tes yang sama menggunakan GPT-5 High, jadi ini merupakan perbandingan tidak langsung, mengingat bahwa Opus 4.1 adalah model antropik yang paling kuat.)

Juru bicara Openai Lindsay McCallum merujuk pada blognya, di mana ia mengatakan bahwa ia melatih GPT-5 pada “tugas pengkodean dunia nyata bekerja sama dengan penguji awal di seluruh startup dan perusahaan.” Perusahaan juga menyoroti beberapa pengukuran akurasi internalnya Untuk GPT-5, yang menunjukkan bahwa model “pemikiran” GPT-5, yang melakukan penalaran yang lebih disengaja, mendapat nilai tertinggi pada akurasi di antara semua model Openai. GPT-5 “utama,” namun, masih kurang dari model yang sebelumnya dirilis pada skala akurasi OpenAI sendiri.

Juru bicara antropik Amie Rotherham mengatakan dalam sebuah pernyataan bahwa “klaim kinerja dan model penetapan harga sering terlihat berbeda begitu pengembang mulai menggunakannya di lingkungan produksi. Karena model penalaran dapat dengan cepat menggunakan banyak token sambil berpikir, industri ini pindah ke dunia di mana harga per hasil lebih dari harga lebih dari harga per token.”

Beberapa pengembang mengatakan mereka memiliki sebagian besar pengalaman positif dengan GPT-5 sejauh ini. Jenny Wang, seorang insinyur, investor, dan pencipta agen penata gaya pribadi Alta, mengatakan kepada Wired bahwa model itu tampaknya lebih baik dalam menyelesaikan tugas -tugas pengkodean yang kompleks dalam satu bidikan daripada model lain. Dia membandingkannya dengan O3 dan 4O Openai, yang sering dia gunakan untuk pembuatan kode dan perbaikan langsung “seperti format, atau jika saya ingin membuat titik akhir API yang mirip dengan apa yang sudah saya miliki,” kata Wang.

Dalam pengujian GPT-5, Wang mengatakan dia meminta model untuk menghasilkan kode untuk halaman pers untuk situs web perusahaannya, termasuk elemen desain spesifik yang akan cocok dengan sisa estetika situs. GPT-5 menyelesaikan tugas dalam satu pengambilan, sedangkan di masa lalu, Wang harus merevisi petunjuknya selama proses. Namun, ada satu kesalahan yang signifikan: “Ini berhalusinasi URL,” kata Wang.

Pengembang lain, yang berbicara dengan syarat anonim karena majikan mereka tidak memberi wewenang kepada mereka untuk berbicara kepada pers, mengatakan GPT-5 unggul dalam memecahkan masalah teknis yang mendalam.

Proyek hobi pengembang saat ini sedang menulis alat analisis jaringan terprogram, yang akan membutuhkan isolasi kode untuk tujuan keamanan. “Saya pada dasarnya mempresentasikan proyek saya dan beberapa jalur yang saya pertimbangkan, dan GPT-5 mengambil semuanya dan memberikan kembali beberapa rekomendasi bersama dengan garis waktu yang realistis,” pengembang menjelaskan. “Saya terkesan.”

Sejumlah mitra dan pelanggan perusahaan Openai, termasuk kursor, windsurf, dan gagasan, telah secara terbuka menjamin keterampilan pengkodean dan penalaran GPT-5. (Openai menyertakan banyak komentar ini dengan sendirinya Posting Blog mengumumkan model baru.) Gagasan juga dibagikan pada x Bahwa itu “cepat, menyeluruh, dan menangani pekerjaan kompleks 15 persen lebih baik daripada model lain yang telah kami uji.”

Tetapi dalam beberapa hari setelah rilis GPT-5, beberapa pengembang menimbang online dengan keluhan. Banyak yang mengatakan bahwa kemampuan pengkodean GPT-5 tampaknya di belakang kurva untuk apa yang seharusnya menjadi model yang canggih dan berkemampuan ultra dari perusahaan AI paling baik di dunia.

“Openai’s GPT-5 sangat bagus, tetapi sepertinya sesuatu yang akan dirilis setahun yang lalu,” kata Kieran Klassen, seorang pengembang yang telah membangun asisten AI untuk kotak masuk email. “Kemampuan pengkodeannya mengingatkan saya pada Sonnet 3.5,” tambahnya, merujuk pada model antropik yang diluncurkan pada Juni 2024.

Amir Salihefendić, pendiri perusahaan startup Doist, kata dalam posting media sosial Bahwa dia telah menggunakan GPT-5 di kursor dan telah menemukannya “cukup underwhelming” dan bahwa “sangat buruk dalam pengkodean.” Dia mengatakan rilis GPT-4 terasa seperti “llama 4 momen,” mengacu pada model AI Meta, yang juga mengecewakan beberapa orang di komunitas AI.

Di X, pengembang McKay Wrigley menulis bahwa GPT-5 adalah “model obrolan sehari-hari yang fenomenal,” tetapi ketika datang ke pengkodean, “Saya masih akan menggunakan kode Claude + Opus.”

Pengembang lain menggambarkan GPT-5 sebagai “lengkap”-pada saat membantu, tetapi seringkali menjengkelkan dalam bentuknya yang panjang. Wang, yang secara keseluruhan senang dengan proyek pengkodean frontend yang dia tetapkan untuk GPT-5, mengatakan bahwa dia memang memperhatikan bahwa model itu “lebih berlebihan. Jelas bisa menghasilkan solusi yang lebih bersih atau lebih pendek.” ;

Itamar Friedman, salah satu pendiri dan CEO platform AI-coding Qodo, percaya bahwa beberapa kritik GPT-5 berasal dari ekspektasi yang berkembang di sekitar rilis model AI. “Saya pikir banyak orang berpikir bahwa GPT-5 akan menjadi momen lain ketika segala sesuatu tentang AI membaik, karena pawai ini menuju AGI. Ketika sebenarnya, model meningkatkan beberapa sub-tugas utama,” katanya.

Friedman menyebut sebelum 2022 sebagai “SM” – sebelum era chatgpt – ketika model AI meningkat secara holistik. Di era pasca-chatgpt, model AI baru seringkali lebih baik dalam hal-hal tertentu. “Claude Sonnet 3.5, misalnya, adalah satu -satunya model untuk menguasai mereka semua pada pengkodean. Dan Google Gemini menjadi sangat pandai dalam tinjauan kode, untuk memeriksa apakah kode berkualitas tinggi,” kata Friedman.

Openai juga mendapatkan panas untuk metodologi yang digunakannya untuk menjalankan tes benchmark dan membuat klaim kinerja tentang GPT-5-meskipun tes benchmark sangat bervariasi di seluruh industri. Semianalisis, sebuah perusahaan riset yang berfokus pada sektor semikonduktor dan AI, dicatat Openai itu hanya berlari 477 dari 500 tes yang biasanya termasuk Swe-benchKerangka kerja industri AI yang relatif baru untuk menguji model bahasa besar. (Ini untuk kinerja keseluruhan model, bukan hanya pengkodean.)

Openai mengatakan bahwa mereka selalu menguji model AI-nya pada subset tetap dari 477 tugas daripada 500 penuh dalam tes B-Bench, karena 477 tes tersebut adalah yang telah divalidasi perusahaan pada infrastruktur internalnya. McCallum juga menunjuk Kartu Sistem GPT-5yang mencatat bahwa perubahan dalam pengaturan verbositas model dapat “mengarah pada variasi dalam kinerja eval.”

Kapoor mengatakan bahwa perusahaan AI Frontier akhirnya menghadapi pertukaran yang sulit. “Ketika pengembang model melatih model baru, mereka juga memperkenalkan kendala baru, dan harus mempertimbangkan banyak faktor: bagaimana pengguna mengharapkan AI berperilaku dan bagaimana kinerjanya pada tugas -tugas tertentu seperti pengkodean agen, semuanya sambil mengelola biaya,” katanya. “Dalam beberapa hal, saya percaya Openai tahu itu tidak akan merusak semua tolok ukur itu, jadi itu membuat sesuatu yang umumnya akan menyenangkan berbagai orang.”

Post Views: 52

Read Also