Elon, berhentilah mencoba mewujudkan Grok

Ada kenyataan pahit tentang chatbot AI Grok yang “mencari kebenaran” dari Elon Musk: Ini tidak terlalu bagus, dan tidak banyak orang yang menggunakannya. Itulah kesimpulan dari hal baru Reuters laporanyang menemukan bahwa Grok hampir tidak muncul dalam catatan federal tentang bagaimana pemerintah AS menggunakan AI tahun lalu. Ini bukan satu-satunya tanda bahwa chatbot khas xAI sedang bermasalah, meskipun Musk menyatakannya sebagai inti masalah. IPO terbesar dalam sejarah.

Reuters meninjau lebih dari 400 contoh penggunaan AI oleh pemerintah yang menyebutkan nama vendor tertentu. Grok atau xAI, ditemukan, hanya muncul dalam tiga aplikasi — masing-masing untuk penggunaan dasar seperti penyusunan dokumen atau manajemen media sosial, dan selalu berdampingan dengan pesaing seperti Microsoft dan OpenAI. Sebagai perbandingan, model OpenAI muncul di lebih dari 230 contoh, sementara Google dan Anthropic masing-masing muncul puluhan kali.

Pola serupa muncul di database proyek AI pemerintah yang lebih ambisius dengan jumlah pengguna yang lebih sedikit. Grok muncul hanya tiga kali: dua kali untuk tugas administratif rutin di Komisi Bantuan Pemilu, dan sekali dalam uji coba Departemen Energi di Laboratorium Nasional Lawrence Livermore untuk ringkasan dokumen dan penelitian umum. Reuters menemukan 140 entri yang melibatkan Microsoft dan OpenAI, sementara tinjauan singkat saya menemukan setidaknya 10 entri untuk Anthropic dan lusinan untuk Google Gemini.

Daftar tersebut merupakan ukuran adopsi pemerintah yang tidak lengkap dan tidak merata. Masih banyak lagi contoh yang dicantumkan tanpa vendor tertentu, dan jelas bahwa tidak ada definisi universal tentang apa yang dianggap sebagai AI. Data tersebut juga tidak mencakup badan intelijen atau Pentagon – tempat xAI mengamankan a kontrak $200 juta tahun lalu dan baru-baru ini diizinkan beroperasi pada jaringan rahasia setelah daftar hitam Anthropic.

Tetap saja, itu tidak terlihat bagus untuk Grok. Ia muncul jauh lebih sedikit dibandingkan para pesaingnya, dan ketika ia muncul, sebagian besarnya adalah untuk pekerjaan dasar admin — hampir tidak sesuai dengan model terdepan kelas dunia yang telah dibanggakan Musk selama bertahun-tahun.

Ini “hanya bukan model terbaik yang ada.”

Orang yang diajak bicara Reuters menyarankan penjelasannya sederhana: Grok tidak sebaik para pesaingnya. Ini “hanya bukan model terbaik yang ada,” kata sumber Pentagon yang tidak disebutkan namanya, seraya menambahkan bahwa staf di sana cenderung lebih memilih Gemini atau Claude. Papan peringkat publik memberi peringkat model AI memberi bobot pada pandangan itu. Anthropic, Google, dan OpenAI mendominasi peringkat teratas, sementara Grok jarang masuk 10 besar di luar kategori gambar atau video.

Itu aneh bagi Musk, dan bahkan lebih canggung lagi bagi SpaceX terserap xAI awal tahun ini. IPO perusahaan roket itu pengarsipan menunjukkan bahwa perusahaan telah menempatkan AI – dan khususnya Grok – sebagai inti promosinya kepada investor. SpaceX mengklaim telah mengidentifikasi “total pasar terbesar yang dapat ditindaklanjuti dalam sejarah umat manusia”: peluang luar biasa senilai $28,5 triliun, namun sayangnya, SpaceX tidak memberikan jadwal pasti untuk mencapainya. Praktisnya, semua perkiraan nilai ini berasal dari AI, khususnya AI perusahaan, bukan roket atau satelit.

Reuters mencatat bahwa kinerja Grok di lembaga-lembaga pemerintah juga dapat memberi petunjuk seberapa baik kinerjanya di tempat kerja lain. Sebagai bagian dari dorongan xAI untuk pelanggan perusahaan, Musk telah melakukannya dilaporkan bank-bank yang bersenjata kuat untuk membeli langganan Grok jika mereka ingin berpartisipasi dalam IPO SpaceX — tetapi jika mereka tidak mendapatkan hasil yang sepadan, kesepakatan ini dapat menjadi solusi jangka pendek.

Seolah-olah kinerjanya yang suram tidak cukup canggung, Musk baru-baru ini mengakuinya bahwa xAI telah menggunakan model OpenAI untuk membantu melatih dan meningkatkan Grok. Prosesnya, yang disebut penyulingan, merupakan standar ketika perusahaan menggunakan model mereka sendiri, namun jauh lebih kontroversial jika melibatkan penggunaan sistem pesaing. Grok bahkan tidak bisa mengalahkan model yang dilatihnya.

Dalam versi konsumennya yang berhubungan dengan publik, Grok sengaja dibuat tidak menyenangkan. Musk mencap chatbot sebagai alternatif yang tidak terlalu bias dan tidak terlalu tersensor dibandingkan alat seperti ChatGPT, namun hal ini diterjemahkan menjadi produk dengan standar pembuktian yang longgar, dan obsesi yang tidak sehat terhadap Muskdan rekam jejak panjang atas hasil-hasil yang menyinggung, penuh konspirasi, dan bersifat seksual. Sekalipun pagar pembatas di tempat kerja berbeda, hal ini mungkin tidak akan diterima oleh dunia usaha. Rekor Grok yang termasyhur meliputi memuji Adolf Hitlermenimbulkan keraguan mengenai jumlah korban tewas Holocaust, plesteran jutaan tanpa persetujuan diseksualisasikan palsu seluruh X, termasuk yang dari anak-anakdan memberi daya pada a tiruan Wikipedia yang rasis dan transfobia Dan pacar anime pedas. Dan janganlah kita melupakan waktu yang disebutnya “MechaHitler.” Jika Grok adalah karyawan manusia, saya rasa HR tidak butuh waktu lama untuk terlibat.

SpaceX tampaknya memahami masalahnya. Dalam pengajuannya, perusahaan tersebut memperingatkan bahwa mode “pedas” atau “tidak terkendali” yang dilakukan Grok membawa “risiko yang lebih tinggi,” termasuk kerusakan reputasi, pengawasan peraturan, dan tuntutan hukum. Dalam pembicaraan korporat: Chatbot ini akan membuat kita dituntut.

Dalam pembicaraan korporat: Chatbot ini akan membuat kita dituntut.

Grok mengambil namanya dari nama Robert A. Heinlein Orang Asing di Negeri Asingdimana secara kasar berarti pemahaman yang dalam dan mendalam terhadap sesuatu. Hal yang perlu dipahami di sini tidak terlalu rumit: Musk telah menghabiskan miliaran dolar untuk membangun chatbot yang tidak terlalu bagus, tidak terlalu populer, dan entah bagaimana menjadi kunci untuk membenarkan penilaian astronomi SpaceX. Semoga beruntung dengan itu.

Ikuti topik dan penulis dari cerita ini untuk melihat lebih banyak hal serupa di feed beranda hasil personalisasi Anda dan untuk menerima pembaruan email.

Robert Hart

Post Views: 28

Read Also