Model AI baru Deepseek memicu kejutan, kekaguman, dan pertanyaan dari pesaing AS

Harga sebenarnya dari pengembangan model baru Deepseek masih belum diketahui, karena satu angka yang dikutip dalam satu makalah penelitian mungkin tidak menangkap gambaran lengkap dari biayanya. “Saya tidak percaya itu $ 6 juta, tetapi bahkan jika itu $ 60 juta, ini adalah pengubah permainan,” kata Umesh Padval, direktur pelaksana Thomvest Ventures, sebuah perusahaan yang telah berinvestasi di Cohere dan perusahaan AI lainnya. “Ini akan memberi tekanan pada profitabilitas perusahaan yang berfokus pada AI konsumen.”

Tak lama setelah Deepseek mengungkapkan rincian model terbarunya, Ghodsi dari Databricks mengatakan pelanggan mulai bertanya apakah mereka dapat menggunakannya serta teknik mendasar Deepseek untuk memotong biaya di organisasi mereka sendiri. Dia menambahkan bahwa satu pendekatan yang digunakan oleh insinyur Deepseek, yang dikenal sebagai distilasi, yang melibatkan penggunaan output dari satu model bahasa besar untuk melatih model lain, relatif murah dan mudah.

Padval mengatakan bahwa keberadaan model seperti Deepseek pada akhirnya akan menguntungkan perusahaan yang ingin menghabiskan lebih sedikit untuk AI, tetapi ia mengatakan bahwa banyak perusahaan mungkin memiliki keraguan tentang mengandalkan model Cina untuk tugas -tugas sensitif. Sejauh ini, setidaknya satu perusahaan AI terkemuka, kebingungan, memiliki diumumkan secara publik Ini menggunakan model R1 Deepseek, tetapi dikatakan di -host “sepenuhnya independen dari Cina.”

Amjad Massad, CEO Replit, startup yang menyediakan alat pengkodean AI, mengatakan kepada Wired bahwa menurutnya model terbaru Deepseek mengesankan. Meskipun ia masih menemukan model soneta Anthropic lebih baik di banyak tugas teknik komputer, ia telah menemukan bahwa R1 sangat baik dalam mengubah perintah teks menjadi kode yang dapat dieksekusi di komputer. “Kami sedang menjelajahi menggunakannya terutama untuk penalaran agen,” tambahnya.

Dua penawaran terbaru Deepseek-Deepseek R1 dan Deepseek R1-Zero-mampu melakukan penalaran simulasi yang sama dengan sistem paling canggih dari Openai dan Google. Mereka semua bekerja dengan memecah masalah menjadi bagian -bagian konstituen untuk menanganinya secara lebih efektif, suatu proses yang membutuhkan sejumlah besar pelatihan tambahan untuk memastikan bahwa AI dengan andal mencapai jawaban yang benar.

A kertas Diposting oleh para peneliti Deepseek minggu lalu menguraikan pendekatan yang digunakan perusahaan untuk membuat model R1 -nya, yang diklaim dilakukan pada beberapa tolok ukur tentang serta model penalaran inovatif Openai yang dikenal sebagai O1. Taktik Deepseek yang digunakan mencakup metode yang lebih otomatis untuk mempelajari cara menyelesaikan masalah dengan benar serta strategi untuk mentransfer keterampilan dari model yang lebih besar ke yang lebih kecil.

Salah satu topik terpanas dari spekulasi tentang Deepseek adalah perangkat keras yang mungkin digunakannya. Pertanyaannya sangat penting karena pemerintah AS telah memperkenalkan serangkaian Kontrol Ekspor dan pembatasan perdagangan lainnya selama beberapa tahun terakhir yang bertujuan membatasi kemampuan China untuk memperoleh dan memproduksi chip mutakhir yang diperlukan untuk membangun AI canggih.

Di sebuah Makalah Penelitian Dari Agustus 2024, Deepseek mengindikasikan bahwa ia memiliki akses ke sekelompok 10.000 chip NVIDIA A100, yang ditempatkan di bawah kami pembatasan diumumkan pada Oktober 2022. Dalam a kertas terpisah Dari Juni tahun itu, Deepseek menyatakan bahwa model sebelumnya yang diciptakan disebut Deepseek-V2 dikembangkan menggunakan kelompok chip komputer NVIDIA H800, komponen yang kurang mampu dikembangkan oleh NVIDIA untuk mematuhi kontrol ekspor AS.

Sebuah sumber di satu perusahaan AI yang melatih model AI besar, yang meminta untuk menjadi anonim untuk melindungi hubungan profesional mereka, memperkirakan bahwa Deepseek kemungkinan menggunakan sekitar 50.000 chip NVIDIA untuk membangun teknologinya.

Nvidia menolak berkomentar langsung tentang chip -chip yang mungkin diandalkan oleh chip -nya. “Deepseek adalah kemajuan AI yang sangat baik,” kata juru bicara NVIDIA dalam sebuah pernyataan, menambahkan bahwa pendekatan penalaran startup “membutuhkan sejumlah besar GPU NVIDIA dan jaringan kinerja tinggi.”

Namun model Deepseek dibangun, mereka tampaknya menunjukkan bahwa pendekatan yang kurang tertutup untuk mengembangkan AI adalah mendapatkan momentum. Pada bulan Desember, Clem Delangue, CEO Huggingface, sebuah platform yang menjadi tuan rumah model kecerdasan buatan, memperkirakan itu Sebuah perusahaan Cina akan memimpin dalam AI karena kecepatan inovasi yang terjadi dalam model open source, yang sebagian besar dianut oleh Cina. “Ini berjalan lebih cepat dari yang saya kira,” katanya.

Post Views: 82

Read Also