Model DeepSeek yang lebih murah dan chip yang lebih lemah mempertanyakan triliunan belanja infrastruktur AI

Model DeepSeek Tiongkok menantang perusahaan AI AS dengan kinerja yang hemat biaya dan efisien.
Model DeepSeek 20-40 kali lebih murah dibandingkan OpenAI, menggunakan perangkat keras sederhana.
Efisiensi DeepSeek menimbulkan pertanyaan tentang investasi AS pada infrastruktur AI.

Itu kejutan besar yaitu DeepSeek Tiongkok model ini telah menghidupkan ekosistem AI.

Model-model tersebut berperforma tinggi, relatif murah, dan efisien dalam komputasi, sehingga membuat banyak orang beranggapan bahwa model-model tersebut menimbulkan ancaman nyata bagi perusahaan-perusahaan Amerika seperti OpenAI Dan Meta — dan triliunan dolar yang digunakan untuk membangun, meningkatkan, dan meningkatkan infrastruktur AI AS.

Harga model sumber terbuka DeepSeek kompetitif — 20 hingga 40 kali lebih murah untuk dijalankan dibandingkan model serupa dari OpenAI, menurut analis Bernstein.

Namun elemen yang berpotensi lebih menegangkan dalam persamaan DeepSeek untuk model buatan AS adalah tumpukan perangkat keras yang relatif sederhana yang digunakan untuk membangunnya.

Model DeepSeek-V3, yang paling sebanding dengan ChatGPT OpenAI, dilatih pada cluster 2.048 GPU Nvidia H800, menurut laporan teknis yang diterbitkan oleh perusahaan.

H800an adalah versi pertama dari chip perusahaan yang dikalahkan untuk pasar Cina. Setelah peraturan diubah, perusahaan kembali membuat chip yang dikalahkan, yaitu H20 untuk mematuhi perubahan tersebut.

Meskipun hal ini tidak selalu terjadi, chip merupakan biaya yang paling besar dalam persamaan pelatihan model bahasa yang besar. Dipaksa menggunakan chip yang kurang bertenaga dan lebih murah, menciptakan kendala yang tampaknya telah diatasi oleh tim DeepSeek.

“Inovasi dalam keterbatasan membutuhkan kejeniusan,” kata Sri Ambati, CEO platform AI sumber terbuka H2O.ai kepada Business Insider.

Bahkan pada perangkat keras di bawah standar, pelatihan DeepSeek-V3 memakan waktu kurang dari dua bulan, menurut laporan tersebut.

Keuntungan efisiensi

DeepSeek-V3 relatif kecil dibandingkan kemampuannya dan memiliki 671 miliar parameter, sedangkan ChatGpt-4 memiliki 1,76 triliun, sehingga lebih mudah dijalankan. Namun hal ini masih mencapai standar pemahaman yang mengesankan.

Ukurannya yang lebih kecil sebagian berasal dari arsitektur berbeda dengan ChatGPT yang disebut “campuran para ahli”. Model ini memiliki sejumlah keahlian bawaan, yang akan beraksi ketika dibutuhkan dan tidak aktif ketika tidak relevan dengan kueri. Model jenis ini semakin populer dan keunggulan DeepSeek adalah model ini membangun versi yang sangat efisien dari arsitektur yang pada dasarnya efisien.

“Seseorang membuat analogi ini: Ini hampir seperti seseorang merilis iPhone seharga $20,” kata CEO Foundry Jared Quincy Davis kepada BI.

Model Tiongkok menggunakan waktu yang lebih singkat, jumlah chip yang lebih sedikit, dan cluster chip yang lebih kecil kemampuannya dan lebih murah. Pada dasarnya, ini adalah model yang jauh lebih murah dan mampu bersaing sehingga perusahaan tersebut memberikannya secara gratis.

Model yang lebih memprihatinkan dari perspektif kompetitif, menurut Bernstein adalah DeepSeek-R1, yang merupakan model penalaran dan lebih sebanding dengan o1 atau o3 OpenAI. Model ini menggunakan teknik penalaran untuk menginterogasi tanggapan dan pemikirannya sendiri. Hasilnya bersaing dengan model penalaran terbaru OpenAI.

R1 dibangun di atas V3 dan makalah penelitian yang dirilis bersamaan dengan model yang lebih canggih tidak menyertakan informasi tentang tumpukan perangkat keras di belakangnya. Namun, DeepSeek menggunakan strategi seperti membuat data pelatihannya sendiri untuk melatih R1, yang memerlukan lebih banyak komputasi dibandingkan menggunakan data yang diambil dari internet atau dihasilkan oleh manusia.

Teknik ini sering disebut sebagai “distilasi” dan menjadi praktik standar, kata Ambati.

Namun, penyulingan menimbulkan kontroversi lain. Sebuah perusahaan yang menggunakan modelnya sendiri untuk menghasilkan model yang lebih cerdas dan lebih kecil adalah satu hal. Namun legalitas penggunaan model perusahaan lain untuk menyaring produk baru bergantung pada perizinan.

Namun, teknik DeepSeek lebih berulang dan kemungkinan besar akan segera digunakan oleh industri AI.

Selama bertahun-tahun, pengembang model dan perusahaan rintisan berfokus pada model yang lebih kecil karena ukurannya membuat model tersebut lebih murah untuk dibuat dan dioperasikan. Pemikirannya adalah bahwa model kecil akan melayani tugas-tugas tertentu. Namun apa yang ditunjukkan oleh DeepSeek dan o3 mini OpenAI adalah bahwa model kecil juga bisa menjadi generalis.

Ini belum berakhir

Koalisi pemain termasuk Oracle dan OpenAI, dengan kerja sama dari Gedung Putih, mengumumkan Stargate, a Proyek pusat data senilai $500 miliar di Texas — yang terbaru dalam proses konversi skala besar yang panjang dan cepat menuju komputasi yang dipercepat. Kejutan dari DeepSeek membuat investasi tersebut dipertanyakan, dan sebagai hasilnya, Nvidia, yang merupakan penerima manfaat terbesar, berada dalam keadaan yang tidak menentu. Saham perusahaan anjlok lebih dari 13% pada hari Senin.

Namun Bernstein mengatakan tanggapan yang diberikan tidak sesuai dengan kenyataan.

“DeepSeek TIDAK ‘membangun OpenAI seharga $5 juta’,” tulis analis Bernstein dalam catatan investor hari Senin. Kepanikan, terutama pada “X” tidak proporsional, tulis para analis.

Makalah penelitian DeepSeek sendiri tentang V3 menjelaskan: “biaya yang disebutkan di atas hanya mencakup pelatihan resmi DeepSeek-V3, tidak termasuk biaya yang terkait dengan penelitian sebelumnya dan eksperimen ablasi pada arsitektur, algoritma, atau data.” Jadi angka $5 juta hanyalah contoh kecil dari persamaan tersebut.

“Model-modelnya tampak fantastis tetapi menurut kami itu bukan keajaiban,” lanjut Bernstein. Pekan lalu Tiongkok juga mengumumkan investasi sekitar $140 miliar pada pusat data, sebagai tanda bahwa infrastruktur masih diperlukan meskipun ada pencapaian DeepSeek.

Persaingan untuk mendapatkan supremasi model sangat ketat, dan keunggulan OpenAI mungkin memang dipertanyakan. Namun permintaan chip tidak menunjukkan tanda-tanda melambat, menurut Bernstein. Para pemimpin teknologi kembali ke pepatah ekonomi berusia berabad-abad untuk menjelaskan momen ini.

Paradoks Jevon adalah gagasan bahwa inovasi menghasilkan permintaan. Ketika teknologi menjadi lebih murah atau efisien, permintaan meningkat jauh lebih cepat daripada penurunan harga. Hal itulah yang didukung oleh penyedia daya komputasi seperti Davis selama bertahun-tahun. Minggu ini, Bernstein dan CEO Microsoft Satya Nadella juga mengambil peran tersebut.

“Paradoks Jevon muncul lagi!” Nadella memposting pada X Senin pagi. “Ketika AI menjadi lebih efisien dan mudah diakses, kita akan melihat penggunaannya meroket, menjadikannya komoditas yang tidak dapat kita penuhi,” lanjutnya.

Post Views: 87

Keuntungan efisiensi

Ini belum berakhir

Read Also