Mengapa semua orang panik tentang Deepseek

Butuh waktu sekitar satu bulan bagi dunia keuangan untuk mulai panik tentang Deepseek, tetapi ketika itu terjadi, butuh, butuh waktu lebih dari setengah triliun dolar – atau satu seluruh stargate – Mati kapitalisasi pasar Nvidia. Bukan hanya Nvidia, juga: Tesla, Google, Amazon, dan Microsoft Tanked.

Dua model AI Deepseek, dirilis secara berurutan, Letakkan setara dengan yang terbaik yang tersedia dari American Labsmenurut Alexandr Wang, CEO skala AI. Dan Deepseek tampaknya bekerja dalam kendala yang berarti dilatih jauh lebih murah daripada rekan -rekan Amerika. Salah satu model terbarunya dikatakan hanya menelan biaya hanya $ 5,6 juta dalam pelatihan akhir, yaitu tentang gaji yang dapat diperintahkan oleh ahli AI Amerika. Tahun lalu, CEO Antropik Dario Amodei mengatakan biaya model pelatihan berkisar antara $ 100 juta hingga $ 1 miliar. Biaya GPT-4 Openai lebih dari $ 100 jutamenurut CEO Sam Altman. Deepseek tampaknya baru saja menaikkan gagasan kami tentang berapa banyak biaya AI, dengan implikasi yang berpotensi besar di seluruh industri.

Ini semua terjadi hanya dalam beberapa minggu. Pada Hari Natal, Deepseek merilis model penalaran (V3) yang menyebabkan banyak buzz. Model keduanya, R1, dirilis minggu lalu, telah disebut “salah satu terobosan paling menakjubkan dan mengesankan yang pernah saya lihat” oleh Marc AndreessenVC dan penasihat Presiden Donald Trump. Kemajuan dari model Deepseek menunjukkan bahwa “perlombaan AI akan sangat kompetitif,” kata Trump’s AI dan Crypto Czar David Sacks. Kedua model sebagian open source, dikurangi data pelatihan.

Keberhasilan Deepseek mempertanyakan apakah miliaran dolar dalam komputasi sebenarnya diperlukan untuk memenangkan perlombaan AI. Kebijaksanaan konvensional adalah bahwa teknologi besar akan mendominasi AI hanya karena memiliki uang tunai cadangan untuk mengejar uang muka. Sekarang, sepertinya teknologi besar hanya menyalakan uang saat terbakar. Mencari tahu seberapa banyak modelnya Sebenarnya Biaya sedikit rumit karena, seperti yang ditunjukkan oleh Wang AI, Deepseek mungkin tidak dapat berbicara dengan jujur tentang jenis apa dan berapa banyak GPU yang dimilikinya – sebagai hasil dari sanksi.

Bahkan jika para kritikus benar dan Deepseek tidak jujur tentang apa yang dimilikinya (Matematika serbet menyarankan Teknik optimasi yang digunakan berarti mereka jujur), tidak akan lama bagi komunitas open-source untuk mengetahuinya, menurut kepala penelitian yang memeluk Face, Leandro von Werra. Timnya mulai bekerja selama akhir pekan untuk mereplikasi dan sumber terbuka resep R1, dan begitu para peneliti dapat membuat versi model mereka sendiri, “Kami akan mengetahuinya dengan cukup cepat jika angka bertambah.”

Apa itu Deepseek?

Dipimpin oleh CEO Liang Wenfeng, Deepseek yang berusia dua tahun adalah startup AI utama China. Itu diputar dari dana lindung nilai yang didirikan oleh Insinyur dari Universitas Zhejiang dan fokus pada “inovasi arsitektur dan algoritmik yang berpotensi mengubah permainan” untuk membangun intelijen umum buatan (AGI)-atau setidaknya, Itulah yang dikatakan Liang. Tidak seperti Openai, ia juga mengklaim menguntungkan.

Pada tahun 2021, Liang mulai membeli ribuan NVIDIA GPU (tepat sebelum AS menempatkan sanksi pada chip) dan meluncurkan Deepseek pada tahun 2023 dengan tujuan “Jelajahi esensi AGI,” atau AI itu sama cerdasnya dengan manusia. Liang mengikuti banyak poin pembicaraan tinggi yang sama dengan CEO Openai Altman dan pemimpin industri lainnya. “Tujuan kami adalah AGI,” Liang dikatakan Dalam sebuah wawancara, “yang berarti kita perlu mempelajari struktur model baru untuk mewujudkan kemampuan model yang lebih kuat dengan sumber daya yang terbatas.”

Jadi, itulah yang dilakukan Deepseek. Dengan beberapa pendekatan teknis inovatif yang memungkinkan modelnya berjalan lebih efisien, tim mengklaim pelatihan terakhirnya dengan biaya R1 $ 5,6 juta. Itu Pengurangan biaya 95 persen Dari O1 O1. Alih-alih memulai dari awal, Deepseek membangun AI-nya dengan menggunakan model sumber terbuka yang ada sebagai titik awal-khususnya, para peneliti menggunakan model Llama Meta sebagai fondasi. Sementara bauran data pelatihan perusahaan tidak diungkapkan, Deepseek menyebutkan itu menggunakan data sintetis, atau informasi yang dihasilkan secara artifisial (yang mungkin menjadi lebih penting karena laboratorium AI tampaknya menabrak dinding data).

Tanpa data pelatihan, tidak jelas berapa banyak “salinan” ini dari O1

Tanpa data pelatihan, tidak jelas berapa banyak “salinan” ini dari O1 – apakah Deepseek menggunakan O1 untuk melatih R1? Sekitar waktu kertas pertama dirilis pada bulan Desember, Altman diposting Bahwa “itu (relatif) mudah untuk menyalin sesuatu yang Anda tahu berfungsi” dan “sangat sulit untuk melakukan sesuatu yang baru, berisiko, dan sulit ketika Anda tidak tahu apakah itu akan berhasil.” Jadi klaimnya adalah bahwa Deepseek tidak akan membuat model perbatasan baru; Ini hanya akan mereplikasi model lama. Investor Openai Joshua Kushner juga sepertinya mengatakan Deepseek “dilatih dari model perbatasan AS terkemuka.”

R1 menggunakan dua trik optimasi utama, mantan peneliti kebijakan Openai Miles Brundage mengatakan The Verge: Pembelajaran pra-pelatihan dan penguatan yang lebih efisien pada penalaran rantai-dipikirkan. Deepseek menemukan cara yang lebih pintar untuk menggunakan GPU yang lebih murah untuk melatih AI-nya, dan bagian dari apa yang membantu adalah menggunakan teknik baru untuk mewajibkan AI untuk “berpikir” langkah demi langkah melalui masalah menggunakan coba-coba (pembelajaran penguatan) alih-alih menyalin manusia . Kombinasi ini memungkinkan model untuk mencapai kinerja level O1 sambil menggunakan daya dan uang yang jauh lebih sedikit.

“Deepseek V3 dan juga Deepseek V2 Sebelumnya itu pada dasarnya adalah model yang sama dengan GPT-4, tetapi hanya dengan trik rekayasa yang lebih pintar untuk mendapatkan lebih banyak uang dalam hal GPU,” kata Brundage.

Untuk lebih jelasnya, laboratorium lain menggunakan teknik-teknik ini (Deepseek menggunakan “campuran ahli,” yang hanya mengaktifkan bagian dari model untuk pertanyaan tertentu. GPT-4 juga melakukan itu). Versi Deepseek berinovasi pada konsep ini Dengan menciptakan kategori ahli yang lebih baik dan mengembangkan cara yang lebih efisien bagi mereka untuk berkomunikasi, yang membuat proses pelatihan itu sendiri lebih efisien. Tim Deepseek juga mengembangkan sesuatu yang disebut Deepseekmla (perhatian laten multi-kepala), yang secara dramatis mengurangi memori yang diperlukan untuk menjalankan model AI dengan menekan bagaimana model menyimpan dan mengambil informasi.

Apa yang mengejutkan dunia bukan hanya arsitektur yang mengarah pada model-model ini tetapi fakta bahwa ia dapat dengan cepat mereplikasi pencapaian Openai dalam beberapa bulan, daripada kesenjangan tahun-plus yang biasanya terlihat antara kemajuan AI utama, tambah Brundage.

Openai memposisikan dirinya sebagai unik yang mampu membangun AI canggih, dan citra publik ini baru saja memenangkan dukungan investor untuk membangun infrastruktur pusat data AI terbesar di dunia. Tetapi replikasi cepat Deepseek menunjukkan bahwa keunggulan teknis tidak bertahan lama – bahkan ketika perusahaan mencoba merahasiakan metode mereka.

“Perusahaan yang bersumber dekat ini, sampai taraf tertentu, mereka jelas hidup dari orang -orang yang berpikir mereka melakukan hal -hal terbesar dan itulah cara mereka dapat mempertahankan penilaian mereka. Dan mungkin mereka sedikit berlebihan untuk mengumpulkan lebih banyak uang atau membangun lebih banyak proyek, ”kata Von Werra. “Apakah mereka secara berlebihan apa yang mereka miliki secara internal, tidak ada yang tahu, jelas itu untuk keuntungan mereka.”

Pembicaraan uang

Komunitas investasi telah Delusi Bullish di ai untuk beberapa waktu sekarang – Cukup banyak sejak Openai merilis chatgpt pada tahun 2022. Pertanyaannya lebih sedikit apakah kita berada di gelembung AI dan banyak lagi, “Apakah gelembung benar -benar bagus?” (“Gelembung mendapatkan konotasi negatif yang tidak adil”Tulis Deepwater Asset Management, pada tahun 2023.)

Tidak jelas bahwa investor memahami cara kerja AI, tetapi mereka mengharapkannya untuk memberikan, minimum, penghematan biaya luas. Dua pertiga investor yang disurvei oleh PWC mengharapkan keuntungan produktivitas dari AI generatif, dan jumlah yang sama mengharapkan peningkatan laba juga, Menurut laporan Desember 2024.

Perusahaan publik yang paling mendapat manfaat dari siklus hype adalah Nvidia, yang membuat chips canggih perusahaan AI digunakan. Idenya adalah bahwa, dalam AI Gold Rush, membeli saham Nvidia berinvestasi di perusahaan yang membuat sekop. Tidak peduli siapa yang keluar dominan dalam perlombaan AI, mereka membutuhkan persediaan chip Nvidia untuk menjalankan model. Pada tanggal 27 Desember, saham ditutup pada $ 137,01 – hampir 10 kali lipat dari saham NVIDIA pada awal Januari 2023.

Keberhasilan Deepseek membatalkan teori investasi yang mendorong Nvidia ke harga tinggi. Jika perusahaan memang menggunakan chip lebih efisien – daripada hanya membeli lebih banyak chip – perusahaan lain akan mulai melakukan hal yang sama. Itu mungkin berarti lebih sedikit pasar untuk chip paling canggih Nvidia, karena perusahaan mencoba memotong pengeluaran mereka.

“Harapan pertumbuhan Nvidia jelas sedikit ‘optimis’ jadi saya melihat ini sebagai reaksi yang diperlukan,” kata Naveen Rao, VP Databricks AI. “Pendapatan saat ini yang dibuat NVIDIA tidak mungkin berada di bawah ancaman; Tetapi pertumbuhan besar -besaran yang dialami selama beberapa tahun terakhir adalah. ”

Nvidia bukan satu -satunya perusahaan yang didorong oleh tesis investasi ini. Seven yang luar biasa – Nvidia, Meta, Amazon, Tesla, Apple, Microsoft, dan Alphabet – mengungguli seluruh pasar pada tahun 2023, menggembungkan nilai sebesar 75 persen. Mereka melanjutkan menjalankan banteng yang mengejutkan ini pada tahun 2024, dengan setiap perusahaan kecuali Microsoft mengungguli indeks S&P 500. Dari jumlah tersebut, hanya apel dan meta yang tidak tersentuh oleh kekalahan yang berhubungan dengan Deepseek.

Kegemaran itu belum terbatas pada pasar publik. Startup seperti antropik dan openai juga telah mencapai penilaian yang memusingkan – $ 157 miliar Dan $ 60 miliarmasing -masing – seperti yang dimiliki VC Dumped Money ke sektor ini. Profitabilitas belum menjadi perhatian sebanyak itu. Openai diharapkan kehilangan $ 5 miliar pada tahun 2024meskipun diperkirakan pendapatan $ 3,7 miliar.

Keberhasilan Deepseek menunjukkan bahwa hanya memercikkan banyak uang tidak sama pelindungnya seperti yang dipikirkan banyak perusahaan dan investor. Ini mengisyaratkan startup kecil bisa jauh lebih kompetitif dengan raksasa – bahkan mengganggu para pemimpin yang dikenal melalui inovasi teknis. Jadi, sementara itu adalah berita buruk bagi anak -anak besar, mungkin itu kabar baik bagi startup AI kecil, terutama karena modelnya adalah open source.

Sama seperti Bull Run setidaknya sebagian psikologis, aksi jual mungkin juga. Von Werra dari Hugging Face berpendapat bahwa model pelatihan yang lebih murah tidak akan benar -benar mengurangi permintaan GPU. “Jika Anda dapat membangun model yang sangat kuat dalam skala yang lebih kecil, mengapa Anda tidak lagi meningkatkannya?” dia bertanya. “Hal alami yang Anda lakukan adalah Anda mencari cara melakukan sesuatu yang lebih murah, mengapa tidak meningkatkannya dan membangun versi yang lebih mahal yang bahkan lebih baik.”

Optimalisasi sebagai suatu keharusan

Tapi Deepseek tidak hanya mengguncang lanskap investasi – itu juga merupakan tembakan yang jelas melintasi busur AS oleh China. Kemajuan yang dibuat oleh model Deepseek menunjukkan bahwa Cina dapat mengejar dengan mudah ke teknologi canggih AS, bahkan dengan kontrol ekspor di tempat.

Kontrol ekspor pada chip canggih, yang dimulai dengan sungguh-sungguh pada Oktober 2023, relatif baru, dan efek penuh mereka belum terasamenurut pakar Rand Lennart Heim dan Sihao Huang, seorang kandidat PhD di Oxford yang berspesialisasi dalam kebijakan industri.

AS dan Cina mengambil pendekatan yang berlawanan. Sementara Deepseek China menunjukkan Anda dapat berinovasi melalui optimalisasi meskipun ada komputasi terbatas, AS bertaruh besar pada kekuatan mentah – seperti yang terlihat dalam proyek Stargate Altman senilai $ 500 miliar dengan Trump.

“Model penalaran seperti Deepseek R1 membutuhkan banyak GPU untuk digunakan, seperti yang ditunjukkan oleh Deepseek dengan cepat mengalami masalah dalam melayani lebih banyak pengguna dengan aplikasi mereka,” kata Brundage. “Mengingat ini dan fakta bahwa meningkatkan pembelajaran penguatan akan membuat Model Deepseek bahkan lebih kuat dari sebelumnya, lebih penting dari sebelumnya bagi AS untuk memiliki kontrol ekspor yang efektif pada GPU. “

Bagi yang lain, rasanya seperti kontrol ekspor menjadi bumerang: alih -alih memperlambat China, mereka memaksa inovasi

Chatbot Deepseek telah melonjak melewati chatgpt di peringkat App Store, tetapi ia datang dengan peringatan yang serius. Startup di Cina diharuskan untuk mengirimkan set data 5.000 hingga 10.000 pertanyaan yang akan ditolak model tersebut, kira -kira setengahnya berkaitan dengan ideologi politik dan kritik terhadap Partai Komunis, Itu Wall Street Journal dilaporkan. Aplikasi Blok Diskusi topik sensitif seperti demokrasi Taiwan dan Tiananmen Square, sementara Data Pengguna mengalir ke server di Cina – Meningkatkan masalah sensor dan privasi.

Ada Beberapa orang yang skeptis Prestasi Deepseek itu dilakukan dengan cara yang dijelaskan. “Kami mempertanyakan gagasan bahwa prestasi dilakukan tanpa menggunakan GPU canggih untuk menyempurnakannya dan/atau membangun LLM yang mendasari model akhir,” kata analis Citi, Atif Malik dalam catatan penelitian. “Tampaknya salah kategoris bahwa ‘China duplikat OpenAi seharga $ 5 juta’ dan kami tidak berpikir itu benar -benar menanggung diskusi lebih lanjut,” kata analis Bernstein Stacy Rasgon dalam catatannya sendiri.

Bagi yang lain, rasanya seperti kontrol ekspor menjadi bumerang: alih -alih memperlambat China, mereka memaksa inovasi. Sementara AS membatasi akses ke chip canggih, perusahaan Cina seperti Deepseek dan Qwen Alibaba menemukan solusi kreatif-mengoptimalkan teknik pelatihan dan memanfaatkan teknologi open-source sambil mengembangkan chip mereka sendiri.

Tidak diragukan lagi seseorang akan ingin tahu apa artinya ini bagi AGI, yang dipahami oleh para ahli AI yang paling kejam sebagai pitch pie-in-the-sky yang dimaksudkan untuk merayu modal. (Pada bulan Desember, Altman Openai terutama menurunkan standar untuk apa yang dihitung sebagai AGI dari sesuatu yang dapat “mengangkat kemanusiaan” menjadi sesuatu yang akan “jauh lebih sedikit” daripada yang dipikirkan orang.) Karena pengawasan AI masih cukup banyak imajinatif, sulit untuk mengetahui apakah itu mungkin – bahkan mungkin – apalagi sesuatu Deepseek telah membuat langkah yang masuk akal. Dalam hal ini, logo paus memeriksa; Ini adalah industri yang penuh dengan ahab. Game akhir di AI masih dugaan siapa pun.

Para pemimpin AI masa depan meminta

AI telah menjadi kisah yang berlebihan: pusat data yang mengonsumsi energi pada skala negara-negara kecil, pelatihan miliaran dolar berjalan, dan narasi bahwa hanya raksasa teknologi yang dapat memainkan game ini. Bagi banyak orang, rasanya seperti Deepseek membuat ide itu terpisah.

Meskipun mungkin tampak bahwa model seperti Deepseek, dengan mengurangi biaya pelatihan, dapat menyelesaikan AI yang hancur lingkungan – sayangnya tidak sesederhana itu. Baik Brundage dan Von Werra setuju bahwa sumber daya yang lebih efisien perusahaan cenderung menggunakan lebih banyak komputasi untuk mendapatkan model yang lebih baik. Von Werra juga mengatakan ini berarti startup yang lebih kecil dan peneliti akan dapat dengan lebih mudah mengakses model terbaik, sehingga kebutuhan untuk komputasi hanya akan meningkat.

Penggunaan data sintetis Deepseek juga tidak revolusioner, meskipun itu menunjukkan bahwa mungkin bagi AI Labs untuk menciptakan sesuatu yang berguna tanpa merampok seluruh internet. Tetapi kerusakan itu telah terjadi; Hanya ada satu internet, dan sudah melatih model yang akan menjadi dasar bagi generasi berikutnya. Data sintetis bukanlah solusi lengkap untuk menemukan lebih banyak data pelatihan, tetapi ini adalah pendekatan yang menjanjikan.

Hal terpenting yang dilakukan Deepseek adalah sederhana: menjadi lebih murah. Anda tidak harus secara teknis cenderung memahami bahwa alat AI yang kuat mungkin akan segera jauh lebih terjangkau. Para pemimpin AI telah berjanji bahwa kemajuan akan terjadi dengan cepat. Salah satu perubahan yang mungkin adalah seseorang sekarang dapat membuat model perbatasan di garasi mereka.

Perlombaan untuk AGI sebagian besar imajiner. Namun, uang cukup nyata. Deepseek telah secara komandan menunjukkan bahwa uang saja bukan yang menempatkan perusahaan di puncak lapangan. Implikasi jangka panjang untuk itu dapat membentuk kembali industri AI seperti yang kita ketahui.

Post Views: 96

Apa itu Deepseek?

Pembicaraan uang

Optimalisasi sebagai suatu keharusan

Para pemimpin AI masa depan meminta

Read Also