Nvidia bertaruh besar pada data sintetis

NVIDIA telah mengakuisisi perusahaan data sintetis Gretel untuk sembilan angka, menurut dua orang dengan pengetahuan langsung tentang kesepakatan tersebut.

Harga akuisisi melebihi penilaian terbaru Gretel sebesar $ 320 juta, sumber mengatakan, meskipun persyaratan yang tepat dari pembelian masih belum diketahui. Gretel dan timnya yang terdiri dari sekitar 80 karyawan akan dilipat ke NVIDIA, di mana teknologinya akan digunakan sebagai bagian dari rangkaian raksasa chip yang berkembang dari layanan AI generatif berbasis cloud untuk pengembang.

Akuisisi ini datang karena NVIDIA telah meluncurkan alat pembuatan data sintetis, sehingga pengembang dapat melatih model AI mereka sendiri dan menyempurnakannya untuk aplikasi tertentu. Secara teori, data sintetis dapat membuat pasokan data pelatihan AI yang hampir tak terbatas dan membantu memecahkan masalah kelangkaan data yang telah menjulang di industri AI sejak ChatGPT menjadi arus utama pada tahun 2022-meskipun para ahli mengatakan menggunakan data sintetis dalam AI generatif hadir dengan risiko sendiri.

Seorang juru bicara NVIDIA menolak berkomentar.

Gretel didirikan pada tahun 2019 oleh Alex Watson, John Myers, dan Ali Golshan, yang juga menjabat sebagai CEO. Startup ini menawarkan platform data sintetis dan serangkaian API untuk pengembang yang ingin membangun model AI generatif, tetapi tidak memiliki akses ke data pelatihan yang cukup atau memiliki masalah privasi di sekitar menggunakan data orang nyata. Gretel tidak membangun dan melisensikan model AI perbatasannya sendiri, tetapi menyempurnakan model open source yang ada untuk menambahkan fitur privasi dan keselamatan diferensial, kemudian mengemasnya bersama-sama untuk menjualnya. Perusahaan mengumpulkan lebih dari $ 67 juta dalam pendanaan modal ventura sebelum akuisisi, menurut Pitchbook.

Seorang juru bicara untuk Gretel juga menolak berkomentar.

Tidak seperti data yang dihasilkan manusia atau dunia nyata, data sintetis dihasilkan komputer dan dirancang untuk meniru data dunia nyata. Para pendukung mengatakan ini membuat pembuatan data yang diperlukan untuk membangun model AI lebih terukur, kurang padat karya, dan lebih mudah diakses oleh pengembang AI yang lebih kecil atau kurang sumber daya. Privacy-Protection adalah titik penjualan utama lain dari data sintetis, menjadikannya pilihan yang menarik bagi penyedia layanan kesehatan, bank, dan lembaga pemerintah.

NVIDIA telah menawarkan alat data sintetis untuk pengembang selama bertahun -tahun. Pada tahun 2022 ia meluncurkan Omniverse Replicator, yang memberi pengembang kemampuan untuk menghasilkan data 3D sintetis, akurat secara fisik, untuk melatih jaringan saraf. Juni lalu, NVIDIA mulai meluncurkan keluarga model AI terbuka yang menghasilkan data pelatihan sintetis untuk digunakan pengembang dalam membangun atau menyempurnakan LLMS. Disebut Nemotron-4 340b, model mini ini dapat digunakan oleh pengembang untuk menggabungkan data sintetis untuk LLM mereka sendiri di “perawatan kesehatan, keuangan, manufaktur, ritel, dan setiap industri lainnya.”

Selama presentasi keynote di Konferensi Pengembang Tahunan NVIDIA pada hari Selasa ini, salah satu pendiri dan kepala eksekutif NVIDIA Jensen Huang berbicara tentang tantangan yang dihadapi industri dalam penskalaan AI dengan cepat dengan cara yang hemat biaya.

“Ada tiga masalah yang kami fokuskan,” katanya. “Bagaimana Anda menyelesaikan masalah data? Huang melanjutkan untuk menggambarkan bagaimana perusahaan sekarang menggunakan pembuatan data sintetis dalam platform robotika.

Data sintetis dapat digunakan dalam setidaknya beberapa cara yang berbeda, kata Ana-Maria Cretu, seorang peneliti postdoctoral di École Polytechnique Fédérale de Lausanne di Swiss, yang mempelajari privasi data sintetis. Ini dapat mengambil bentuk data tabel, seperti data demografis atau medis, yang dapat memecahkan masalah kelangkaan data atau membuat dataset yang lebih beragam.

Cretu memberikan contoh: Jika sebuah rumah sakit ingin membangun model AI untuk melacak jenis kanker tertentu, tetapi bekerja dengan set data kecil dari 1.000 pasien, data sintetis dapat digunakan untuk mengisi kumpulan data, menghilangkan bias, dan menganonimkan data dari manusia sejati. “Ini juga menawarkan beberapa perlindungan privasi, setiap kali Anda tidak dapat mengungkapkan data nyata kepada pemangku kepentingan atau mitra perangkat lunak,” kata Cretu.

Tetapi di dunia model bahasa besar, Cretu menambahkan, data sintetis juga menjadi semacam fase catchall untuk “Bagaimana kita bisa meningkatkan jumlah data yang kita miliki untuk LLM dari waktu ke waktu?”

Para ahli khawatir bahwa, di masa depan yang tidak terlalu jauh, perusahaan AI tidak akan dapat dengan bebas pada data internet yang dibuat manusia untuk melatih model AI mereka. Tahun laluLaporan dari Inisiatif Provenance Data MIT menunjukkan bahwa pembatasan di sekitar konten web terbuka meningkat.

Data sintetis secara teori dapat memberikan solusi yang mudah. Tetapi artikel Juli 2024 di Nature disorot Bagaimana model bahasa AI bisa “runtuh,” atau menurunkan kualitas secara signifikan, ketika mereka disesuaikan berulang kali dengan data yang dihasilkan oleh model lain. Dengan kata lain, jika Anda tidak memberi mesin apa pun selain output yang dihasilkan mesin sendiri, secara teoritis mulai memakan dirinya sendiri, memuntahkan detritus sebagai hasilnya.

Alexandr Wang, kepala eksekutif skala AI – yang sangat bersandar pada tenaga kerja manusia untuk memberi label data yang digunakan untuk melatih model –berbagi temuan Dari artikel alam tentang X, menulis, “Sementara banyak peneliti saat ini memandang data sintetis sebagai batu filsuf AI, tidak ada makan siang gratis.” Wang kemudian mengatakan di utas bahwa inilah sebabnya ia percaya dengan kuat dalam pendekatan data hibrida.

Salah satu pendiri Gretel mendorong kembali ke kertas alam, mencatat di posting blog Bahwa “skenario ekstrem” pelatihan berulang tentang data murni sintetis “tidak mewakili praktik pengembangan AI dunia nyata.”

Gary Marcus, seorang ilmuwan kognitif dan peneliti yang dengan keras mengkritik AI hype, berkata saat itu Bahwa dia setuju dengan “diagnosis Wang tetapi bukan resepnya.” Industri ini akan bergerak maju, ia percaya, dengan mengembangkan arsitektur baru untuk model AI, daripada berfokus pada keistimewaan set data. Dalam email ke Wired, Marcus mengamati bahwa “sistem seperti [OpenAI’s] O1/O3 tampaknya lebih baik di domain seperti pengkodean dan matematika di mana Anda dapat menghasilkan – dan memvalidasi – konster data sintetis. Pada tujuan umum penalaran di domain terbuka, mereka kurang efektif. “

Cretu percaya teori ilmiah seputar keruntuhan model adalah suara. Tetapi dia mencatat bahwa sebagian besar peneliti dan ilmuwan komputer melatih campuran data sintetis dan dunia nyata. “Anda mungkin dapat mengatasi keruntuhan model dengan memiliki data baru dengan setiap putaran pelatihan baru,” katanya.

Kekhawatiran tentang keruntuhan model belum menghentikan industri AI dari melompat ke atas kereta data sintetis, bahkan jika mereka melakukannya dengan hati -hati. Pada konferensi teknologi Morgan Stanley baru -baru ini, Sam Altman dilaporkan Mengembangkan kemampuan Openai untuk menggunakan model AI yang ada untuk membuat lebih banyak data. CEO Antropik Dario Amodei sudah berkata Dia percaya mungkin untuk membangun “mesin generasi data yang tak terbatas,” yang akan mempertahankan kualitasnya dengan menyuntikkan sejumlah kecil informasi baru selama proses pelatihan (seperti yang disarankan Cretu).

Teknologi besar juga telah beralih ke data sintetis. Meta telah berbicara tentang bagaimana melatihnya Llama 3, model bahasa besar yang canggih, menggunakan data sintetisbeberapa di antaranya dihasilkan dari model meta sebelumnya, llama 2. Amazon Platform Bedrock Memungkinkan pengembang menggunakan Claude Anthropic untuk menghasilkan data sintetis. Model bahasa kecil Microsoft PHI-3 dilatih sebagian pada data sintetis, meskipun perusahaan telah memperingatkan bahwa “data sintetis yang dihasilkan oleh model bahasa besar yang sudah terlatih kadang-kadang dapat mengurangi akurasi dan meningkatkan bias pada tugas down-stream. ” DeepMind Google juga menggunakan data sintetis menyoroti kompleksitas mengembangkan pipa untuk menghasilkan – dan memelihara – data sintetis pribadi.

“Kami tahu bahwa semua perusahaan teknologi besar sedang mengerjakan beberapa aspek data sintetis,” kata Alex Bestall, pendiri Hak Hak, sebuah startup lisensi musik yang juga menghasilkan musik AI dan melisensikan katalognya untuk model AI. “Tetapi data manusia sering kali merupakan persyaratan kontrak dalam kesepakatan kami. Mereka mungkin menginginkan dataset yang 60 persen dihasilkan manusia, dan 40 persen sintetis.”

Post Views: 64

Read Also