Google baru saja menembakkan tembakan pertama pertempuran berikutnya dalam perang AI

David Silver (kiri), seorang peneliti AI di Google, mendapat penghargaan untuk karyanya di Alphago. — Peneliti Google AI David Silver (kiri) mendapat penghargaan untuk karyanya di Alphago. Jung Yeon-Je/AFP via Getty Images

Example 300x600 — Peneliti Google AI David Silver (kiri) mendapat penghargaan untuk karyanya di Alphago. Jung Yeon-Je/AFP via Getty Images

Makalah penelitian baru, yang ditulis bersama oleh Google David Silver, baru saja mengusulkan era AI baru yang radikal.
“The Era of Experience” menangani kelangkaan data pelatihan dengan meminta agen AI menghasilkan data mereka sendiri.
Ini mungkin Google Dis Openai dan pendekatan saat ini menggunakan data manusia untuk melatih model AI.

Ada begitu banyak Ai Makalah penelitian akhir -akhir ini, sulit untuk menonjol. Tetapi satu makalah telah menyalakan banyak diskusi di seluruh industri teknologi dalam beberapa hari terakhir.

“Ini adalah hal paling menginspirasi yang pernah saya baca di AI dalam dua tahun terakhir,” kata pendiri startup Suhail Doshi di X akhir pekan ini. Jack ClarkCofounder of Anthropic, menampilkan koran di edisi Seninnya Impor yang Anda miliki Newsletter, yang dibacakan secara ketat oleh ribuan peneliti industri.

Ditulis oleh Google Peneliti David Silver dan Ilmuwan Komputer Kanada Rich Sutton, The kertas Dengan berani mengumumkan era AI baru.

Para penulis mengidentifikasi dua era AI modern sebelumnya. Yang pertama dilambangkan oleh Alphagomodel Google AI yang terkenal belajar memainkan permainan papan “Go” lebih baik daripada manusia pada tahun 2015. Yang kedua adalah yang kami hadapi saat ini, ditentukan oleh Openai Chatgpt.

Silver dan Sutton mengatakan kita sekarang memasuki periode baru yang disebut “Era Pengalaman.”

Grafik dari makalah penelitian “Selamat Datang di Era Pengalaman, ‘oleh David Silver dan Richard Sutton David Silver, Richard Sutton

Bagi saya, ini merupakan upaya baru oleh Google untuk mengatasi salah satu masalah AI yang paling gigih – kelangkaan data pelatihan – Saat bergerak melampaui pendekatan teknologi itu Openai pada dasarnya menang.

Era simulasi

Mari kita mulai dengan era pertama, yang, menurut penulis, adalah “era simulasi.”

Pada periode ini, kira-kira pertengahan 2010-an, para peneliti menggunakan simulasi digital untuk mendapatkan model AI untuk bermain game berulang kali untuk belajar bagaimana tampil seperti manusia. Kita berbicara jutaan dan jutaan permainan, seperti catur, poker, Atari, dan “Gran Turismo,” dimainkan berulang -ulang, dengan imbalan menggantung untuk hasil yang baik – sehingga mengajarkan mesin apa yang baik versus buruk dan memberi insentif kepada mereka untuk mengejar strategi yang lebih baik.

Metode pembelajaran penguatan ini, atau RL, menghasilkan Google’s Alphago. Dan itu juga membantu membuat model Google lain yang disebut Alphazeroyang menemukan strategi baru untuk catur dan “Go,” dan mengubah cara manusia memainkan game -game ini.

Masalah dengan pendekatan ini: mesin yang dilatih dengan cara ini baik pada masalah spesifik dengan imbalan yang ditentukan secara tepat, tetapi tidak bisa mengatasi masalah yang lebih umum dan terbuka dengan imbalan yang tidak jelas, menurut penulis. Jadi, mungkin tidak terlalu penuh AI.

Era Data Manusia

Area berikutnya dimulai oleh makalah Google Research lain yang diterbitkan pada tahun 2017. “Perhatian adalah semua yang Anda butuhkan“Mengusulkan bahwa model AI harus dilatih di pegunungan data yang dibuat manusia dari internet. Hanya dengan mengizinkan mesin untuk memberi” perhatian “untuk semua informasi ini, mereka akan belajar berperilaku seperti manusia dan tampil serta kita pada berbagai tugas yang berbeda.

Ini adalah era yang kita hadapi sekarang, dan telah menghasilkan chatgpt dan sebagian besar model dan alat AI generatif kuat lainnya yang semakin banyak digunakan untuk mengotomatisasi tugas -tugas seperti desain grafis, pembuatan konten, dan pengkodean perangkat lunak.

Kunci dari era ini telah mengumpulkan sebanyak mungkin data berkualitas tinggi, yang dihasilkan manusia, dan menggunakannya dalam pelatihan besar dan komputasi intensif untuk mengilhami model AI dengan pemahaman dunia.

Sementara peneliti Google memulai era data manusia ini, sebagian besar dari orang -orang ini meninggalkan perusahaan dan memulai barang -barang mereka sendiri. Banyak yang pergi ke Openai dan bekerja pada teknologi yang Ultimate memproduksi chatgpt, yang sejauh ini merupakan produk AI generatif paling sukses dalam sejarah. Yang lain kemudian memulai antropik, startup AI generatif terkemuka lainnya yang berjalan Claudechatbot dan agen AI yang kuat.

A Google dis?

Banyak ahli dalam industri AI, dan beberapa investor dan analis di Wall Street, berpikir bahwa Google mungkin telah menjatuhkan bola di sini. Itu muncul dengan pendekatan AI ini, tetapi Openai dan Chatgpt telah melarikan diri dengan sebagian besar rampasan sejauh ini.

Saya pikir juri masih keluar. Namun, Anda tidak bisa tidak memikirkan situasi ini ketika penulis tampaknya membenci era data manusia.

“Dapat dikatakan bahwa pergeseran paradigma telah membuang bayi dengan air mandi,” tulis mereka. “Sementara RL yang berpusat pada manusia telah memungkinkan luasnya perilaku yang belum pernah terjadi sebelumnya, itu juga telah memberlakukan langit-langit baru pada kinerja agen: agen tidak dapat melampaui pengetahuan manusia yang ada.”

Perak dan Sutton benar tentang satu aspek dari ini. Pasokan data manusia berkualitas tinggi telah dilampaui oleh permintaan yang tak terpuaskan dari AI Labs dan perusahaan teknologi besar yang membutuhkan konten segar untuk melatih model baru dan memajukan kemampuan mereka. Seperti yang saya tulis tahun lalu, menjadi jauh lebih sulit dan lebih mahal untuk membuat lompatan besar di Anda memiliki perbatasan.

Era Pengalaman

Para penulis memiliki solusi yang sangat radikal untuk ini, dan itu adalah jantung dari era baru pengalaman yang mereka usulkan dalam makalah ini.

Mereka menyarankan agar model dan agen harus keluar dan membuat data baru mereka sendiri melalui interaksi dengan dunia nyata.

Ini akan menyelesaikan masalah pasokan data yang mengganggu, mereka berpendapat, sambil membantu lapangan mencapai AGI, atau kecerdasan umum buatan, cawan suci teknis di mana mesin mengungguli manusia dalam aktivitas paling berguna.

“Pada akhirnya, data pengalaman akan melampaui skala dan kualitas data yang dihasilkan manusia,” tulis Silver dan Sutton. “Pergeseran paradigma ini, disertai dengan kemajuan algoritmik di RL, akan membuka di banyak domain kemampuan baru yang melampaui mereka yang dimiliki oleh manusia mana pun.”

Setiap orang tua modern dapat menganggap ini setara dengan memberi tahu anak mereka untuk turun dari sofa, berhenti melihat telepon mereka, dan pergi ke luar dan bermain dengan teman -teman mereka. Ada banyak pengalaman yang lebih kaya, memuaskan, dan lebih berharga untuk dipelajari.

Clark, pendiri antropik, terkesan oleh chutzpah proposal ini.

“Makalah seperti ini adalah simbol kepercayaan yang ditemukan dalam industri AI,” tulisnya dalam buletinnya pada hari Senin, mengutip “keberanian untuk memberikan agen -agen ini kemandirian dan garis lintang yang dapat mereka berinteraksi dengan dunia dan menghasilkan data mereka sendiri.”

Contoh, dan kemungkinan dis final

Para penulis mengapung beberapa contoh teoretis tentang bagaimana ini bisa bekerja di era pengalaman baru.

Seorang asisten kesehatan AI dapat mendasari tujuan kesehatan seseorang menjadi hadiah berdasarkan kombinasi sinyal seperti denyut jantung istirahat, durasi tidur, dan tingkat aktivitas mereka. (Hadiah dalam AI adalah cara umum untuk memberi insentif kepada model dan agen untuk tampil lebih baik. Sama seperti Anda mungkin mengomel pasangan Anda untuk berolahraga lebih banyak dengan mengatakan mereka akan menjadi lebih kuat dan terlihat lebih baik jika mereka pergi ke gym.)

Asisten pendidikan dapat menggunakan hasil ujian untuk memberikan insentif atau hadiah, berdasarkan hadiah yang didasarkan pada pembelajaran bahasa pengguna.

Agen sains dengan tujuan untuk mengurangi pemanasan global mungkin menggunakan hadiah berdasarkan pengamatan empiris tingkat karbon dioksida, Silver dan Sutton menyarankan.

Di satu sisi, ini adalah pengembalian ke era simulasi sebelumnya, yang dipimpin Google. Kecuali kali ini, model dan agen AI belajar dari dunia nyata dan mengumpulkan data mereka sendiri, daripada ada di video game atau ranah digital lainnya.

Kuncinya adalah bahwa, tidak seperti era data manusia, mungkin tidak ada batasan informasi yang dapat dihasilkan dan dikumpulkan untuk fase baru pengembangan AI ini.

Dalam periode data manusia kami saat ini, ada sesuatu yang hilang, para penulis berpendapat: kemampuan agen untuk menemukan diri sendiri pengetahuannya sendiri.

“Tanpa landasan ini, seorang agen, tidak peduli seberapa canggihnya, akan menjadi ruang gema pengetahuan manusia yang ada,” tulis Silver dan Sutton, dalam kemungkinan akhir untuk Openai.

Baca selanjutnya

Post Views: 88