Apple, Anthropic, dan perusahaan lain menggunakan video YouTube untuk melatih AI

Lebih dari 170.000 video YouTube merupakan bagian dari kumpulan data besar yang digunakan untuk melatih sistem AI untuk beberapa perusahaan teknologi terbesar, menurut penyelidikan oleh Bukti Berita dan diterbitkan bersama dengan BerkabelApple, Anthropic, Nvidia, dan Salesforce termasuk di antara perusahaan teknologi yang menggunakan data “Subtitel YouTube” yang diambil dari platform video tersebut tanpa izin. Set data pelatihan tersebut merupakan kumpulan subtitel yang diambil dari video YouTube milik lebih dari 48.000 saluran — tidak termasuk citra dari video tersebut.

Video dari kreator populer seperti MrBeast dan Marques Brownlee muncul dalam kumpulan data, begitu pula klip dari outlet berita seperti ABC News, BBC, dan Surat kabar New York Times. Lebih dari 100 video dari The Verge muncul di dataset, bersama dengan banyak video lainnya dari Suara.

“Apple telah mengambil data untuk AI mereka dari beberapa perusahaan,” kata Brownlee, yang dikenal dengan akun MKBHD, ditulis dalam sebuah postingan di X“Salah satu dari mereka mengambil banyak data/transkrip dari video YouTube, termasuk milik saya.” Ia menambahkan: “Ini akan menjadi masalah yang terus berkembang dalam waktu yang lama.”

YouTube tidak segera menanggapi The Verge‘S permintaan komentar.

Sebagai bagian dari penyelidikannya, Bukti Berita juga dirilis alat pencarian interaktifAnda dapat menggunakan fitur pencariannya untuk melihat apakah konten Anda — atau konten YouTuber favorit Anda — muncul dalam kumpulan data.

Kumpulan data subtitle merupakan bagian dari koleksi materi yang lebih besar dari lembaga nirlaba EleutherAI yang disebut The Pile, sebuah koleksi sumber terbuka yang juga berisi kumpulan data buku, artikel Wikipedia, dan banyak lagi. Tahun lalu, analisis satu set data yang disebut Books3 mengungkapkan karya penulis mana yang telah digunakan untuk melatih sistem AI, dan kumpulan data tersebut telah dikutip dalam gugatan hukum oleh penulis terhadap perusahaan yang menggunakannya untuk melatih AI.

Perusahaan AI jarang bersedia bersikap transparan tentang data yang masuk ke sistem AI mereka; bagaimana konten YouTube secara khusus digunakan telah menjadi pertanyaan utama dalam beberapa bulan terakhir. Pada bulan Maret, ketika OpenAI meluncurkan alat pembuat video yang canggih, SoraCTO Mira Murati berulang kali menghindari pertanyaan tentang apakah sistem tersebut dilatih pada video YouTube.

“Saya tidak akan membahas rincian data yang digunakan, namun data tersebut tersedia untuk umum atau memiliki lisensi,” dia bilang Jurnal Wall Street pada saat ituSaat ditekan oleh Jurnal tentang konten YouTube secara khusus, Murati mengatakan dia “tidak yakin tentang hal itu.”

Dalam wawancara sebelumnyaCEO YouTube Neal Mohan mengatakan bahwa penggunaan konten video untuk melatih AI — termasuk transkrip — akan melanggar ketentuan platform. Dan pada bulan Mei di sebuah episode DekoderCEO Google Sundar Pichai setuju dengan penilaian Mohan bahwa jika OpenAI memang melatih Sora pada konten YouTube, itu akan melanggar ketentuan YouTube.

“Kami memiliki syarat dan ketentuan, dan kami berharap orang-orang mematuhi syarat dan ketentuan tersebut saat Anda membuat suatu produk, jadi begitulah yang saya rasakan tentang hal itu,” kata Pichai.

Post Views: 195

Read Also