Latam-GPT: AI Gratis, Sumber Terbuka, dan Kolaboratif dari Amerika Latin

Latam-GPT baru Model bahasa besar sedang dikembangkan di dan untuk Amerika Latin. Proyek ini, yang dipimpin oleh Pusat Nasional Nasional Nirlaba untuk Kecerdasan Buatan (Cenia), bertujuan untuk membantu wilayah ini mencapai kemandirian teknologi dengan mengembangkan model AI open source yang dilatih tentang bahasa dan konteks Amerika Latin.

“Pekerjaan ini tidak dapat dilakukan hanya oleh satu kelompok atau satu negara di Amerika Latin: ini adalah tantangan yang membutuhkan partisipasi semua orang,” kata álvaro Soto, direktur Cenia, dalam sebuah wawancara dengan Wired en Español. “Latam-GPT adalah proyek yang berupaya membuat model AI kolaboratif yang terbuka, gratis, dan, di atas segalanya.

Proyek ini menonjol karena semangat kolaboratifnya. “Kami tidak ingin bersaing dengan Openai, Deepseek, atau Google. Kami ingin model khusus untuk Amerika Latin dan Karibia, sadar akan persyaratan budaya dan tantangan yang diperlukan, seperti memahami dialek yang berbeda, sejarah wilayah, dan aspek budaya yang unik,” jelas Soto.

Berkat 33 kemitraan strategis dengan lembaga -lembaga di Amerika Latin dan Karibia, proyek ini telah mengumpulkan kumpulan data yang melebihi delapan terabyte teks, setara dengan jutaan buku. Basis informasi ini telah memungkinkan pengembangan model bahasa dengan 50 miliar parameter, skala yang membuatnya sebanding dengan GPT-3.5 dan memberikannya kapasitas sedang hingga tinggi untuk melakukan tugas-tugas kompleks seperti penalaran, terjemahan, dan asosiasi.

Latam-GPT sedang dilatih pada database regional yang menyusun informasi dari 20 negara Amerika Latin dan Spanyol, dengan total 2.645.500 dokumen yang mengesankan. Distribusi data menunjukkan konsentrasi yang signifikan di negara -negara terbesar di wilayah tersebut, dengan Brasil pemimpin dengan 685.000 dokumen, diikuti oleh Meksiko dengan 385.000, Spanyol dengan 325.000, Kolombia dengan 220.000, dan Argentina dengan 210.000 dokumen. Angka -angka mencerminkan ukuran pasar ini, pengembangan digital mereka, dan ketersediaan konten terstruktur.

“Awalnya, kami akan meluncurkan model bahasa. Kami berharap kinerjanya dalam tugas -tugas umum dekat dengan model komersial besar, tetapi dengan kinerja yang unggul dalam topik khusus untuk Amerika Latin. Idenya adalah bahwa, jika kami menanyakan tentang topik yang relevan dengan wilayah kami, pengetahuannya akan jauh lebih dalam,” Soto menjelaskan.

Model pertama adalah titik awal untuk mengembangkan keluarga teknologi yang lebih canggih di masa depan, termasuk yang dengan gambar dan video, dan untuk meningkatkan ke model yang lebih besar. “Karena ini adalah proyek terbuka, kami ingin institusi lain dapat menggunakannya. Sebuah kelompok di Kolombia dapat menyesuaikannya dengan sistem pendidikan sekolah atau yang di Brasil dapat mengadaptasinya untuk sektor kesehatan. Idenya adalah untuk membuka pintu bagi organisasi yang berbeda untuk menghasilkan model spesifik untuk bidang -bidang tertentu seperti pertanian, budaya, dan lainnya,” jelas Direktur Cenia.

Infrastruktur superkomputer di University of Tarapacá (UTA) di Arica, Chili, adalah pilar mendasar bagi Latam-GPT. Dengan investasi yang diproyeksikan sebesar $ 10 juta, pusat baru ini memiliki sekelompok 12 node, masing-masing dilengkapi dengan delapan GPU NVIDIA H200 yang canggih. Kapasitas ini, yang belum pernah terjadi sebelumnya di Chili dan wilayah ini secara lebih luas, tidak hanya memungkinkan pelatihan model skala besar di negara ini untuk pertama kalinya, tetapi juga mendorong desentralisasi dan efisiensi energi.

Versi pertama Latam-GPT akan diluncurkan tahun ini. Model ini akan disempurnakan dan diperluas ketika mitra strategis baru bergabung dengan upaya tersebut dan set data yang lebih kuat diintegrasikan ke dalamnya.

Wawancara diedit untuk panjang dan kejelasan.

Wired: Raksasa teknologi seperti Google, Openai, dan Anthropic telah menginvestasikan miliaran dalam model mereka. Apa argumen teknis dan strategis untuk pengembangan model terpisah khusus untuk Amerika Latin?

Álvaro Soto: Terlepas dari seberapa kuat model lain ini, mereka tidak mampu mencakup segala sesuatu yang relevan dengan realitas kita. Saya merasa bahwa hari ini mereka terlalu fokus pada kebutuhan bagian lain dunia. Bayangkan jika kita ingin menggunakannya untuk memodernisasi sistem pendidikan di Amerika Latin. Jika Anda meminta salah satu model ini untuk sebuah contoh, itu mungkin akan memberi tahu Anda tentang George Washington.

Kita harus khawatir tentang kebutuhan kita sendiri; Kita tidak bisa menunggu orang lain menemukan waktu untuk menanyakan apa yang kita butuhkan. Mengingat bahwa ini adalah teknologi baru dan sangat mengganggu, ada ruang dan kebutuhan bagi kami, di wilayah kami, untuk mengambil keuntungan dari manfaat mereka dan memahami risiko mereka. Memiliki pengalaman ini sangat penting untuk memandu penggunaan teknologi ke depan di sepanjang jalan terbaik.

Ini juga membuka kemungkinan bagi para peneliti kami. Saat ini, akademisi Amerika Latin memiliki sedikit peluang untuk berinteraksi secara mendalam dengan model -model ini. Seolah -olah kita ingin mempelajari pencitraan resonansi magnetik tetapi tidak memiliki resonator. Latam-GPT berusaha menjadi alat mendasar itu sehingga komunitas ilmiah dapat bereksperimen dan maju.

Input kunci adalah data. Apa status corpus Latam-GPT, dan bagaimana Anda mengatasi tantangan untuk memasukkan tidak hanya varian bahasa Spanyol dan Portugis, tetapi juga bahasa asli?

Kami telah memberikan banyak penekanan pada menghasilkan data berkualitas tinggi. Ini bukan hanya tentang volume, tetapi juga komposisi. Kami menganalisis keragaman regional untuk memastikan bahwa data tidak datang secara tidak proporsional dari hanya satu negara, tetapi ada representasi yang seimbang. Jika kita melihat bahwa Nikaragua kurang terwakili dalam data, misalnya, kita akan secara aktif mencari kolaborator di sana.

Kami juga menganalisis keragaman topik – politik, olahraga, seni, dan bidang lainnya – untuk memiliki corpus yang seimbang. Dan, tentu saja, ada keragaman budaya. Dalam versi pertama ini, kami telah fokus pada memiliki informasi budaya tentang orang -orang leluhur kami, seperti Aztec dan Inca, bukan pada bahasa itu sendiri. Di masa depan, idenya adalah untuk juga menggabungkan bahasa asli. Di Cenia, kami sudah bekerja pada penerjemah untuk Mapuche dan Rapanui, dan kelompok -kelompok lain di wilayah tersebut melakukan hal yang sama dengan Guaraní. Ini adalah contoh yang jelas dari sesuatu yang harus kita lakukan sendiri, karena tidak ada orang lain yang mau.

Bisakah Anda memberi tahu kami lebih banyak tentang Cenia dan bagaimana inisiatif ini didirikan di Chili?

Antara 2017 dan 2018, sekelompok ahli, yang termasuk saya sebagai anggota, mengembangkan kebijakan intelijen buatan nasional Chili. Salah satu kesimpulan dari kelompok ini adalah bahwa ada kebutuhan untuk menciptakan lembaga yang akan mengawasi pengembangan ekosistem AI sinergis dan sehat yang mencakup sains, transfer teknologi ke industri, dan tanggung jawab sosial. Cenia diciptakan untuk menjadi institusi itu.

Meskipun dimulai di Chili, kami memiliki visi regional dan kami percaya bahwa bersama -sama kami lebih kuat. Kami telah mempromosikan inisiatif seperti Indeks Kecerdasan Buatan Amerika Latin, sebuah studi kolaboratif yang mengukur kemajuan AI di negara -negara di seluruh wilayah.

Spesialisasi Anda adalah robotika kognitif. Bagaimana model bahasa regional berhubungan dengan kemampuan agen otonom untuk berinteraksi dalam konteks Amerika Latin?

Dalam robotika kognitif, bagian kognitif adalah kecerdasan. Karier saya berfokus pada pengembangan kecerdasan untuk mesin fisik. Saat ini, model bahasa dan model dasar berada di garis depan AI. Mereka adalah alat paling kuat yang kami miliki, jadi pekerjaan saya didedikasikan untuk memahami dan berkontribusi pada pengembangan ilmiah dan terapan dari jenis teknologi ini.

Model menghadapi masalah di sekitar geopolitik dan kekuatan yang telah dicakup oleh media. Apa tantangan spesifik di Amerika Latin dalam hal model -model ini?

Kami menghadapi banyak tantangan, tetapi kami juga memiliki banyak kekuatan, seperti keterbukaan kami dan kapasitas kami untuk kolaborasi, yang telah kami lihat dalam proyek Latam-GPT. Yang mengatakan, salah satu bidang utama yang perlu kita fokuskan adalah pendidikan. Teknologi ini akan mengubah keterampilan yang dibutuhkan generasi muda. Pembelajaran hafalan akan kurang kritis; Yang penting adalah mengetahui cara menggunakan pengetahuan AI. Kita harus mempersiapkan kaum muda kita untuk ini, sambil juga mempromosikan ilmu sosial dan pemikiran kritis. Jika saya harus memilih di mana menerapkan teknologi ini, itu akan menjadi pendidikan, karena itu membahas akar penyebab banyak masalah kita.

Proyek seperti ini membutuhkan daya komputasi yang besar. Apakah realistis untuk berpikir bahwa wilayah kita dapat mengembangkan infrastruktur yang diperlukan? Implikasi apa yang dimiliki ini untuk kedaulatan teknologi Amerika Latin?

Itu penting. Jika Anda ingin bermain sepak bola, Anda membutuhkan lapangan dan bola. Di sini, daya komputasi adalah bidang. Kita perlu mengembangkannya, baik di cloud atau di pusat data kita sendiri. Ini adalah infrastruktur yang diperlukan untuk era teknologi baru ini, sama seperti infrastruktur telekomunikasi untuk Internet.

Melihat ke depan ke tahun 2030, apa yang akan menjadi skenario yang sukses untuk model seperti Latam-GPT? Apakah kita akan menjadi pengembang teknologi dan bukan hanya konsumen?

Keberhasilan akan berarti bahwa Latam-GPT telah memainkan peran penting dalam pengembangan kecerdasan buatan di wilayah ini. Organisasi yang berbeda dapat mengambil teknologi ini dan menerapkannya, misalnya, untuk pendidikan. Bahwa generasi baru orang Amerika Latin lebih siap karena mereka memiliki akses ke alat yang berbicara kepada mereka dalam konteksnya, dengan referensi budaya mereka, dengan angka -angka dari sejarah kita, dan tidak hanya menggunakan contoh dari bagian lain dunia. Jika kita berhasil memberikan teknologi ini perangko Amerika Latin dan berkontribusi pada pengembangannya, proyek ini akan sukses besar.

Wawancara ini pertama kali diterbitkan oleh Kabel dalam bahasa Spanyol. Itu diterjemahkan oleh John Newton.

Post Views: 48

Read Also