Model AI Open Source Paling Canggih yang Pernah Ada Bisa Meningkatkan Kemampuan Agen AI

Open source yang paling mampu Anda punya model dengan kemampuan visual namun dapat melihat lebih banyak pengembang, peneliti, dan perusahaan rintisan mengembangkan agen AI yang dapat melakukan tugas-tugas berguna di komputer Anda.

Dirilis hari ini oleh Allen Institute for AI (Ai2), Model Bahasa Terbuka Multimodalatau Molmo, dapat menginterpretasikan gambar sekaligus berkomunikasi melalui antarmuka obrolan. Artinya, ia dapat memahami layar komputer, yang berpotensi membantu agen AI melakukan tugas-tugas seperti menjelajahi web, menavigasi direktori file, dan menyusun dokumen.

“Dengan rilis ini, lebih banyak orang dapat menerapkan model multimodal,” kata Ali FarhadiCEO Ai2, sebuah organisasi penelitian yang berpusat di Seattle, Washington, dan seorang ilmuwan komputer di University of Washington. “Ini akan menjadi pendorong bagi aplikasi generasi berikutnya.”

Agen AI disebut-sebut secara luas sebagai hal besar berikutnya dalam AI, dengan OpenAI, Google, dan yang lainnya berlomba-lomba mengembangkannya. Agen telah menjadi kata kunci akhir-akhir ini, tetapi visi besarnya adalah agar AI dapat melampaui sekadar mengobrol untuk mengambil tindakan yang rumit dan canggih secara andal pada komputer saat diberi perintah. Kemampuan ini belum terwujud dalam skala apa pun.

Beberapa model AI yang canggih sudah memiliki kemampuan visual, termasuk GPT-4 dari OpenAI, Claude dari Anthropic, dan Gemini dari Google DeepMind. Model-model ini dapat digunakan untuk memberi daya pada beberapa agen AI eksperimentaltetapi tersembunyi dari pandangan dan hanya dapat diakses melalui antarmuka pemrograman aplikasi berbayar, atau API.

Meta telah merilis keluarga model AI yang disebut Llama di bawah lisensi yang membatasi penggunaan komersialnya, tetapi belum menyediakan versi multimodal untuk pengembang. Meta diharapkan mengumumkan beberapa produk baru, mungkin termasuk model AI Llama baru, di acara Connect hari ini.

“Memiliki model multimodal dan open source berarti bahwa setiap startup atau peneliti yang memiliki ide dapat mencoba melakukannya,” kata Tentang persseorang postdoc di Universitas Princeton yang bekerja pada agen AI.

Press mengatakan bahwa fakta bahwa Molmo adalah sumber terbuka berarti bahwa pengembang akan lebih mudah menyempurnakan agen mereka untuk tugas-tugas tertentu, seperti bekerja dengan spreadsheet, dengan menyediakan data pelatihan tambahan. Model seperti GPT-4 hanya dapat disempurnakan hingga tingkat terbatas melalui API mereka, sedangkan model yang sepenuhnya terbuka dapat dimodifikasi secara ekstensif. “Ketika Anda memiliki model sumber terbuka seperti ini, maka Anda memiliki lebih banyak opsi,” kata Press.

Ai2 merilis beberapa ukuran Molmo hari ini, termasuk model dengan 70 miliar parameter dan model dengan 1 miliar parameter yang cukup kecil untuk dijalankan pada perangkat seluler. Jumlah parameter model mengacu pada jumlah unit yang dikandungnya untuk menyimpan dan memanipulasi data dan secara kasar sesuai dengan kemampuannya.

Ai2 mengatakan Molmo sama hebatnya dengan model komersial yang jauh lebih besar meskipun ukurannya relatif kecil, karena model ini dilatih dengan cermat menggunakan data berkualitas tinggi. Model baru ini juga sepenuhnya open source karena, tidak seperti Llama milik Meta, tidak ada batasan dalam penggunaannya. Ai2 juga merilis data pelatihan yang digunakan untuk membuat model tersebut, yang memberikan peneliti lebih banyak detail tentang cara kerjanya.

Merilis model yang kuat bukan tanpa risiko. Model seperti itu dapat lebih mudah diadaptasi untuk tujuan jahat; misalnya, suatu hari nanti kita mungkin melihat munculnya agen AI jahat yang dirancang untuk mengotomatiskan peretasan sistem komputer.

Farhadi dari Ai2 berpendapat bahwa efisiensi dan portabilitas Molmo akan memungkinkan pengembang untuk membangun agen perangkat lunak yang lebih kuat yang berjalan secara native di telepon pintar dan perangkat portabel lainnya. “Model dengan satu miliar parameter kini berkinerja pada level atau liga model yang setidaknya 10 kali lebih besar,” katanya.

Namun, membangun agen AI yang berguna mungkin bergantung pada lebih dari sekadar model multimoda yang lebih efisien. Tantangan utamanya adalah membuat model bekerja lebih andal. Ini mungkin memerlukan terobosan lebih lanjut dalam kemampuan penalaran AI—sesuatu yang OpenAI telah coba atasi dengan model o1 terbarunya, yang menunjukkan keterampilan penalaran langkah demi langkahLangkah selanjutnya mungkin adalah memberi model multimoda kemampuan penalaran seperti itu.

Untuk saat ini, peluncuran Molmo berarti agen AI lebih dekat dari sebelumnya—dan dapat segera berguna bahkan di luar raksasa yang menguasai dunia AI.

Post Views: 94

Read Also