Di tahun -tahun mendatang, agen secara luas diharapkan untuk mengambil alih lebih banyak tugas atas nama manusia, termasuk menggunakan komputer dan smartphone. Untuk saat ini, bagaimanapun, Mereka terlalu rentan kesalahan untuk banyak digunakan.
Agen baru yang disebut S2, yang dibuat oleh startup Simular AI, menggabungkan model Frontier dengan model khusus untuk menggunakan komputer. Agen mencapai kinerja canggih pada tugas-tugas seperti menggunakan aplikasi dan memanipulasi file-dan menyarankan bahwa beralih ke model yang berbeda dalam situasi yang berbeda dapat membantu agen maju.
“Agen yang menggunakan komputer berbeda dari model bahasa besar dan berbeda dari pengkodean,” kata Ang Li, pendiri dan CEO Simular. “Ini jenis masalah yang berbeda.”
Dalam pendekatan Simular, model AI tujuan umum yang kuat, seperti Openai GPT-4O atau Claude 3.7 antropik, digunakan untuk beralasan tentang cara terbaik untuk menyelesaikan tugas yang ada-sementara model open source yang lebih kecil melangkah untuk tugas-tugas seperti menafsirkan halaman web.
Li, yang adalah seorang peneliti di Google DeepMind sebelum mendirikan Simular pada tahun 2023, menjelaskan bahwa model bahasa besar unggul dalam perencanaan tetapi tidak pandai mengenali elemen antarmuka pengguna grafis.
S2 dirancang untuk belajar dari pengalaman dengan modul memori eksternal yang mencatat tindakan dan umpan balik pengguna dan menggunakan rekaman tersebut untuk meningkatkan tindakan di masa depan.
Pada tugas yang sangat kompleks, S2 berkinerja lebih baik daripada model lainnya Osworldtolok ukur yang mengukur kemampuan agen untuk menggunakan sistem operasi komputer.
Misalnya, S2 dapat menyelesaikan 34,5 persen tugas yang melibatkan 50 langkah, mengalahkan OpenAI’s Operatoryang dapat menyelesaikan 32 persen. Demikian pula, skor S2 50 persen di Androidworld, tolok ukur untuk agen yang menggunakan smartphone, sedangkan agen terbaik berikutnya mencetak 46 persen.
Victor Zhong, seorang ilmuwan komputer di University of Waterloo di Kanada dan salah satu pencipta Osworld, percaya bahwa model AI besar di masa depan dapat menggabungkan data pelatihan yang membantu mereka memahami dunia visual dan memahami antarmuka pengguna yang grafis.
“Ini akan membantu agen menavigasi GUI dengan presisi yang jauh lebih tinggi,” kata Zhong. “Saya pikir sementara itu, sebelum terobosan mendasar seperti itu, sistem canggih akan menyerupai simular karena mereka menggabungkan beberapa model untuk menambal keterbatasan model tunggal.”
Untuk mempersiapkan kolom ini, saya menggunakan Simular untuk memesan penerbangan dan menjelajahi Amazon untuk penawaran, dan sepertinya lebih baik daripada beberapa agen open source yang saya coba tahun lalu, termasuk Autogenik Dan Vimgpt.
Tetapi bahkan agen AI paling cerdas, tampaknya, masih bermasalah oleh kasus -kasus tepi dan kadang -kadang menunjukkan perilaku aneh. Dalam satu contoh, ketika saya meminta S2 untuk membantu menemukan informasi kontak untuk para peneliti di belakang Osworld, agen terjebak dalam loop melompat antara halaman proyek dan login untuk perselisihan Osworld.
Tolok ukur Osworld menunjukkan mengapa agen tetap lebih hype daripada kenyataan untuk saat ini. Sementara manusia dapat menyelesaikan 72 persen tugas Osworld, agen digagalkan 38 persen dari waktu untuk tugas -tugas kompleks. Yang mengatakan, ketika tolok ukur diperkenalkan pada April 2024, agen terbaik hanya dapat menyelesaikan 12 persen dari tugas.
Zhong mengatakan bahwa jumlah data pelatihan yang tersedia dapat membatasi seberapa baik agen yang baik.
Mungkin salah satu solusi adalah menambahkan kecerdasan manusia ke dalam campuran. Sambil melihat ke dalam Simular, saya menemukan proyek penelitian yang menunjukkan seberapa efektif itu untuk memadukan keterampilan manusia dengan yang dari agen AI.
Cowpilotplugin krom yang dikembangkan oleh tim di Carnegie Mellon University, memungkinkan manusia untuk campur tangan jika agen AI macet melakukan sesuatu. Dengan cowpilot, saya dapat masuk dan mengklik atau mengetik jika agen tampaknya dithering.
Jeffrey Bigham, seorang profesor di CMU yang mengawasi proyek, yang dikembangkan oleh muridnya, Faria Huq, mengatakan gagasan memiliki pekerjaan manusia dengan agen “hampir begitu jelas sehingga sulit untuk percaya itu bukan cara kebanyakan orang memikirkannya.”
Yang paling menarik, Bigham dan Huq mengatakan bahwa manusia dan agen yang bekerja bersama dapat melakukan lebih banyak tugas daripada salah satu pihak yang bekerja sendiri. Dalam tes terbatas, kombo agen manusia menyelesaikan 95 persen pekerjaan yang diberikan, sementara mengharuskan manusia untuk melakukan hanya 15 persen dari total langkah.
“Halaman web seringkali sulit digunakan, terutama jika Anda tidak terbiasa dengan halaman tertentu, dan kadang -kadang agen dapat membantu Anda menemukan jalan yang baik melalui yang akan membawa Anda lebih lama untuk mencari tahu sendiri,” tambah Bigham.
Saya tidak tahu tentang Anda, tetapi saya suka gagasan agen yang membuat saya lebih produktif dan rentan kesalahan.







