Perhitungan pada Agen AI Tidak Bertambah

AI yang besar perusahaan berjanji pada kita bahwa tahun 2025 akan menjadi “tahun agen AI.” Ternyata itu tahun berbicara tentang Agen AI, dan memulai momen transformasional tersebut hingga tahun 2026 atau mungkin setelahnya. Namun bagaimana jika jawaban atas pertanyaan “Kapan hidup kita akan sepenuhnya diotomatisasi oleh robot AI generatif yang melakukan tugas untuk kita dan pada dasarnya menjalankan dunia?” adalah, seperti itu Kartun warga New York“Bagaimana kalau tidak pernah?”

Itu pada dasarnya adalah pesan dari sebuah makalah yang diterbitkan tanpa banyak keriuhan beberapa bulan yang lalu, tepat di tengah-tengah tahun “AI agen” yang dilebih-lebihkan. Berhak “Stasiun Halusinasi: Tentang Beberapa Keterbatasan Dasar Model Bahasa Berbasis Transformer,” hal ini dimaksudkan untuk menunjukkan secara matematis bahwa “LLM tidak mampu melaksanakan tugas komputasi dan agenik di luar kompleksitas tertentu.” Meskipun ilmu pengetahuan berada di luar jangkauan saya, para penulisnya—mantan CTO SAP yang mempelajari AI di bawah bimbingan salah satu intelektual pendiri bidang ini, John McCarthy, dan putra remajanya yang ajaib—menembus visi surga agen dengan kepastian matematika. Bahkan model penalaran yang melampaui proses prediksi kata murni LLM, kata mereka, tidak akan menyelesaikan masalah.

“Tidak mungkin mereka bisa diandalkan,” kata Vishal Sikka, sang ayah, kepada saya. Setelah berkarir, selain di SAP, termasuk menjabat sebagai CEO Infosys dan anggota dewan Oracle, saat ini ia mengepalai startup layanan AI bernama Viana. “Jadi kita harus melupakan agen AI yang menjalankan pembangkit listrik tenaga nuklir?” saya bertanya. “Tepat sekali,” katanya. Mungkin Anda bisa mendapatkannya untuk mengajukan beberapa dokumen atau sesuatu untuk menghemat waktu, tetapi Anda mungkin harus pasrah pada beberapa kesalahan.

Industri AI berpendapat berbeda. Salah satu alasannya adalah kesuksesan besar dalam pengkodean agen AI, yang dimulai tahun lalu. Baru minggu ini di Davos, kepala AI Google pemenang Nobel, Demis Hassabis, terobosan yang dilaporkan dalam meminimalkan halusinasi, dan para hyperscaler serta startup sama-sama mendorong narasi agen. Sekarang mereka punya cadangan. Sebuah startup bernama Harmonis melaporkan terobosan dalam pengkodean AI yang juga bergantung pada matematika—dan unggul dalam tolok ukur keandalan.

Harmonic, yang didirikan bersama oleh CEO Robinhood Vlad Tenev dan Tudor Achim, ahli matematika lulusan Stanford, mengklaim peningkatan baru-baru ini pada produknya yang disebut Aristoteles (tidak ada keangkuhan!) merupakan indikasi bahwa ada cara untuk menjamin kepercayaan sistem AI. “Apakah kita ditakdirkan berada di dunia di mana AI hanya menghasilkan air kotor dan manusia tidak bisa mengendalikannya? Itu akan menjadi dunia yang gila,” kata Achim. Solusi Harmonic adalah dengan menggunakan metode formal penalaran matematis untuk memverifikasi keluaran LLM. Secara khusus, ini mengkodekan keluaran dalam bahasa pemrograman Lean, yang dikenal karena kemampuannya untuk memverifikasi pengkodean. Yang pasti, fokus Harmonic hingga saat ini masih sempit—misi utamanya adalah mengejar “kecerdasan super matematis”, dan pengkodean merupakan perluasan yang organik. Hal-hal seperti esai sejarah—yang tidak dapat diverifikasi secara matematis—berada di luar batas-batasnya. Untuk saat ini.

Meskipun demikian, Achim tampaknya tidak menganggap bahwa perilaku agen yang dapat diandalkan adalah sebuah masalah seperti yang diyakini beberapa kritikus. “Menurut saya sebagian besar model saat ini memiliki tingkat kecerdasan murni yang diperlukan untuk membuat alasan dalam memesan rencana perjalanan,” katanya.

Kedua belah pihak benar—atau bahkan mungkin berada di pihak yang sama. Di satu sisi, semua orang setuju bahwa halusinasi akan terus menjadi kenyataan yang menjengkelkan. Di dalam sebuah makalah yang diterbitkan September lalu, Ilmuwan OpenAI menulis, “Meskipun ada kemajuan yang signifikan, halusinasi terus mengganggu bidang ini, dan masih ada dalam model terbaru.” Mereka membuktikan klaim tidak menyenangkan itu dengan meminta tiga model, termasuk ChatGPT, untuk memberikan judul disertasi penulis utama. Ketiganya mengarang judul palsu dan semuanya salah melaporkan tahun penerbitannya. Dalam blog tentang makalah tersebut, OpenAI dengan murung menyatakan bahwa dalam model AI, “akurasi tidak akan pernah mencapai 100 persen.”

Saat ini, ketidakakuratan tersebut cukup serius sehingga menghambat adopsi agen secara luas di dunia usaha. “Nilainya belum tersampaikan,” kata Himanshu Tyagi, salah satu pendiri perusahaan AI open source bernama Hidup. Dia menunjukkan bahwa menghadapi halusinasi dapat mengganggu keseluruhan alur kerja, sehingga menghilangkan banyak manfaat dari seorang agen.

Namun kekuatan besar AI dan banyak startup percaya bahwa ketidakakuratan ini dapat diatasi. Kunci untuk hidup berdampingan dengan halusinasi, kata mereka, adalah menciptakan pagar pembatas yang menyaring omong kosong imajinatif yang suka dihasilkan oleh LLM. Bahkan Sikka berpendapat bahwa ini adalah hasil yang mungkin terjadi. “Makalah kami mengatakan bahwa LLM murni memiliki keterbatasan yang melekat—tetapi pada saat yang sama memang benar bahwa Anda dapat membangun komponen di sekitar LLM yang mengatasi keterbatasan tersebut,” katanya.

Achim, petugas verifikasi matematis, setuju bahwa halusinasi akan selalu ada—tetapi menganggap ini sebagai fitur, bukan bug. “Saya pikir halusinasi merupakan hal yang hakiki dalam LLM dan juga penting untuk melampaui kecerdasan manusia,” katanya. “Cara sistem belajar adalah dengan berhalusinasi terhadap sesuatu. Hal ini sering kali salah, namun terkadang hal tersebut merupakan sesuatu yang belum pernah terpikirkan oleh manusia sebelumnya.”

Intinya adalah bahwa seperti AI generatif itu sendiri, AI agen tidak mungkin terjadi dan pada saat yang sama tidak dapat dihindari. Mungkin tidak ada tahun tertentu yang akan dianggap sebagai “tahun agen”. Tapi halusinasi atau tidak, setiap tahun mulai sekarang akan menjadi “tahun lebih banyak agen,” seiring dengan menyempitnya jarak antara pagar pembatas dan halusinasi. Industri ini mempunyai terlalu banyak taruhan untuk tidak mewujudkan hal ini. Tugas yang dilakukan agen akan selalu memerlukan verifikasi pada tingkat tertentu—dan tentu saja orang akan menjadi ceroboh dan kita akan mengalami bencana kecil dan besar—namun pada akhirnya agen akan menyamai atau melampaui keandalan manusia, sekaligus lebih cepat dan lebih murah.

Pada saat itu, beberapa pertanyaan yang lebih besar muncul. Salah satu orang yang saya hubungi untuk membahas makalah halusinasi adalah pelopor komputer Alan Kay, yang bersahabat dengan Sikka. Pandangannya adalah bahwa “argumen mereka diajukan dengan cukup baik sehingga mendapat komentar dari para ahli teori komputasi nyata.” (Pernyataan mengingatkan pengambilannya pada tahun 1984 pada Macintosh sebagai “komputer pribadi pertama yang cukup bagus untuk dikritik.”) Namun pada akhirnya, katanya, pertanyaan matematisnya tidak penting. Sebaliknya, ia menyarankan agar masyarakat mempertimbangkan isu ini berdasarkan diktum Marshall McLuhan yang terkenal, “Medium is the message”. “Jangan bertanya apakah sesuatu itu baik atau buruk, benar atau salah,” parafrasenya. “Cari tahu apa yang sedang terjadi.”

Inilah yang terjadi: Kita mungkin berada di titik puncak otomatisasi besar-besaran pada aktivitas kognitif manusia. Masih menjadi pertanyaan apakah hal ini akan meningkatkan kualitas pekerjaan dan kehidupan kita. Saya menduga penilaian akhir mengenai hal tersebut tidak dapat diverifikasi secara matematis.

Ini adalah edisi Steven Levy Buletin saluran belakang. Baca buletin sebelumnya Di Sini.

Post Views: 23

Read Also