Siapa yang harus disalahkan saat agen AI kacau?

Di masa lalu Tahun, insinyur perangkat lunak veteran Jay Prakash Thakur telah menghabiskan malam dan akhir pekan prototipe Agen ai Itu bisa, dalam waktu dekat, memesan makanan dan merekayasa aplikasi seluler hampir seluruhnya sendirian. Agen -agennya, meskipun secara mengejutkan mampu, juga telah mengekspos pertanyaan hukum baru yang menunggu perusahaan yang mencoba memanfaatkan teknologi baru terpanas Silicon Valley.

Agen adalah program AI Itu dapat bertindak sebagian besar secara mandiri, memungkinkan perusahaan untuk mengotomatisasi tugas -tugas seperti menjawab pertanyaan pelanggan atau membayar faktur. Sementara chatgpt dan chatbots serupa dapat menyusun email atau menganalisis tagihan atas permintaan, Microsoft dan raksasa teknologi lainnya berharap bahwa agen akan menangani fungsi yang lebih kompleks— Dan yang paling penting, lakukanlah dengan sedikit pengawasan manusia.

Industri teknologi terbanyak rencana ambisius Libatkan sistem multi-agen, dengan lusinan agen suatu hari nanti bekerja sama untuk menggantikan seluruh tenaga kerja. Untuk perusahaan, manfaatnya jelas: menghemat waktu dan biaya tenaga kerja. Sudah, permintaan untuk teknologi meningkat. Peneliti pasar teknologi Gartner perkiraan Agen AI itu akan menyelesaikan 80 persen dari kueri layanan pelanggan umum pada tahun 2029. Fiverr, layanan di mana bisnis dapat memesan coders lepas, Laporan yang mencari “agen AI” telah melonjak 18.347 persen dalam beberapa bulan terakhir.

Thakur, seorang pembuat kode otodidak yang sebagian besar tinggal di California, ingin berada di garis depan bidang yang muncul. Pekerjaan hariannya di Microsoft tidak terkait dengan agen, tetapi dia telah mengutak -atik AutogenikPerangkat lunak open source Microsoft untuk agen bangunan, karena ia bekerja di Amazon pada tahun 2024. Thakur mengatakan ia telah mengembangkan prototipe multi-agen menggunakan Autogen hanya dengan sedikit pemrograman. Pekan lalu, Amazon meluncurkan alat pengembangan agen serupa yang disebut Strands; Google Menawarkan apa yang disebut kit pengembangan agen.

Karena agen dimaksudkan untuk bertindak secara mandiri, pertanyaan tentang siapa yang memikul tanggung jawab ketika kesalahan mereka menyebabkan kerusakan finansial telah menjadi perhatian terbesar Thakur. Menyalahkan ketika agen dari berbagai perusahaan miskomunikasi dalam satu, sistem besar bisa menjadi kontroversial, ia percaya. Dia membandingkan tantangan meninjau log kesalahan dari berbagai agen dengan merekonstruksi percakapan berdasarkan catatan orang yang berbeda. “Seringkali tidak mungkin untuk menentukan tanggung jawab,” kata Thakur.

Benjamin Softness, seorang pengacara yang baru -baru ini meninggalkan Google untuk bergabung dengan firma hukum King & Spalding, mengatakan di atas panggung di sebuah konferensi hukum baru -baru ini yang diselenggarakan oleh Pusat Sumber Daya Hukum Media di San Francisco bahwa partai -partai yang dirugikan cenderung mengejar mereka yang memiliki kantong terdalam. Itu berarti perusahaan perlu siap untuk mengambil tanggung jawab ketika agen menyebabkan kerusakan – bahkan ketika seorang anak bermain -main dengan agen yang mungkin harus disalahkan. (Jika orang itu bersalah, mereka kemungkinan tidak akan menjadi target yang bermanfaat). “Saya tidak berpikir ada orang yang berharap untuk pergi ke konsumen yang duduk di ruang bawah tanah ibu mereka di komputer,” kata Softness. Industri asuransi telah mulai meluncurkan cakupan Untuk masalah AI Chatbot untuk membantu perusahaan menutupi biaya kecelakaan.

Cincin bawang

Eksperimen Thakur telah melibatkannya merangkai agen dalam sistem yang membutuhkan intervensi manusia sesedikit mungkin. Salah satu proyek yang ia kejar menggantikan sesama pengembang perangkat lunak dengan dua agen. Satu dilatih untuk mencari alat khusus yang diperlukan untuk membuat aplikasi, dan yang lainnya merangkum kebijakan penggunaan mereka. Di masa depan, agen ketiga dapat menggunakan alat yang diidentifikasi dan mengikuti kebijakan yang dirangkum untuk mengembangkan aplikasi yang sama sekali baru, kata Thakur.

Ketika Thakur menguji prototipe, agen pencarian menemukan alat yang, menurut situs web, “mendukung permintaan tak terbatas per menit untuk pengguna perusahaan” (yang berarti klien bergaji tinggi dapat mengandalkannya sebanyak yang mereka inginkan). Tetapi dalam mencoba menyaring informasi utama, agen peringkasan menjatuhkan kualifikasi penting “per menit untuk pengguna perusahaan.” Ini dengan keliru mengatakan kepada agen pengkodean, yang tidak memenuhi syarat sebagai pengguna perusahaan, bahwa ia dapat menulis program yang membuat permintaan tak terbatas ke layanan luar. Karena ini adalah tes, tidak ada salahnya dilakukan. Jika itu terjadi dalam kehidupan nyata, bimbingan terpotong bisa menyebabkan seluruh sistem secara tak terduga mogok.

Thakur juga mengejar proyek yang lebih rumit. Dia mengembangkan sistem pemesanan untuk restoran futuristik yang dapat menerima pesanan khusus di seluruh masakan. Pengguna dapat mengetikkan keinginan mereka— “burger dan kentang goreng” – untuk chatbot. Agen AI kemudian dapat meneliti harga yang tepat dan menerjemahkan pesanan menjadi resep. Kemudian dapat memberikan instruksi kepada para robot dengan keahlian kuliner yang berbeda. Thakur sebenarnya tidak memiliki dapur komersial, apalagi robot tunggal, tetapi ia mengembangkan simulasi untuk mengidentifikasi jebakan.

Sembilan dari 10 kali, semuanya berjalan dengan baik. Kemudian, ada kasus di mana “Saya ingin cincin bawang” menjadi “bawang ekstra.” Atau permintaan seperti “ekstra naan” diabaikan. Kesalahan cenderung muncul paling sering ketika Thakur mencoba macet melalui pesanan dengan lebih dari lima item. Skenario terburuk, jika ini terjadi dalam kehidupan nyata, akan melecehkan seseorang dengan alergi makanan.

Dalam prototipe lain yang telah dicoba Thakur, a belanja Agen perbandingan yang dimaksudkan untuk membantu pengguna menemukan penawaran terbaik kembali dengan penawaran murah dari satu situs web e -commerce tetapi secara tidak benar ditautkan ke halaman produk di situs web yang berbeda, yang memiliki harga lebih tinggi. Jika agen dirancang untuk secara otomatis melakukan pembelian, pelanggan akan berakhir dengan pengeluaran berlebihan, kata Thakur.

Program AI yang lebih akrab seperti chatgpt sudah membuat mahal kesalahan. Tahun lalu, kupon yang secara tidak sengaja ditemukan oleh maskapai penerbangan AI Chatbot ditahan untuk mengikat secara hukum. Bulan ini, pengembang chatbot antropik harus meminta maaf kepada seorang hakim untuk kutipan yang dihasilkan AI yang ceroboh dalam pengajuan pengadilan. Sistem agen tunggal juga bisa salah. Naveen Chatlapalli, seorang pengembang perangkat lunak yang membantu perusahaan dengan agen, mengatakan dia melihat seorang agen SDM menyetujui permintaan cuti yang seharusnya ditolak dan agen pencatat mengirim informasi sensitif dari pertemuan ke departemen yang salah. Dengan program yang relatif mudah seperti ini, mudah untuk mendiagnosis apa yang salah dan memperkenalkan lebih banyak pengawasan manusia.

Bahkan restoran Thakur yang lebih kompleks, Snafus dapat diselesaikan dengan hanya meminta pelanggan mengkonfirmasi bahwa agen memasak memiliki pesanan yang benar. Tetapi itu merusak prinsip membatasi keterlibatan manusia. “Kami ingin menghemat waktu untuk pelanggan kami,” kata Thakur. “Di situlah masih membuat kesalahan.” Dan sejauh mengidentifikasi asal dari setiap masalah yang muncul, agen yang menafsirkan perintah yang salah dapat sama bersalahnya dengan agen memasak yang gagal mengenali kekurangan dalam permintaan tersebut, kata Thakur.

Harapan terkemuka di antara pengembang adalah bahwa agen “hakim” dapat mulai memerintah sistem ini dan mengidentifikasi dan memperbaiki kesalahan sebelum mereka bola salju. Mereka dimaksudkan untuk bertindak sebagai manajer yang mencari tahu pelanggan berarti cincin bawang, bukan bawang tambahan. Mark Kashef, seorang freelancer di Fiverr yang menjalankan perusahaan strategi AI bernama penasihat cepat, khawatir bahwa perusahaan mulai terlalu banyak mendapatkan sistem awal dengan sejumlah agen yang tidak perlu – tidak berbeda dari kembung di dalam birokrasi manusia. Bulan ini, Kashef mengatakan kepada pemerintah Afrika yang mencari nasihatnya untuk fokus pada pengembangan agen tunggal yang paling banyak menghemat waktu.

Tetapi ketika industri teknologi mengejar sistem AI yang lebih rumit, seseorang harus menyelesaikan siapa yang membayar ketika pelanggan menuntut pengembalian uang untuk pesanan makanan yang gagal atau menuntut macet yang lebih signifikan. Selama konferensi hukum baru -baru ini di San Francisco, penasihat hukum senior Openai Joseph Fireman dan pengacara lain mengatakan undang -undang yang ada akan menahan pengguna yang mengeluarkan perintah kepada agen yang agak bertanggung jawab atas tindakan agen -agen tersebut – terutama ketika pengguna diperingatkan tentang tindakan dan batasan agen.

Pakar Hukum telah menyarankan bahwa orang -orang yang ingin menggunakan sistem agen menandatangani kontrak yang mendorong tanggung jawab kepada perusahaan yang memasok teknologi. Tentu saja, konsumen biasa tidak dapat memaksa perusahaan raksasa untuk menyetujui persyaratan ini. Jika ada, beberapa pengguna dapat mengandalkan agen untuk meninjau legalese untuk mereka. “Akan ada pertanyaan menarik tentang apakah agen dapat melewati kebijakan privasi dan ketentuan layanan” atas nama pengguna, Rebecca Jacobs, Associate General Counsel di Anthropic, mengatakan di konferensi tersebut.

Dazza Greenwood, seorang pengacara yang telah Meneliti risiko hukum agenmendorong kehati -hatian. “Jika Anda memiliki tingkat kesalahan 10 persen dengan ‘Tambahkan Bawang,’ itu bagi saya tidak ada rilis hampir rilis,” katanya. “Kerjakan sistem Anda sehingga Anda tidak membahayakan orang untuk memulai.”

Kenyataannya adalah bahwa pengguna tidak dapat menendang kaki mereka dan menyerahkan semuanya kepada agen dulu.

Koreksi 4:30 EDT 05/23/25: Versi asli dari cerita ini salah mengartikan komentar tentang perusahaan yang menghadapi pertanggungjawaban. Itu dibuat oleh Benjamin Softness, bukan Joseph Fireman.

Post Views: 62

Cincin bawang

Read Also