Untuk Pertama Kalinya, AI Menganalisis Bahasa serta Pakar Manusia

Versi aslinya dari cerita ini muncul di Majalah Kuanta.

Di antara segudang kemampuan yang dimiliki manusia, manakah yang unik bagi manusia? Bahasa telah menjadi kandidat utama setidaknya sejak Aristoteles, yang menulis bahwa umat manusia adalah “hewan yang memiliki bahasa.” Meskipun model bahasa besar seperti ChatGPT secara dangkal mereplikasi ucapan biasa, para peneliti ingin mengetahui apakah ada aspek tertentu dari bahasa manusia yang tidak ada bandingannya dengan sistem komunikasi hewan lain atau perangkat dengan kecerdasan buatan.

Secara khusus, para peneliti telah mengeksplorasi sejauh mana model bahasa dapat memberikan alasan tentang bahasa itu sendiri. Bagi sebagian komunitas linguistik, model bahasa tidak hanya jangan memiliki kemampuan penalaran, mereka tidak bisa. Pandangan ini dirangkum oleh Noam Chomsky, seorang ahli bahasa terkemuka, dan dua rekan penulis pada tahun 2023, ketika mereka menulis di Waktu New York bahwa “penjelasan bahasa yang benar itu rumit dan tidak dapat dipelajari hanya dengan memanfaatkan data besar.” Model AI mungkin mahir menggunakan bahasa, menurut para peneliti, namun mereka tidak mampu menganalisis bahasa dengan cara yang canggih.

Gambar mungkin berisi Buku Dalam Ruangan, Publikasi Perpustakaan, Furnitur Orang Dewasa, Rak Buku, Muka dan Kepala

Pandangan itu ditentang baru-baru ini kertas oleh Gasper Mulaiseorang ahli bahasa di Universitas California, Berkeley; Maksymilian Dabkowskiyang baru-baru ini menerima gelar doktor di bidang linguistik di Berkeley; Dan Ryan Rhodes dari Universitas Rutgers. Para peneliti menerapkan sejumlah model bahasa besar, atau LLM, melalui serangkaian tes linguistik—termasuk, dalam satu kasus, meminta LLM menggeneralisasi aturan bahasa buatan. Meskipun sebagian besar LLM gagal menguraikan aturan linguistik seperti yang mampu dilakukan manusia, salah satu LLM memiliki kemampuan mengesankan yang jauh melebihi ekspektasi. Ia mampu menganalisis bahasa dengan cara yang hampir sama seperti yang dilakukan mahasiswa pascasarjana di bidang linguistik—membuat diagram kalimat, menyelesaikan berbagai makna ambigu, dan memanfaatkan fitur linguistik yang rumit seperti rekursi. Temuan ini, kata Beguš, “menantang pemahaman kita tentang apa yang dapat dilakukan AI.”

Pekerjaan baru ini tepat waktu dan “sangat penting,” katanya Tom McCoyseorang ahli bahasa komputasi di Universitas Yale yang tidak terlibat dalam penelitian ini. “Seiring dengan semakin bergantungnya masyarakat pada teknologi ini, semakin penting untuk memahami di mana teknologi ini bisa berhasil dan di mana bisa gagal.” Analisis linguistik, tambahnya, adalah uji coba yang ideal untuk mengevaluasi sejauh mana model bahasa ini dapat berpikir seperti manusia.

Kompleksitas Tak Terbatas

Salah satu tantangan dalam memberikan tes linguistik yang ketat pada model bahasa adalah memastikan model tersebut belum mengetahui jawabannya. Sistem ini biasanya dilatih berdasarkan informasi tertulis dalam jumlah besar—tidak hanya sebagian besar di internet, dalam puluhan bahkan ratusan bahasa, tetapi juga hal-hal seperti buku teks linguistik. Secara teori, model tersebut dapat dengan mudah mengingat dan memuntahkan informasi yang telah diberikan selama pelatihan.

Untuk menghindari hal ini, Beguš dan rekan-rekannya membuat tes linguistik dalam empat bagian. Tiga dari empat bagian melibatkan meminta model untuk menganalisis kalimat yang dibuat secara khusus menggunakan diagram pohon, yang pertama kali diperkenalkan dalam buku penting Chomsky tahun 1957, Struktur Sintaksis. Diagram ini memecah kalimat menjadi frase kata benda dan frase kata kerja dan kemudian membaginya lagi menjadi kata benda, kata kerja, kata sifat, kata keterangan, preposisi, konjungsi dan sebagainya.

Salah satu bagian dari tes ini berfokus pada rekursi—kemampuan untuk menyematkan frasa di dalam frasa. “Langit berwarna biru” adalah kalimat bahasa Inggris sederhana. “Jane bilang langit itu biru” menyematkan kalimat aslinya dalam kalimat yang sedikit lebih kompleks. Yang penting, proses rekursi ini dapat berlangsung selamanya: “Maria bertanya-tanya apakah Sam tahu bahwa Omar mendengar bahwa Jane berkata bahwa langit itu biru” juga merupakan kalimat rekursif yang benar secara tata bahasa, namun canggung.

Rekursi telah disebut sebagai salah satu ciri khas bahasa manusia oleh Chomsky dan yang lainnya—dan mungkin juga merupakan ciri khas pikiran manusia. Para ahli bahasa berpendapat bahwa potensinya yang tidak terbatas inilah yang membuat bahasa manusia memiliki kemampuan untuk menghasilkan kemungkinan kalimat dalam jumlah tak terbatas dari kosa kata yang terbatas dan seperangkat aturan yang terbatas. Sejauh ini, belum ada bukti yang meyakinkan bahwa hewan lain dapat menggunakan rekursi dengan cara yang canggih.

Rekursi dapat terjadi di awal atau akhir kalimat, namun bentuk yang paling sulit untuk dikuasai, disebut center embedding, terjadi di tengah—misalnya, dari “kucing mati” menjadi “kucing anjing itu menggigit mati.”

Tes Beguš memberi model bahasa 30 kalimat asli yang menampilkan contoh rekursi yang rumit. Misalnya: “Astronomi yang kita pelajari dahulu tidak terpisah dari astrologi.” Dengan menggunakan pohon sintaksis, salah satu model bahasa—o1 OpenAI—dapat menentukan struktur kalimat seperti ini:

Astronomi [orangdahulu[[theancients[kami hormati]belajar] tidak terpisah dari astrologi.

Model tersebut kemudian melangkah lebih jauh dan menambahkan lapisan rekursi lain ke dalam kalimat:

Astronomi [orangdahulu[[theancients[kami hormati [[yang tinggal di tanah yang kita hargai]]belajar] tidak terpisah dari astrologi.

Beguš, antara lain, tidak mengantisipasi bahwa penelitian ini akan menemukan model AI dengan kapasitas “metalinguistik” tingkat lebih tinggi – “kemampuan tidak hanya menggunakan bahasa tetapi juga berpikir tentang bahasa,” katanya.

Itu adalah salah satu aspek yang “menarik perhatian” dari makalah mereka, katanya David Mortensenseorang ahli bahasa komputasi di Universitas Carnegie Mellon yang tidak terlibat dalam pekerjaan ini. Ada perdebatan mengenai apakah model bahasa hanya memprediksi kata berikutnya (atau tanda linguistik) dalam sebuah kalimat, yang secara kualitatif berbeda dari pemahaman mendalam tentang bahasa yang dimiliki manusia. “Beberapa orang di bidang linguistik mengatakan bahwa LLM tidak benar-benar mengerjakan bahasa,” katanya. “Ini sepertinya membatalkan klaim tersebut.”

Apa maksudmu?

McCoy terkejut dengan kinerja o1 secara umum, khususnya dengan kemampuannya mengenali ambiguitas, yang “terkenal merupakan hal yang sulit ditangkap oleh model bahasa komputasi,” katanya. Manusia “memiliki banyak pengetahuan yang masuk akal yang memungkinkan kita mengesampingkan ambiguitas. Namun sulit bagi komputer untuk memiliki tingkat pengetahuan yang masuk akal.”

Kalimat seperti “Rowan memberi makan ayam peliharaannya” dapat menggambarkan ayam yang dipelihara Rowan sebagai hewan peliharaan, atau dapat juga menggambarkan makanan berupa daging ayam yang ia berikan kepada hewan peliharaannya (yang mungkin lebih tradisional). Model o1 dengan benar menghasilkan dua pohon sintaksis yang berbeda, satu yang sesuai dengan interpretasi pertama dari kalimat dan satu lagi yang sesuai dengan yang terakhir.

Para peneliti juga melakukan eksperimen yang berkaitan dengan fonologi—studi tentang pola bunyi dan cara unit terkecil bunyi, yang disebut fonem, disusun. Untuk berbicara dengan lancar, seperti penutur asli, orang mengikuti aturan fonologis yang mungkin mereka pelajari melalui latihan tanpa pernah diajarkan secara eksplisit. Dalam bahasa Inggris, misalnya, menambahkan “s” pada kata yang diakhiri dengan “g” akan menghasilkan bunyi “z”, seperti pada “dogs”. Namun huruf “s” yang ditambahkan pada kata yang diakhiri dengan “t” terdengar lebih seperti “s” standar, seperti pada “cats”.

Dalam tugas fonologi, kelompok tersebut membuat 30 bahasa mini baru, sebagaimana Beguš menyebutnya, untuk mengetahui apakah LLM dapat menyimpulkan aturan fonologis dengan benar tanpa pengetahuan sebelumnya. Setiap bahasa terdiri dari 40 kata buatan. Berikut beberapa contoh kata dari salah satu bahasa:

θalp
sekali
ði̤zṳ
ga̤rbo̤nda̤
ʒi̤zṳðe̤jo

Mereka kemudian meminta model bahasa untuk menganalisis proses fonologis setiap bahasa. Untuk bahasa ini, o1 dengan tepat menulis bahwa “sebuah vokal menjadi vokal bernafas jika didahului oleh konsonan yang bersuara sekaligus menghalangi”—bunyi yang dibentuk dengan membatasi aliran udara, seperti huruf “t” di “top”.

Bahasa-bahasa tersebut baru ditemukan, jadi tidak mungkin o1 dapat mempelajarinya selama pelatihan. “Saya tidak menyangka hasilnya akan sekuat atau mengesankan,” kata Mortensen.

Uniknya Manusia atau Bukan?

Seberapa jauh model bahasa ini bisa berkembang? Akankah mereka menjadi lebih baik, tanpa batas, hanya dengan menjadi lebih besar—menggunakan lebih banyak daya komputasi, lebih banyak kompleksitas, dan lebih banyak data pelatihan? Ataukah beberapa ciri bahasa manusia merupakan hasil proses evolusi yang terbatas pada spesies kita?

Hasil terbaru menunjukkan bahwa model ini, pada prinsipnya, dapat melakukan analisis linguistik yang canggih. Namun belum ada model yang menghasilkan sesuatu yang orisinal, dan model tersebut juga belum mengajarkan kita sesuatu tentang bahasa yang belum kita ketahui sebelumnya.

Jika perbaikan hanya sekedar peningkatan daya komputasi dan data pelatihan, maka Beguš berpendapat bahwa model bahasa pada akhirnya akan melampaui kita dalam keterampilan bahasa. Mortensen mengatakan model saat ini agak terbatas. “Mereka dilatih untuk melakukan sesuatu yang sangat spesifik: mengingat sejarah token [or words]untuk memprediksi kejadian berikutnya,” katanya. “Mereka mengalami kesulitan dalam menggeneralisasi berdasarkan cara mereka dilatih.”

Namun mengingat kemajuan terkini, Mortensen mengatakan dia tidak mengerti mengapa model bahasa pada akhirnya tidak menunjukkan pemahaman bahasa yang lebih baik daripada bahasa kita sendiri. “Hanya masalah waktu sebelum kita dapat membangun model yang dapat melakukan generalisasi lebih baik dari data yang lebih sedikit dengan cara yang lebih kreatif.”

Hasil baru ini menunjukkan “pengikisan” yang terus-menerus pada properti yang selama ini dianggap sebagai domain eksklusif bahasa manusia, kata Beguš. “Tampaknya kita tidak seunik yang kita duga sebelumnya.”

Cerita asli dicetak ulang dengan izin dari Majalah Kuanta, publikasi editorial independen dari Yayasan Simons yang misinya adalah untuk meningkatkan pemahaman masyarakat terhadap sains dengan meliput perkembangan dan tren penelitian di bidang matematika serta ilmu fisika dan kehidupan.

Post Views: 56

Kompleksitas Tak Terbatas

Apa maksudmu?

Uniknya Manusia atau Bukan?

Read Also