Kata-kata yang Mengungkapkan Teks AI Generatif

Sejauh ini, bahkan Perusahaan AI mengalami kesulitan untuk menemukan alat yang dapat mendeteksi secara akurat ketika sebuah tulisan ditulis dihasilkan menggunakan model bahasa besar. Kini, sekelompok peneliti telah menetapkan metode baru untuk memperkirakan penggunaan LLM di sejumlah besar karya tulis ilmiah dengan mengukur “kata-kata berlebih” mana yang mulai muncul lebih sering selama era LLM (yaitu, 2023 dan 2024). Hasilnya “menunjukkan bahwa setidaknya 10 persen dari abstrak 2024 diproses dengan LLM,” menurut para peneliti.

Di dalam sebuah makalah pracetak yang diposting awal bulan iniEmpat peneliti dari Universitas Tubingen dan Universitas Northwestern di Jerman mengatakan mereka terinspirasi oleh penelitian yang mengukur dampak pandemi Covid-19 dengan melihat kematian berlebih dibandingkan dengan masa lalu. Dengan melihat hal serupa pada “penggunaan kata berlebih” setelah alat tulis LLM tersedia secara luas pada akhir tahun 2022para peneliti menemukan bahwa “munculnya LLM menyebabkan peningkatan mendadak dalam frekuensi kata-kata gaya tertentu” yang “belum pernah terjadi sebelumnya baik dalam kualitas maupun kuantitas.”

Menyelami

Untuk mengukur perubahan kosakata ini, para peneliti menganalisis 14 juta abstrak makalah yang diterbitkan di Bahasa Indonesia: PubMed antara tahun 2010 dan 2024, melacak frekuensi relatif setiap kata yang muncul setiap tahun. Mereka kemudian membandingkan frekuensi kata-kata tersebut yang diharapkan (berdasarkan garis tren pra-2023) dengan frekuensi aktual kata-kata tersebut dalam abstrak dari tahun 2023 dan 2024, ketika LLM digunakan secara luas.

Hasilnya menemukan sejumlah kata yang sangat tidak umum dalam abstrak ilmiah ini sebelum tahun 2023 yang tiba-tiba melonjak popularitasnya setelah LLM diperkenalkan. Kata “delves,” misalnya, muncul dalam 25 kali lebih banyak makalah tahun 2024 daripada yang diharapkan tren pra-LLM; kata-kata seperti “showcasing” dan “underscores” meningkat penggunaannya sebanyak sembilan kali lipat. Kata-kata lain yang sebelumnya umum menjadi jauh lebih umum dalam abstrak pasca-LLM: Frekuensi “potential” meningkat sebesar 4,1 poin persentase, “findings” sebesar 2,7 poin persentase, dan “crucial” sebesar 2,6 poin persentase, misalnya.

Perubahan-perubahan seperti ini dalam penggunaan kata tentu saja dapat terjadi secara independen dari penggunaan LLM—evolusi alami bahasa berarti kata-kata terkadang menjadi populer dan tidak populer lagi. Akan tetapi, para peneliti menemukan bahwa, di era pra-LLM, peningkatan yang sangat besar dan tiba-tiba dari tahun ke tahun hanya terlihat pada kata-kata yang terkait dengan peristiwa kesehatan dunia yang besar: “ebola” pada tahun 2015; “zika” pada tahun 2017; dan kata-kata seperti “coronavirus,” “lockdown,” dan “pandemic” pada periode 2020 hingga 2022.

Namun, pada periode pasca-LLM, para peneliti menemukan ratusan kata dengan peningkatan penggunaan ilmiah yang tiba-tiba dan jelas yang tidak memiliki kaitan umum dengan peristiwa dunia. Faktanya, meskipun kata-kata berlebih selama pandemi Covid sebagian besar adalah kata benda, para peneliti menemukan bahwa kata-kata dengan peningkatan frekuensi pasca-LLM sebagian besar adalah “kata gaya” seperti kata kerja, kata sifat, dan kata keterangan (contoh kecil: “across, addition, comprehensive, crucial, increasing, exhibited, insights, notably, especially, within”).

Ini bukanlah temuan yang benar-benar baru—peningkatan prevalensi “delve” dalam makalah ilmiah telah banyak dicatat pada masa lalumisalnya. Namun, penelitian sebelumnya umumnya mengandalkan perbandingan dengan sampel tulisan manusia “kebenaran dasar” atau daftar penanda LLM yang telah ditetapkan sebelumnya yang diperoleh dari luar penelitian. Di sini, kumpulan abstrak pra-2023 bertindak sebagai kelompok kontrol efektifnya sendiri untuk menunjukkan bagaimana pilihan kosakata telah berubah secara keseluruhan di era pasca-LLM.

Interaksi yang Rumit

Dengan menyorot ratusan kata yang disebut “kata penanda” yang menjadi jauh lebih umum di era pasca-LLM, tanda-tanda penggunaan LLM terkadang dapat dengan mudah dikenali. Ambil contoh baris abstrak yang disebutkan oleh para peneliti, dengan kata-kata penanda yang disorot: “A luas pemahaman tentang interaksi yang rumit di antara […] Dan […] adalah sangat penting untuk strategi terapi yang efektif.”

Setelah melakukan beberapa pengukuran statistik terhadap kemunculan kata penanda di setiap makalah, para peneliti memperkirakan bahwa setidaknya 10 persen dari makalah pasca-2022 dalam korpus PubMed ditulis dengan setidaknya beberapa bantuan LLM. Jumlahnya bisa lebih tinggi, kata para peneliti, karena kumpulan mereka mungkin tidak memiliki abstrak yang dibantu LLM yang tidak menyertakan kata penanda yang mereka identifikasi.

Post Views: 419

Menyelami

Interaksi yang Rumit

Read Also