Scroll untuk baca artikel
Lifestyle

Makalah penelitian AI menjadi lebih baik, dan ini merupakan masalah besar bagi para ilmuwan

11
×

Makalah penelitian AI menjadi lebih baik, dan ini merupakan masalah besar bagi para ilmuwan

Share this article
makalah-penelitian-ai-menjadi-lebih-baik,-dan-ini-merupakan-masalah-besar-bagi-para-ilmuwan
Makalah penelitian AI menjadi lebih baik, dan ini merupakan masalah besar bagi para ilmuwan

268512_PHOTO-_Makalah_Penelitian_are_overrun_with_AI_slop_CVirginia

268512_PHOTO-_Makalah_Penelitian_are_overrun_with_AI_slop_CVirginia

Example 300x600

Editor jurnal dan peer reviewer dibanjiri dengan makalah yang dihasilkan oleh AI yang hampir mustahil untuk dideteksi.

oleh

Musim panas lalu, pembimbing pascadoktoral Peter Degen mendatanginya dengan masalah yang tidak biasa: Salah satu makalahnya terlalu banyak dikutip. Kutipan adalah mata uang dunia akademis, tetapi ada sesuatu yang tidak biasa mengenai hal ini. Diterbitkan pada tahun 2017, makalah ini telah menilai keakuratan jenis analisis statistik tertentu pada data epidemiologi dan telah menerima beberapa lusin kutipan terhormat di makalah penelitian lain selama bertahun-tahun, namun kini makalah tersebut dirujuk setiap beberapa hari, ratusan kali, menjadikannya salah satu makalah yang paling banyak dikutip dalam kariernya. Profesor lain mungkin akan senang. Penasihat Degen memintanya untuk menyelidiki.

Degen, seorang peneliti pascadoktoral di Pusat Sintesis Sains dan Penelitian yang Dapat Direproduksi Universitas Zurich, menemukan bahwa semua makalah yang mengutip mengikuti pola yang sama. Seperti penelitian sebelumnya, mereka menganalisis studi Global Burden of Disease, kumpulan data yang tersedia untuk umum yang dikumpulkan oleh Institute for Health Metrics and Evaluation di University of Washington. Namun mereka menggunakan kumpulan data tersebut untuk menghasilkan sesuatu yang tampaknya persediaan prediksi yang tiada habisnya: tentang kemungkinan stroke di masa depan di antara orang dewasa di atas 20 tahun, dari kanker testis di kalangan dewasa muda, dari jatuh pada orang lanjut usia di Tiongkokdari kanker kolorektal pada orang yang makan sedikit biji-bijian, penyakit X pada penduduk Y, dan seterusnya.

Saat mencari kode di GitHub yang akan digunakan untuk melakukan analisis semacam ini, Degen mengikuti beberapa tautan dan membuka situs media sosial Tiongkok Bilibili, di mana ia menemukan sebuah perusahaan yang berbasis di Guangzhou menggembar-gemborkan tutorial tentang cara menghasilkan penelitian yang dapat dipublikasikan dalam waktu kurang dari dua jam menggunakan perangkat lunak dan bantuan penulisan AI. Studi-studi ini tidak terlalu bagus. Peneliti yang menganalisis sebagian dari studi tentang sakit kepala menemukan bahwa mereka penuh dengan kesalahan dan penafsiran yang keliru. Namun makalah-makalah tersebut juga tidak terlalu salah dibandingkan makalah-makalah yang dihasilkan oleh AI di masa lalu, sehingga menjadikannya lebih sulit untuk disaring.

“Ini merupakan beban besar bagi sistem peer-review, yang sudah mencapai batasnya,” kata Degen. “Terlalu banyak makalah yang diterbitkan dan tidak ada cukup peer reviewer, dan jika LLM mempermudah produksi makalah secara massal, maka hal ini akan mencapai titik puncaknya.”

Mereka yang optimis terhadap AI generatif memiliki harapan besar atas kemampuannya menghasilkan terobosan ilmiah di masa depan — mempercepat penemuan, menghilangkan sebagian besar jenis kanker — namun teknologi saat ini melemahkan salah satu pilar penelitian ilmiah, membanjiri editor dan pengulas dengan makalah yang tak ada habisnya. Paradoksnya, semakin baik teknologi dalam menghasilkan surat kabar yang kompeten, semakin buruk pula krisis yang terjadi.

Selama dekade terakhir, penerbitan akademis bersaing dengan apa yang disebut “pabrik kertas”, yaitu perusahaan pasar gelap yang memproduksi makalah secara massal dan menjual slot kepenulisan kepada akademisi, dokter, atau pihak lain yang berharap mendapatkan keunggulan kompetitif dengan menerbitkan penelitian di resume mereka. Ini adalah permainan kucing-kucingan, di mana para penerbit – sering kali didesak oleh apa yang disebut sebagai detektif sains, para peneliti yang berspesialisasi dalam menemukan penelitian palsu – menutup satu kerentanan hanya agar pabrik tersebut menemukan kerentanan baru. AI generatif merupakan keuntungan bagi pabrik karena membantu mereka menghindari pendeteksi plagiarisme dengan membuat gambar dan teks yang benar-benar baru. Namun, halusinasi teknologi berarti bahwa penerbit setidaknya secara teoritis dapat menyaring sebagian besar pekerjaan mereka. Dalam praktiknya, surat-surat masih bisa lolos, hanya untuk ditarik kembali ketika ada detektif yang menemui a diagram tikus dengan alat kelamin raksasa yang diberi label “testtomcels” atau prosa yang ditaburi “sebagai asisten AI” yang lupa dihapus oleh seseorang.

Namun kini AI telah berkembang hingga pada titik di mana ia dapat menghasilkan makalah yang meyakinkan hampir secara keseluruhan, sehingga memungkinkan para akademisi yang putus asa dan membutuhkan publikasi untuk membuat makalah mereka sendiri. Hasilnya adalah banjirnya kecerobohan ilmiah yang mengancam penerbitan, tinjauan sejawat, pemberian hibah, dan sistem penelitian seperti yang ada saat ini.

Gelas slime menggelegak.

Matt Spick, dosen analisis data kesehatan dan biomedis di Universitas Surrey dan associate editor di Laporan Ilmiahpertama kali menyadari fenomena ini ketika ia menerima tiga makalah serupa yang menganalisis Survei Pemeriksaan Kesehatan dan Gizi Nasional AS (NHANES), yang merupakan kumpulan data publik lainnya. Dia memeriksa Google Cendekia dan menyadari bahwa itu bukan suatu kebetulan: Terjadi secara tiba-tiba ledakan di surat kabar mengutip NHANES yang semuanya mengikuti formula serupa, masing-masing mengaku menemukan hubungan antara, misalnya, makan kenari dan fungsi kognitif atau minum susu skim dan depresi.

“Jika Anda memiliki daya komputasi yang cukup, Anda memeriksa dan mengukur setiap asosiasi berpasangan, dan pada akhirnya Anda menemukan beberapa yang belum pernah ditulis sebelumnya dan Anda cukup mempublikasikan: Ada korelasi antara ini dan itu,” kata Spick. Korelasi ini sering kali merupakan penyederhanaan fenomena yang menyesatkan dengan berbagai penyebab atau kebetulan statistik yang acak. “Salah satunya adalah berapa tahun yang Anda habiskan dalam pendidikan akan menyebabkan komplikasi hernia pasca operasi. Itu hanya korelasi acak. Apa yang harus saya lakukan dengan hal itu? Meninggalkan sekolah lebih awal agar saya tidak mengalami komplikasi hernia pasca operasi di kemudian hari?”

Selama bertahun-tahun, detektif telah mengembangkan berbagai metode untuk mendeteksi surat-surat tidak autentik. Beberapa mencari “frase tersiksa,” contoh ketika seseorang mencoba menghindari pendeteksi plagiarisme dengan memasukkan makalah yang sudah ada melalui generator sinonim, yang sering kali berdampak mengubah istilah teknis seperti “pembelajaran penguatan” menjadi tidak masuk akal seperti “penguatan untuk mengetahui,” untuk mengutip salah satu contoh terbaru. Detektif lainnya melacak gambar duplikatmelakukan analisis jaringan penulis, atau memeriksa kutipan untuk publikasi berhalusinasi, tanda klasik penggunaan LLM. Spick menelusuri banyak makalah dengan mengikuti template yang sama saat mereka menganalisis kumpulan data publik.

“Penguatan untuk mengetahui”

Makalah-makalah ini belum tentu salah, meski sering kali menyesatkan. Mereka juga tidak sepenuhnya curang. Itu tidak berguna, dan tiba-tiba menjadi sangat mudah dibuat. Tahun lalu, beberapa jurnal dimulai membatasi pengiriman makalah yang menganalisis kumpulan data publik, mengutip banyaknya penelitian yang berlebihan.

Spick khawatir langkah-langkah ini mungkin akan menjadi pertarungan terakhir. Dalam beberapa bulan terakhir, perusahaan AI telah merilis serangkaian asisten sains “agentik” yang mampu menganalisis data, menghasilkan hipotesis, dan menulis makalah penelitian dengan otonomi tingkat tinggi. Meskipun mungkin merupakan langkah menuju tujuan ilmu pengetahuan yang dipercepat oleh AI, sistem ini juga mempunyai risiko baru. Kapan Peneliti Carnegie Mellon menguji beberapa alat agen, mereka menemukan bahwa mereka terkadang menemukan data atau menggunakan teknik yang menyesatkan, namun kesalahan ini hanya terlihat setelah analisis mendalam terhadap alur kerja keseluruhan; makalah terakhir tampak dipoles.

Mengumumkan penulisan makalah AI Asisten awal tahun ini, Kevin Weil, yang saat itu menjabat sebagai wakil presiden bidang sains OpenAI, memperkirakan, “Saya pikir tahun 2026 akan menjadi tahun bagi AI dan sains, sama seperti tahun 2025 bagi AI dan rekayasa perangkat lunak.” Spick dan beberapa rekannya, yang penasaran dengan apa yang bisa dilakukan alat ini, memberikan alat yang disebut Prism, beberapa data dari makalah yang sudah diterbitkan yang mendokumentasikan waktu pematangan terong dan paprika. Prism menganalisis data, mengusulkan metode statistik baru yang dapat diterapkan, dan menulis seluruh kertas lengkap dengan grafik dan kutipan yang benar.

“Kami semua saling memandang seperti, ‘Apa-apaan ini [expletive]ini sebenarnya merupakan karya yang bagus!’” Spick mengenang. Berbeda dengan makalah yang dia temui sebelumnya, makalah ini tidak mengikuti templat, juga tidak menggunakan database tunggal yang terkenal. Pembuatannya membutuhkan waktu 25 menit dan 50 detik.

“Saya benar-benar tidak yakin pada titik mana kita akan tiba-tiba menyadari bahwa lebih banyak hal yang bisa kita lewati daripada yang kita sadari karena kita tidak dapat dengan mudah membedakannya lagi,” kata Spick.

Hal ini menimbulkan beberapa pertanyaan filosofis, kata Spick, seperti: Apakah penting siapa atau apa yang menulis makalah jika informasinya akurat? Dan haruskah sains berupaya mempublikasikan setiap fakta yang ada?

“Bagian dari ilmu pengetahuan seharusnya menjadi filter. Kita seharusnya mempublikasikan hal-hal yang kita anggap menarik, bukan mempublikasikan apa pun yang mungkin bisa kita temukan,” kata Spick. “Karena jika kita melakukan hal tersebut, ilmu pengetahuan hanya akan mengirim spam ke seluruh dunia dengan semua datanya, terlepas dari apakah data tersebut benar-benar merupakan pengetahuan baru atau tidak, dan dalam jangka waktu menengah, hampir mustahil untuk menentukan mana yang bermakna dan mana yang tidak.”

Ini adalah tantangan praktis yang ditimbulkan oleh agen AI. Mereka mengancam akan membebani sistem manusia yang menciptakan dan mengatur pengetahuan. Penyandang dana penelitian bersaing dengan hal ini serangan proposal disesuaikan secara sempurna dengan hibah khusus mereka, tidak dapat menguraikan proyek mana yang mewakili langkah selanjutnya dalam kerja bertahun-tahun dan proyek mana yang dihasilkan dalam hitungan menit. Penyelenggara konferensi, editor jurnal, dan peer reviewer semuanya berjuang untuk memilah-milah materi yang pada pandangan pertama tampak cukup bagus untuk dibaca dengan cermat. Terdapat asimetri yang sangat besar dan semakin besar antara waktu yang diperlukan untuk menghasilkan karya baru dan waktu yang diperlukan oleh pakar di bidangnya untuk memeriksanya.

Untuk Marit Moe-Pryce, redaktur pelaksana jurnal hubungan internasional Dialog Keamananjumlah yang dikirimkan meningkat 100 persen dibandingkan tahun sebelumnya. Sama bermasalahnya: Semua kiriman menjadi cukup bagus. Hilang sudah halusinasi terang-terangan dan petunjuk yang tersisa; semuanya tiba-tiba menjadi koheren, terstruktur dengan baik, dan memiliki gaya yang mirip, sulit untuk mengatakan apakah itu makalah yang dihasilkan sepenuhnya, akademisi berpengalaman, atau sarjana muda yang menggunakan AI sebagai editor.

“Masalah utama yang kami lihat saat ini adalah bahwa sisi penipuan dan sisi akademis saling terkait, yang berakhir dengan sejumlah besar artikel berwarna abu-abu sehingga kita sebagai editor perlu memikirkan dan mencoba mencari tahu, ‘Apa ini? Apakah ini sesuatu yang perlu kita tangani? Bukankah begitu?’” kata Moe-Pryce.

Sebuah makalah berhasil melewati setidaknya 10 editor dan dua putaran tinjauan sejawat sebelum dia melihat adanya kutipan palsu – kutipan yang sangat masuk akal, yang melibatkan beberapa mantan editor jurnal tersebut mengenai topik yang seharusnya mereka tulis tetapi tidak pernah mereka tulis. Dia kemudian menemukan beberapa lagi. Dia tidak tahu pada tahap revisi apa halusinasi itu muncul, tetapi kejadian ini menggarisbawahi tingkat kehati-hatian yang diperlukan untuk memastikan tidak ada informasi palsu yang dipublikasikan. Kini, karena semakin banyak model yang mengutip makalah nyata, ia harus membaca apakah karya yang dikutip benar-benar akan digunakan oleh seorang pakar, karena AI belum menguasai perbedaan antara literatur kanonik dan karya yang lebih bersifat periferal.

“Ini sangat rinci, dan ini adalah bagian normal dari pekerjaan editorial. Perbedaannya adalah sekarang Anda harus melakukan itu untuk semua sampah yang masuk,” kata Moe-Pryce. “Itulah mengapa beban kerja kami menjadi tidak terkendali.”

“AI saat ini berpotensi menjatuhkan sistem penerbitan yang kita kenal.”

Makalah akademis melalui proses review multi-tahap sebelum dipublikasikan. Pertama, manuskrip diprioritaskan untuk menemukan masalah yang jelas, kemudian dikirim ke editor jurnal, yang memutuskan apakah manuskrip tersebut layak diterbitkan. Editor kemudian mengirimkannya ke associate editor yang berpengalaman di bidangnya, yang sekali lagi memeriksanya sebelum merekrut dua atau tiga spesialis materi pelajaran – “rekan” dalam tinjauan sejawat – untuk membaca makalah dan menulis tanggapan. Editor dan reviewernya salah ketik mereka biasanya bekerja secara gratis, menyumbangkan waktu mereka di samping pekerjaan akademis utama mereka.

Sistem peninjauan telah mengalami kesulitan dalam menghadapi peningkatan volume kiriman, dan kini AI meningkatkan volume tersebut sekaligus membuat kiriman yang buruk menjadi lebih sulit untuk disaring. Moe-Pryce sekarang menghabiskan lebih banyak waktu untuk memilah makalah sebelum memutuskan apa yang akan dikirim untuk ditinjau, dan calon pengulas, yang sibuk, semakin kecil kemungkinannya untuk memberikan tanggapan. Jika sebelumnya dia dapat mengirimkan empat pertanyaan dan mendapatkan tiga balasan, kini dia memerlukan selusin kali percobaan untuk mendapatkan dua orang. Semakin lama, dia menjangkau 20 pengulas dan tidak mendengar apa pun.

“Ini melelahkan. Jurnal akademis telah menjamur, dan kemudian ada AI yang membantu semua orang yang melakukan penipuan atau tidak menghasilkan lebih banyak, lebih cepat, sehingga Anda mengalami peningkatan volume yang besar,” katanya. “AI saat ini berpotensi menjatuhkan sistem penerbitan yang kita kenal.”

Jurnal Akuntabilitas dalam Penelitian telah mengalami lonjakan pengiriman sebesar 60 persen tahun ini, menurut David Resnik, editor rekanan di jurnal tersebut. Ironisnya, ia dikepung oleh makalah-makalah yang kemungkinan besar dibuat oleh AI tentang makalah-makalah akademis palsu yang memanfaatkan data publik yang dikumpulkan oleh organisasi Retraction Watch.

Dia juga kesulitan menemukan pengulas. Kadang-kadang, dia harus mengirimkan 20 permintaan hanya untuk mendapatkan dua tanggapan — dan dia curiga bahwa beberapa tanggapan yang dia terima adalah hasil buatan AI sendiri. Dia punya alasan untuk curiga. Sebuah survei yang dilakukan oleh perusahaan penerbitan Frontiers tahun lalu menemukan bahwa lebih dari separuh peneliti telah menggunakan bantuan AI dalam tinjauan sejawat mereka.

“Saya sangat khawatir dengan hal ini yang membebani dan merusak sistem peer-review,” kata Resnik.

Agen AI tiba pada saat filter kualitas akademisi sudah berjuang untuk mengatasi melimpahnya makalah. Jumlah makalah ilmiah yang diterbitkan telah meningkat secara eksponensial dalam beberapa tahun terakhir, menurut sebuah analisis data diterbitkan di Studi Ilmu Kuantitatifsementara jumlah PhD yang mungkin mengulasnya belum. Sayangnya, penulis mengaitkan ledakan produktivitas ini bukan karena kemajuan pesat dalam sains, namun karena adanya insentif komersial dan profesional yang selaras untuk menerbitkan makalah dalam jumlah maksimum.

Gelas kimia berisi lendir hijau yang dikelilingi kertas penelitian.

Banyak jurnal telah beralih ke model “akses terbuka” di mana mereka memperoleh pendapatan dengan membebankan biaya pemrosesan kepada penulis agar makalah mereka diterbitkan, dibandingkan dengan membebankan biaya berlangganan. Dalam laporan pendapatan, perusahaan penerbitan memuji peningkatan pengiriman sebesar 20 persen atau lebih baru-baru ini sebagai kisah pertumbuhan yang positif. Sementara itu, universitas dan lembaga pendanaan mempertimbangkan metrik publikasi peneliti ketika memutuskan siapa yang akan didanai atau dipromosikan, yang berarti peneliti berada di bawah tekanan untuk “mempublikasikan atau binasa.” Bukan hanya akademisi tradisional saja yang berada di bawah tekanan untuk mempublikasikan karya mereka. Mahasiswa kedokteran luar negeri dapat meningkatkan peluang mereka untuk mengikuti program residensi di AS dengan menyertakan beberapa makalah yang telah ditinjau oleh rekan sejawat di resume mereka. Di Tiongkok, dokter medis memiliki insentif yang kuat untuk menerbitkan makalah meskipun tidak mempunyai waktu dan sumber daya untuk melakukan penelitian, sehingga pembuatan makalah secara cepat merupakan pilihan yang menarik.

Jika Anda memperkenalkan mesin pembuat makalah tanpa batas ke dalam sistem yang menentukan produktivitas berdasarkan jumlah makalah yang ditulis, orang akan menggunakannya untuk menulis banyak makalah. Sebuah penelitian yang diterbitkan di Alam tahun ini ditemukan bahwa ilmuwan yang mengadopsi AI menerbitkan makalah tiga kali lebih banyak dan menerima kutipan hampir lima kali lebih banyak dibandingkan mereka yang tidak. Mereka juga menjadi pemimpin proyek penelitian 1,37 tahun lebih awal dibandingkan mereka yang tidak menggunakan AI. Meskipun bermanfaat secara individual, penerapan AI dalam memproduksi makalah secara massal mungkin merugikan sains sebagai upaya kolektif, selain melelahkan editor jurnal dan peninjau sejawat. Studi yang sama menemukan adanya penyempitan fokus kolektif karena para ilmuwan baru yang produktif ini tertarik pada bidang-bidang yang telah dipelajari dengan baik dan memiliki banyak data untuk disintesis oleh AI.

Tidak ada solusi mudah untuk masalah ini. Pada tahun 2022, organisasi ilmiah STM meluncurkan inisiatif yang disebut Integrity Hub untuk bersaing dengan pabrik kertas. Sejak itu, mereka telah terlibat dalam “perlombaan senjata” dengan AI, menurut Joris van Rossum, direktur program proyek tersebut – yang merakit alat otomatis untuk memeriksa plagiarisme, lalu frasa yang menyiksa, lalu kutipan palsu – namun kelompok tersebut kini harus mempertimbangkan solusi yang lebih menyeluruh.

“Saya sangat khawatir dengan sistem peer-review yang membebani dan melemahkan ini.”

“Kami mengantisipasi masa depan di mana akan lebih realistis untuk memungkinkan pengirim menunjukkan keaslian daripada mencoba mendeteksi pemalsuan,” katanya. Artinya, ketika manuskrip palsu tidak mungkin dideteksi, penerbit harus menemukan cara bagi peneliti untuk membuktikan karya mereka nyata – mungkin dengan bekerja sama dengan produsen instrumen untuk mengembangkan cara memberi watermark pada gambar mereka, katanya, atau meminta peneliti mengirimkan lebih banyak data di balik karya mereka sehingga dapat dianalisis untuk mencari sinyal yang mencurigakan.

Hal ini memerlukan perubahan dalam cara penelitian dilakukan dalam skala besar, dan meskipun hal ini mungkin dapat membendung penipuan, hal ini tidak akan banyak membantu mengurangi masalah volume. Menggunakan AI untuk membantu tinjauan sejawat, seperti beberapa telah mengusulkan — dan beberapa pengulas sudah melakukannya, diizinkan atau tidak — menimbulkan risiko lain yang mungkin terjadi. Penelitian telah menemukan bahwa model sering kali terus mengutip penelitian yang ditarik kembali sebagai penelitian yang valid dan tertulis secara dangkal baik ulasan sambil mengabaikan masalah metodologis. Peninjau AI juga tampaknya demikian lebih menyukai Tulisan yang dihasilkan AI.

“Ini sebenarnya bukan masalah yang bisa diselesaikan,” kata Reese Richardson, peneliti pascadoktoral di Universitas Northwestern yang mempelajari makalah yang diproduksi secara massal. “Saya pikir satu-satunya jalan keluar dari situasi ini adalah dengan benar-benar mengubah cara perusahaan ilmiah menghargai prestise dan menghargai sumber daya. Selama kita menghadapi perlombaan yang sangat kompetitif dan sangat tidak setara di mana produktivitas manusia dan nilai mereka sebagai ilmuwan diukur dari berapa banyak publikasi yang mereka terbitkan dan berapa kali mereka dikutip, hal ini hanya akan mendorong perilaku ini.”

Vincent Larivière, pemimpin redaksi Studi Ilmu Kuantitatifmemiliki diagnosis serupa. Jurnalnya mengalami peningkatan pengiriman sebesar 40 persen tahun ini.

“Kita memerlukan reformasi terhadap hal-hal yang penting dalam sains,” kata Larivière. Penggabungan produktivitas ilmiah dengan jumlah publikasi telah menimbulkan efek distorsi terhadap sains, menyebabkan penelitian tertarik pada masalah-masalah kecil dan mudah diselesaikan yang dijamin akan menghasilkan sesuatu yang dapat dipublikasikan. AI dapat melakukan hal-hal hebat, katanya – membantu menyembuhkan kanker, mengembangkan energi fusi – namun saat ini AI digunakan untuk menghasilkan kertas untuk “melengkapi CV.”

“Tentu saja kita memerlukan lebih banyak ilmu pengetahuan,” katanya, “tetapi apakah kita memerlukan lebih banyak makalah?”

Ikuti topik dan penulis dari cerita ini untuk melihat lebih banyak hal serupa di feed beranda hasil personalisasi Anda dan untuk menerima pembaruan email.