Saya seorang Pemeriksa Fakta Profesional. AI Lebih Sering Salah Dari Yang Anda Pikirkan

Hampir setengahnya Orang Amerika mengatakan demikian menggunakan AI untuk mencari informasi dan menghasilkan ide. Tidak sulit untuk mengetahui alasannya. Seiring dengan berkembangnya media sosial air kotor—dan Google menjadi laman landas yang dimuliakan untuk rangkaian pesan Reddit dan kumpulan konten—kebanyakan dari kita mendambakan sesuatu yang dapat diandalkan. Ditambah lagi, chatbot juga demikian bermanfaatbukan? Pertama kali saya berinteraksi dengan salah satunya, saya bertanya apakah mereka tahu bahwa hal itu menghabiskan banyak sumber daya. Setengah jam kemudian, saya mendapat resep baru untuk krim keju vegan.

Saya belum pernah mencoba resepnya. Sebaliknya, saya menemukan yang buatan manusia yang mungkin telah dihapus oleh LLM. Tentu saja begitulah cara kerja model-model ini. Mereka mengemas ulang pengetahuan kolektif menjadi sesuatu yang terasa disesuaikan dengan Anda. Ini mungkin OK untuk alternatif produk susu (kecuali Anda seorang blogger vegan). Tapi menurut tatanan dunia, dan kebenaran—fokus peran saya sebagai pemeriksa fakta di WIRED—taruhannya jauh lebih tinggi.

Selama setahun terakhir ini, semakin banyak orang memandang saya dengan rasa kasihan. Tentunya pengecekan fakta di majalah tidak akan lama lagi di dunia yang telah ditingkatkan AI ini. Sebut saja aku bodoh, tapi aku tidak terlalu khawatir. Saya menyimpulkan, sangat sedikit pengetahuan kolektif umat manusia yang ada di internet. Dan menurut penelitian saya, AI ternyata lebih salah dari yang diperkirakan orang.

Rupanya Tom Wolfe pemikiran pemeriksa fakta, menurut penulis Colin Dickeysebagai “komplotan rahasia wanita dan editor menengah yang semuanya berkolaborasi untuk mengebiri dan mengebiri prosa Penulis Hebat.” Dari segi definisi, itu tidak buruk (walaupun atasan saya dan banyak kolega saya adalah laki-laki). Apa yang bisa saya katakan? Itu tugas kita, tidak seperti AImenjengkelkan.

Departemen pengecekan fakta WIRED sudah kuno: anotasi baris demi baris yang cermat, sumber utama bila memungkinkan, dan tinjauan etika dan hukum dalam skala yang lebih luas. Kita mempertanyakan asumsi-asumsi dasar, mencari informasi baru atau yang bertentangan, menelepon dan berbicara dengan orang-orang—memastikannya. Ini adalah tinjauan sejawat yang cepat, berfungsi sebaik mungkin dengan kecepatan yang sama seperti berita itu sendiri.

Sejauh yang saya tahu, AI belum hadir untuk proses ini. Tujuannya adalah pengecekan fakta “post hoc”, yaitu analisis gaya Snopes mengenai faktualitas sesuatu setelah faktanya terjadi. Di Inggris, sebuah inisiatif disebut Fakta Lengkap telah mengembangkan alat AI sendiri untuk membantu menggagalkan penyebaran informasi yang salah. Alat-alat ini, yang digunakan di lebih dari 40 negara, memproses data dalam jumlah besar, mulai dari postingan media sosial hingga transkrip podcast, kemudian menunjukkan klaim spesifik yang dapat diselidiki lebih lanjut oleh manusia. “Anda pasti membutuhkan manusia,” kata Mark Frankel, kepala urusan masyarakat Full Fact.

Alasannya sederhana: AI masih melakukan kesalahan. Sebagai pemeriksa fakta, saya ingin dapat memberi tahu Anda seberapa sering hal tersebut terjadi. Tapi itu tidak mudah. Sejak 2018, hampir 17.000 makalah telah diterbitkan diposting ke arXiv di LLM, banyak yang berfokus secara khusus pada pertanyaan tentang keandalannya. Tetap saja, ada baiknya mencoba menentukan angka kerja.

Dalam artikel mana pun yang ada di meja pengecekan fakta WIRED, biasanya terdapat sejumlah “b-matter”: statistik, peristiwa berita, kutipan, apa pun yang membantu mengkontekstualisasikan topik. Para pemeriksa fakta cenderung mencari informasi dasar dan proses tersebut di Google, dalam bentuk mesin pencari Ikhtisar AI yang ditakutimerupakan interaksi utama saya dengan AI. Menurut pendapat profesional saya, ini tidak dapat digunakan—salah—sekitar sepertiga dari keseluruhan waktu.

Namun, ini mungkin merupakan penilaian yang murah hati. Sebuah studi pada bulan Maret 2025 dari Pusat Jurnalisme Digital menemukan bahwa lebih dari 60 persen tanggapan dari mesin pencari yang didukung AI tidak akurat. Sebuah penelitian di BBC mengungkap kesalahan chatbot mendekati 45 persennomor yang lebih sering saya lihat dikutip. Karena persentasenya berbeda, izinkan saya menjelaskannya dengan lebih jelas: AI bisa saja salah pada separuh waktu.

Apakah penting model yang mana? Elon Musk mengatakan Grok adalah paling cerdastapi saya belum melihat banyak penelitian yang setuju. Claude memimpin dalam RealFactBench, tes benchmark yang berfokus pada pengecekan fakta dikembangkan oleh ilmuwan komputer di Tiongkok dan Inggris tahun lalu. Ini mencetak akurasi 73 persen di semua metrik. (Agar adil, Grok tidak dinilai.) Tolok ukur lainnya, SimpleQA, yang dikembangkan oleh OpenAI pada bulan Oktober 2024, menghasilkan lebih dari sekadar penilaian. 4.000 pertanyaan dengan jawaban tunggal hingga model dari OpenAI dan Anthropic. Tak satu pun model yang akurasinya melebihi 50 persen. Google memperbarui tolok ukur awal tahun ini, menampi pertanyaan yang ditetapkan menjadi 1.000. Gemini 2.5 Pro menjadi yang teratas, dengan akurasi 55,6 persen.

Lalu ada penilaian model itu sendiri. Saat saya bertanya kepada ChatGPT seberapa akurat LLM utama, saya diberitahu bahwa sebagian besar model memiliki akurasi 90 hingga 96 persen pada beberapa pengujian gaya profesional. Ia kemudian menawarkan tautan, yang membingungkan, ke makalah tentang ujian sertifikasi obat tidur. Pada “pertanyaan umum di dunia nyata,” ia hanya memberi saya tingkat di mana model seperti itu terbukti berhalusinasi: 1 hingga 2 persen, tampaknya, meskipun ketika saya mencoba mengklik ke sumber referensi tersebut, sumber tersebut tidak ada.

Ada yang mengatakan para model semakin pintar, namun hal ini tidak berarti berkurangnya halusinasi. Faktanya, hal ini bisa berarti lebih dari itu, semacam kompensasi berlebihan yang berakar pada kebutuhan terprogram mereka untuk menyenangkan pengguna. Dalam laporan tahun 2025 tentang masa depan AI oleh Asosiasi untuk Kemajuan Kecerdasan Buatan60 persen peneliti yang disurvei meragukan bahwa masalah “faktualitas” akan teratasi dalam waktu dekat.

Gambar mungkin berisi Aksesori Robot dan Orang

Kapan calon pemeriksa fakta melamar suatu posisi, sebagian besar diberikan tes. Dalam kasus saya, tes tersebut melibatkan cerita tentang dugaan gembong robocalling, dan saya ditugaskan untuk menulis memo yang merinci bagaimana saya akan memeriksa keakuratannya. Pada akhirnya, tiga pertanyaan bonus singkat bertujuan untuk menjelaskan bagaimana saya menangani fakta individu.

Baru-baru ini, saya menggali tes lama itu dan memberikannya ke (versi gratis) ChatGPT, Claude, Gemini, dan Grok.

Grok keluar dari udara seolah-olah saya sedang menyela makan malamnya: “Ya, saya tahu persis apa itu pengecekan fakta.” OKE. Ini berbicara banyak tentang bias dan menempatkan “kredibilitas” dan “kebenaran” dalam tanda kutip yang sangat keras. Ia juga terobsesi dengan data, serta mengumpulkan dan menganalisis lebih banyak data daripada yang bisa dilakukan atau mungkin dilakukan oleh pemeriksa fakta yang bekerja. Yang agak mengejutkan saya adalah bahwa pengecekan fakta secara historis merupakan pekerjaan perempuan.

Claude dan Gemini melakukannya dengan cukup baik. Mereka memahami tugasnya, memberikan pendekatan yang masuk akal, bahkan menunjukkan potensi masalah hukum. Gemini memang memberiku ungkapan yang sangat ngeri ini: Saya akan mencari “Jalur Kertas” untuk mendukung “Jalur Manusia”.

ChatGPT tampak terlalu bersemangat dan tidak aman. Itu berbicara dalam kata kunci dan generalisasi. Pendekatan yang diterapkan tampaknya sangat memakan waktu (termasuk membangun jaringan pengecekan fakta di mana setiap kalimat dipecah dan dibuat diagramnya). Ia menawarkan untuk menunjukkan kepada saya bagaimana ia akan “menandainya,” tepatnya “seperti pemeriksa fakta profesional.” Itu kemudian menghasilkan paragraf yang tidak ada dalam cerita. Kami mencobanya sebentar, dan kemudian ia menawarkan untuk memeriksa paragraf yang sebenarnya untuk saya. Saya memberikannya pilihan yang cukup mudah dicari di Google, tetapi tidak benar-benar memeriksa fakta apa pun. Tidak ada satu pun model yang melakukannya. Mereka semua memberi saya rencana penyerangan, memberi tahu saya apa yang akan mereka lakukan, dan kemudian berhenti melakukannya.

“Menurut saya, menganggap AI bukan sebuah pilihan atau sesuatu yang tidak akan berdampak besar pada cara orang menemukan informasi,” kata Angie Holan, kepala Jaringan Pengecekan Fakta Internasional, sebuah Inisiatif Poynter yang menghubungkan lebih dari 170 organisasi pengecekan fakta di seluruh dunia. Holan mengatakan dia merasa lebih nyaman dengan AI dibandingkan beberapa rekannya. Jika sebuah model mengarahkan Anda ke sumber resmi yang dapat Anda verifikasi sendiri, ini dia, katanya. Para pemeriksa fakta, jurnalis, pustakawan, arsiparis—semuanya harus terlibat dengan model-model ini, mempelajari bagaimana model-model tersebut disusun: “Dengan begitu Anda dapat memahami kekuatan dan kelemahan alat-alat ini,” katanya.

Saya tidak setuju. Faktanya, semakin banyak waktu yang saya habiskan dengan AI, saya merasa semakin mampu sebagai manusia yang memeriksa fakta.

Begitu kita mendapatkannya melewati masalah yang bisa dicari di Google, pekerjaan saya benar-benar menyenangkan. Itu sebabnya saya masih merasa senang ketika menemukan sedikit informasi itu tidak ada di internet—tanda tertentu di persimpangan perbatasan, laju pertumbuhan rumput laut di dua iklim yang berbeda, baik ada Burger King di persimpangan LA pada tahun 1979 atau tidak. Sistem AI tidak dapat terus berkomunikasi melalui telepon dengan seorang janda selama lebih dari satu jam karena menanyakan pertanyaan-pertanyaan sulit akan memicu sumber kesedihan yang membutuhkan perhatian dan penerimaan manusia. Tidak dapat disangkal bahwa ada perbedaan pendapat di antara dua sumber yang mungkin mengaburkan batas-batas apa yang dianggap “faktual.” Ini tidak dapat membedakan email dengan kalimat “Terima kasih atas email Anda!” mungkin, mungkin, bersikap bermusuhan secara pasif.

Sebagian besar media fisik di dunia masih offline. Di dalam Hilang dalam Waktu: Pengetahuan Kita yang Terlupakan dan HilangJack Bialik menunjukkan bahwa teknologi dan basis pengetahuan yang kita asumsikan baru-baru ini sebenarnya dalam banyak kasus sudah berumur ribuan tahun (jalur perakitan, operasi katarak, bahkan baterai). “Mungkin yang lebih menyedihkan adalah kesadaran bahwa teknologi penyimpanan kita jauh lebih mungkin mengalami kerusakan dan keusangan dibandingkan hieroglif atau bahasa Sanskerta kuno yang diukir dalam piramida atau di dinding kuil,” tulisnya.

Bertahun-tahun yang lalu, saat tugas pengecekan fakta, saya berbicara dengan penulis fiksi ilmiah dan profesor sejarah Ada Palmeryang menceritakan kepada saya apa yang sering dia katakan kepada murid-muridnya: Kita hanya mengetahui kurang dari 1 persen dari apa yang terjadi 500 tahun yang lalu, dan dua pertiga dari apa yang kita ketahui adalah salah. Pengetahuan juga ada dalam jangka waktu tertentu, dan pekerjaan dari generasi ke generasi meneruskan pengetahuan tersebut tanpa ada sedikit pun yang terlewat dan hilang. Apakah kita benar-benar baik-baik saja mempercayakan warisan kita ke sekelompok server terdistribusi, yang dioperasikan oleh microchip dengan masa hidup 5 hingga 10 tahun?

Satu hal terakhir yang selama ini saya abaikan, yang merupakan hal yang sangat manusiawi bagi saya, adalah bahwa manusia juga melakukan kesalahan. Seperti yang diingatkan Holan kepada saya, tidak menggunakan chatbot bukanlah tindakan yang mudah dilakukan. Setidaknya, saya yakin 33 hingga 90 persen itulah yang dia katakan. Di akhir wawancara kami, ketika saya melihat alat perekam saya, ternyata saya lupa menyalakannya.

Apa katamu?
Beri tahu kami pendapat Anda tentang artikel ini di komentar di bawah. Alternatifnya, Anda dapat mengirimkan surat kepada editor di [emailprotected].

Post Views: 30

Read Also