Hampir 12.000 rahasia yang valid yang mencakup kunci API dan kata sandi telah ditemukan dalam dataset perayapan umum yang digunakan untuk melatih beberapa model kecerdasan buatan.
Itu Perayapan Umum Organisasi nirlaba memelihara repositori sumber terbuka besar-besaran dari petabyte data web yang dikumpulkan sejak 2008 dan gratis untuk digunakan siapa pun.
Karena dataset yang besar, banyak proyek kecerdasan buatan dapat mengandalkan, setidaknya sebagian, pada arsip digital untuk melatih model bahasa besar (LLM), termasuk yang dari Openai, Deepseek, Google, Meta, Antropik, dan Stabilitas.
Kunci Root AWS dan Kunci API MailChimp
Peneliti di Truffle Security – Perusahaan di belakang pemindai sumber terbuka Trufflufog untuk data sensitif, menemukan rahasia yang valid setelah memeriksa 400 terabyte data dari 2,67 miliar halaman web dalam arsip Common Crawl Desember 2024.
Mereka menemukan 11.908 rahasia yang berhasil mengautentikasi, yang dikodekan oleh pengembang, menunjukkan potensi LLM yang dilatih pada kode yang tidak aman.
Perlu dicatat bahwa data pelatihan LLM tidak digunakan dalam bentuk mentah dan melalui tahap pra-pemrosesan yang melibatkan pembersihan dan menyaring konten yang tidak perlu seperti data yang tidak relevan, duplikat, berbahaya, atau informasi sensitif.
Terlepas dari upaya seperti itu, sulit untuk menghapus data rahasia, dan prosesnya tidak menawarkan jaminan untuk melucuti set data besar dari semua informasi yang dapat diidentifikasi secara pribadi (PII), data keuangan, catatan medis, dan konten sensitif lainnya.
Setelah menganalisis data yang dipindai, Truffle Security menemukan tombol API yang valid untuk Amazon Web Services (AWS), MailChimp, dan Walkscore Services.

Sumber: Keamanan Truffle
Secara keseluruhan, TruffloHog mengidentifikasi 219 tipe rahasia yang berbeda dalam dataset perayapan umum, yang paling umum adalah tombol API MailChimp.
“Hampir 1.500 tombol API MailChimp unik dikodekan dalam HTML dan JavaScript front -end” – Keamanan truffle
Para peneliti menjelaskan bahwa kesalahan pengembang adalah untuk menggunakan kode mereka ke dalam formulir HTML dan cuplikan JavaScript dan tidak menggunakan variabel lingkungan sisi server.

Sumber: Keamanan Truffle
Seorang penyerang dapat menggunakan kunci -kunci ini untuk aktivitas jahat seperti kampanye phishing dan peniruan merek. Selain itu, bocor rahasia seperti itu dapat menyebabkan exfiltrasi data.
Sorotan lain dalam laporan ini adalah tingginya tingkat penggunaan kembali rahasia yang ditemukan, dengan mengatakan bahwa 63% hadir di beberapa halaman. Salah satunya, kunci API Walkscore, “muncul 57.029 kali di 1.871 subdomain.”
Para peneliti juga menemukan satu halaman web dengan 17 Webhook Live Slack yang unik, yang harus dirahasiakan karena memungkinkan aplikasi untuk memposting pesan ke Slack.
“Jaga agar tetap rahasia, jaga agar tetap aman. URL webhook Anda berisi rahasia. Jangan membagikannya secara online, termasuk melalui repositori kontrol versi publik, ”Slack memperingatkan.
Setelah penelitian, Truffle Security menghubungi vendor yang terkena dampak dan bekerja dengan mereka untuk mencabut kunci pengguna mereka. “Kami berhasil membantu organisasi -organisasi itu secara kolektif memutar/mencabut beberapa ribu kunci,” kata para peneliti.
Bahkan jika model kecerdasan buatan menggunakan arsip yang lebih lama daripada dataset yang dipindai oleh para peneliti, temuan Truffle Security berfungsi sebagai peringatan bahwa praktik pengkodean yang tidak aman dapat mempengaruhi perilaku LLM.







