Membuat model AI 'melupakan' data yang tidak diinginkan akan merusak kinerjanya

Teknik yang disebut “unlearning” digunakan untuk membuat model AI generatif melupakan informasi tertentu dan tidak diinginkan yang diambilnya dari data pelatihan, seperti data pribadi sensitif atau materi berhak cipta.

Namun teknik unlearning saat ini memiliki dua sisi mata pisau: Mereka bisa membuat model seperti OpenAI GPT-4o atau Meta Llama 3.1 405B jauh kurang mampu menjawab pertanyaan dasar.

Hal ini berdasarkan sebuah penelitian baru belajar ditulis bersama oleh para peneliti di Universitas Washington (UW), Princeton, Universitas Chicago, USC, dan Google, yang menemukan bahwa teknik melupakan pembelajaran yang paling populer saat ini cenderung menurunkan kualitas model — sering kali sampai pada titik di mana model tersebut tidak dapat digunakan lagi.

“Evaluasi kami menunjukkan bahwa metode unlearning yang saat ini layak belum siap untuk penggunaan atau penerapan yang berarti dalam skenario dunia nyata,” Weijia Shi, seorang peneliti dalam studi tersebut dan kandidat Ph.D. dalam ilmu komputer di UW, mengatakan kepada TechCrunch. “Saat ini, tidak ada metode efisien yang memungkinkan model melupakan data tertentu tanpa kehilangan utilitas yang signifikan.”

Bagaimana model belajar

Model AI generatif tidak memiliki kecerdasan nyata. Ini adalah sistem statistik yang memprediksi kata-kata, gambar, ucapan, musik, video, dan data lainnyaDengan memberikan sejumlah besar contoh (misalnya film, rekaman suara, esai, dan sebagainya), model AI mempelajari seberapa besar kemungkinan data akan muncul berdasarkan pola, termasuk konteks data di sekitarnya.

Misalnya, jika diberikan email yang diakhiri dengan fragmen “Menantikan…”, model yang dilatih untuk melengkapi pesan secara otomatis mungkin menyarankan “…untuk mendengar balasan,” mengikuti pola semua email yang diterimanya. Tidak ada maksud tertentu di sana; model tidak menantikan apa pun. Model hanya membuat tebakan berdasarkan informasi.

Sebagian besar model, termasuk model unggulan seperti GPT-4o, dilatih pada data yang bersumber dari situs web publik dan kumpulan data di seluruh web. Sebagian besar vendor yang mengembangkan model tersebut berpendapat bahwa penggunaan wajar melindungi praktik mereka dalam mengumpulkan data dan menggunakannya untuk pelatihan tanpa memberi tahu, memberi kompensasi, atau bahkan memberi penghargaan kepada pemilik data.

Namun tidak semua pemegang hak cipta setuju. Dan banyak — mulai dari penulis hingga penerbit hingga label rekaman — telah diajukan tuntutan hukum melawan vendor untuk memaksakan perubahan.

Dilema hak cipta adalah salah satu alasan mengapa teknik unlearning telah digunakan. mendapat banyak perhatian akhir-akhir iniGoogle, bermitra dengan beberapa lembaga akademis, tahun lalu diluncurkan suatu kompetisi yang berupaya memacu terciptanya pendekatan-pendekatan melupakan pembelajaran yang baru.

Unlearning juga dapat memberikan cara untuk menghapus informasi sensitif dari model yang ada, seperti catatan medis atau foto yang membahayakan, sebagai respons terhadap permintaan atau perintah pemerintah(Berkat cara mereka dilatih, model cenderung menyapu banyak informasi pribadi, dari nomor telepon ke lagi contoh-contoh yang bermasalah.) Selama beberapa tahun terakhir, beberapa vendor telah meluncurkan alat untuk memungkinkan pemilik data meminta agar data mereka dihapus dari set pelatihan. Namun, alat penyisihan ini hanya berlaku untuk model mendatang, bukan model yang dilatih sebelum diluncurkan; penghapusan data akan menjadi pendekatan yang jauh lebih menyeluruh terhadap penghapusan data.

Bagaimanapun, melupakan sesuatu tidak semudah menekan tombol “Hapus”.

Seni melupakan

Teknik unlearning saat ini bergantung pada algoritma yang dirancang untuk “mengarahkan” model menjauh dari data yang akan dilupakan. Idenya adalah untuk memengaruhi prediksi model sehingga tidak pernah — atau sangat jarang — mengeluarkan data tertentu.

Untuk melihat seberapa efektif algoritma unlearning ini, Shi dan rekan kerjanya merancang tolok ukur dan memilih delapan algoritma terbuka yang berbeda untuk diuji. Disebut MUSE (Machine Unlearning Six-way Evaluation), tolok ukur ini bertujuan untuk menguji kemampuan algoritma untuk tidak hanya mencegah model mengeluarkan data pelatihan kata demi kata (fenomena yang dikenal sebagai regurgitasi), tetapi menghilangkan pengetahuan model tentang data tersebut beserta bukti apa pun bahwa model awalnya dilatih pada data tersebut.

Untuk mendapatkan nilai baik pada MUSE, model harus melupakan dua hal: buku dari seri Harry Potter dan artikel berita.

Misalnya, dengan cuplikan dari Harry Potter dan Kamar Rahasia (“'Ada lagi di penggorengan,' kata Bibi…”), MUSE menguji apakah model yang belum terpelajar dapat melafalkan seluruh kalimat (“'Ada lagi di penggorengan,' kata Bibi Petunia, sambil menatap putranya yang besar”), menjawab pertanyaan tentang adegan tersebut (misalnya “Apa yang Bibi Petunia katakan kepada putranya?”, “Ada lagi di penggorengan”) atau menunjukkan bahwa model tersebut telah dilatih dengan teks dari buku.

MUSE juga menguji apakah model tersebut mempertahankan pengetahuan umum terkait — misalnya bahwa JK Rowling adalah penulis seri Harry Potter — setelah melupakannya, yang oleh para peneliti disebut sebagai utilitas keseluruhan model. Semakin rendah utilitasnya, semakin banyak pengetahuan terkait yang hilang oleh model, sehingga model tersebut kurang mampu menjawab pertanyaan dengan benar.

Dalam penelitian mereka, para peneliti menemukan bahwa algoritma unlearning yang mereka uji telah melakukan membuat model melupakan informasi tertentu. Namun, hal itu juga merusak kemampuan model dalam menjawab pertanyaan secara umum, sehingga menimbulkan konsekuensi.

“Merancang metode penghapusan pembelajaran yang efektif untuk model merupakan tantangan karena pengetahuan saling terkait erat dalam model,” jelas Shi. “Misalnya, model dapat dilatih pada materi berhak cipta — buku Harry Potter serta konten yang tersedia secara bebas dari Harry Potter Wiki. Ketika metode penghapusan pembelajaran yang ada mencoba menghapus buku Harry Potter yang dilindungi hak cipta, metode tersebut juga berdampak signifikan pada pengetahuan model tentang Harry Potter Wiki.”

Apakah ada solusi untuk masalah ini? Belum ada — dan ini menyoroti perlunya penelitian tambahan, kata Shi.

Untuk saat ini, vendor yang bertaruh pada unlearning sebagai solusi atas masalah data pelatihan mereka tampaknya tidak berhasil. Mungkin terobosan teknis akan memungkinkan unlearning suatu hari nanti. Namun untuk saat ini, vendor harus menemukan cara lain untuk mencegah model mereka mengatakan hal-hal yang tidak seharusnya.

Sumber