Janji dan bahaya data sintetis

Mungkinkah suatu AI dilatih hanya berdasarkan data yang dihasilkan oleh AI lain? Ini mungkin terdengar seperti ide yang tidak masuk akal. Namun hal ini sudah ada sejak lama – dan seiring dengan semakin sulitnya mendapatkan data nyata, hal ini semakin mendapatkan daya tarik.

Anthropic menggunakan beberapa data sintetis untuk melatih salah satu model andalannya, Claude 3.5 Soneta. Meta menyempurnakannya Lama 3.1 model menggunakan data yang dihasilkan AI. Dan OpenAI dikatakan mengambil sumber data pelatihan sintetis o1model “penalarannya”, untuk masa depan Orion.

Namun mengapa AI membutuhkan data — dan apa baik data yang dibutuhkan? Dan dapatkah data ini Sungguh digantikan oleh data sintetis?

Pentingnya anotasi

Sistem AI adalah mesin statistik. Dilatih dengan banyak contoh, mereka mempelajari pola dalam contoh tersebut untuk membuat prediksi, seperti “kepada siapa” dalam email biasanya mendahului “yang berkepentingan.”

Anotasi, biasanya teks yang memberi label pada makna atau bagian data yang diserap sistem, merupakan bagian penting dalam contoh ini. Mereka berfungsi sebagai tiang penunjuk jalan, “mengajarkan” model untuk membedakan benda, tempat, dan gagasan.

Perhatikan model klasifikasi foto yang memperlihatkan banyak gambar dapur yang diberi label kata “dapur”. Saat dilatih, model akan mulai membuat asosiasi antara “dapur” dan umum karakteristik dapur (misalnya yang berisi lemari es dan meja dapur). Setelah pelatihan, jika diberikan foto dapur yang tidak disertakan dalam contoh awal, model harus dapat mengidentifikasinya. (Tentu saja, jika gambar dapur diberi label “sapi”, hal ini akan mengidentifikasi mereka sebagai sapi, yang menekankan pentingnya anotasi yang baik.)

Minat terhadap AI dan kebutuhan untuk menyediakan data berlabel untuk pengembangannya telah menggelembungkan pasar layanan anotasi. Riset Pasar Dimensi perkiraan bahwa saat ini bernilai $838,2 juta — dan akan bernilai $10,34 miliar dalam sepuluh tahun ke depan. Meskipun tidak ada perkiraan pasti mengenai berapa banyak orang yang terlibat dalam pekerjaan pelabelan, pada tahun 2022 kertas mematok angka dalam “jutaan.”

Perusahaan besar dan kecil bergantung pada pekerja yang dipekerjakan oleh perusahaan anotasi data untuk membuat label untuk set pelatihan AI. Beberapa dari pekerjaan ini memberikan bayaran yang cukup baik, terutama jika pelabelan memerlukan pengetahuan khusus (misalnya keahlian matematika). Orang lain bisa sangat melelahkan. Anotator di negara berkembang rata-rata hanya dibayar beberapa dolar per jam tanpa manfaat atau jaminan apa pun untuk pertunjukan di masa depan.

Data pengeringan dengan baik

Jadi ada alasan humanistik untuk mencari alternatif terhadap label yang dibuat oleh manusia. Tapi ada juga yang praktis.

Manusia hanya bisa memberi label dengan sangat cepat. Anotator juga punya bias yang dapat terwujud dalam anotasinya, dan, selanjutnya, model apa pun yang dilatih berdasarkan anotasi tersebut. Anotator membuat kesalahanatau dapatkan tersandung dengan memberi label instruksi. Dan membayar manusia untuk melakukan sesuatu itu mahal.

Data umumnya mahal, dalam hal ini. Shutterstock mengenakan biaya puluhan juta dolar kepada vendor AI untuk mengaksesnya arsipsementara Reddit memiliki menghasilkan ratusan juta dari data lisensi ke Google, OpenAI, dan lainnya.

Terakhir, data juga semakin sulit diperoleh.

Sebagian besar model dilatih tentang pengumpulan data publik secara besar-besaran — data yang semakin banyak dipilih oleh pemilik karena khawatir data mereka akan terpengaruh dijiplakatau mereka tidak akan menerima kredit atau atribusi untuk itu. Lebih dari 35% dari 1.000 situs web teratas dunia sekarang blokir web scraper OpenAI. Dan sekitar 25% data dari sumber “berkualitas tinggi” telah dibatasi dari kumpulan data utama yang digunakan untuk melatih model, salah satunya baru-baru ini belajar ditemukan.

Jika tren pemblokiran akses saat ini terus berlanjut, kelompok riset Epoch AI proyek bahwa pengembang akan kehabisan data untuk melatih model AI generatif antara tahun 2026 dan 2032. Hal ini, ditambah dengan kekhawatiran akan tuntutan hukum hak cipta Dan materi yang tidak pantas memasuki kumpulan data terbuka, telah memaksa vendor AI untuk memperhitungkan hal ini.

Alternatif sintetis

Sekilas, data sintetis tampaknya menjadi solusi untuk semua masalah ini. Butuh anotasi? Hasilkan mereka. Lebih banyak contoh data? Tidak masalah. Langit adalah batasnya.

Dan sampai batas tertentu, hal ini benar.

“Jika 'data adalah minyak baru', data sintetis menampilkan dirinya sebagai biofuel, yang dapat diciptakan tanpa eksternalitas negatif dari data aslinya,” kata Os Keyes, kandidat PhD di Universitas Washington yang mempelajari dampak etis dari teknologi baru, kepada TechCrunch . “Anda dapat mengambil kumpulan data awal yang kecil dan mensimulasikan serta mengekstrapolasi entri baru darinya.”

Industri AI telah mengambil konsep tersebut dan menjalankannya.

Bulan ini, Writer, sebuah perusahaan AI generatif yang berfokus pada perusahaan, meluncurkan model Palmyra X 004, yang hampir seluruhnya dilatih tentang data sintetis. Pengembangannya hanya membutuhkan biaya $700.000, klaim Penulis — dibandingkan dengan perkiraan $4,6 juta untuk model OpenAI yang berukuran sebanding.

milik Microsoft Phi model terbuka sebagian dilatih menggunakan data sintetis. Begitu pula dengan Google permata model. Nvidia musim panas ini meluncurkan keluarga model yang dirancang untuk menghasilkan data pelatihan sintetis, dan startup AI Hugging Face baru-baru ini merilis apa yang diklaimnya sebagai data pelatihan sintetis kumpulan data pelatihan AI terbesar teks sintetik.

Pembuatan data sintetis telah menjadi sebuah bisnis tersendiri — sebuah bisnis yang bisa saja menjadi sebuah bisnis bernilai $2,34 miliar pada tahun 2030. Gartner memprediksi bahwa 60% data yang digunakan untuk proyek AI dan analitik tahun ini akan dihasilkan secara sintetis.

Luca Soldaini, ilmuwan peneliti senior di Allen Institute for AI, mencatat bahwa teknik data sintetis dapat digunakan untuk menghasilkan data pelatihan dalam format yang tidak mudah diperoleh melalui scraping (atau bahkan lisensi konten). Misalnya saja dalam melatih video generatornya Jenderal FilmMeta menggunakan Llama 3 untuk membuat keterangan cuplikan di data pelatihan, yang kemudian disempurnakan manusia untuk menambahkan lebih banyak detail, seperti deskripsi pencahayaan.

Sejalan dengan hal yang sama, OpenAI mengatakan bahwa hal itu telah diperbaiki GPT-4o menggunakan data sintetis untuk membuat seperti sketsa Kanvas fitur untuk ChatGPT. Dan Amazon punya dikatakan bahwa ia menghasilkan data sintetis untuk melengkapi data dunia nyata yang digunakannya untuk melatih model pengenalan suara untuk Alexa.

“Model data sintetis dapat digunakan untuk memperluas intuisi manusia dengan cepat mengenai data mana yang diperlukan untuk mencapai perilaku model tertentu,” kata Soldaini.

Risiko sintetis

Namun, data sintetis bukanlah obat mujarab. Ia mengalami masalah “sampah masuk, sampah keluar” yang sama seperti semua AI. Model membuat data sintetis, dan jika data yang digunakan untuk melatih model ini memiliki bias dan keterbatasan, keluarannya juga akan ternoda. Misalnya, kelompok yang kurang terwakili dalam data dasar akan mengalami hal yang sama dalam data sintetis.

“Masalahnya adalah, Anda hanya bisa berbuat banyak,” kata Keyes. “Misalnya Anda hanya memiliki 30 orang kulit hitam dalam satu kumpulan data. Melakukan ekstrapolasi mungkin bisa membantu, tetapi jika 30 orang tersebut semuanya adalah kelas menengah, atau semuanya berkulit terang, seperti itulah data yang 'representatif' akan terlihat.”

Sampai saat ini, tahun 2023 belajar oleh para peneliti di Rice University dan Stanford menemukan bahwa ketergantungan yang berlebihan pada data sintetis selama pelatihan dapat menciptakan model yang “kualitas atau keragamannya semakin menurun.” Bias pengambilan sampel – representasi dunia nyata yang buruk – menyebabkan keragaman model memburuk setelah beberapa generasi pelatihan, menurut para peneliti (walaupun mereka juga menemukan bahwa mencampurkan sedikit data dunia nyata membantu mengurangi hal ini).

Keyes melihat risiko tambahan dalam model kompleks seperti o1 OpenAI, yang menurutnya dapat menghasilkan produk yang lebih sulit dikenali halusinasi dalam data sintetis mereka. Hal ini, pada gilirannya, dapat mengurangi keakuratan model yang dilatih berdasarkan data – terutama jika sumber halusinasi tidak mudah diidentifikasi.

“Model yang kompleks berhalusinasi; data yang dihasilkan oleh model kompleks mengandung halusinasi,” tambah Keyes. “Dan dengan model seperti o1, pengembangnya sendiri belum bisa menjelaskan mengapa artefak muncul.”

Halusinasi yang bertambah dapat menyebabkan model-model yang melontarkan omong kosong. A belajar diterbitkan dalam jurnal Nature mengungkapkan bagaimana model, yang dilatih berdasarkan data yang penuh kesalahan, menghasilkan bahkan lebih data yang penuh kesalahan, dan bagaimana putaran umpan balik ini menurunkan model generasi mendatang. Para peneliti menemukan bahwa para model kehilangan pemahaman mereka terhadap pengetahuan yang lebih esoteris dari generasi ke generasi – menjadi lebih umum dan seringkali menghasilkan jawaban yang tidak relevan dengan pertanyaan yang diajukan.

Kredit Gambar:Ilia Shumailov dkk.

Sebuah tindak lanjut belajar menunjukkan bahwa jenis model lain, seperti generator gambar, tidak kebal terhadap keruntuhan seperti ini:

Kredit Gambar:Ilia Shumailov dkk.

Soldaini setuju bahwa data sintetis “mentah” tidak dapat dipercaya, setidaknya jika tujuannya adalah untuk menghindari pelatihan chatbot yang pelupa dan generator gambar yang homogen. Menggunakannya dengan “aman,” katanya, memerlukan peninjauan, kurasi, dan pemfilteran secara menyeluruh, dan idealnya memasangkannya dengan data baru dan nyata — sama seperti yang Anda lakukan dengan kumpulan data lainnya.

Gagal melakukan hal ini pada akhirnya bisa terjadi menyebabkan keruntuhan modelketika suatu model menjadi kurang “kreatif” — dan lebih bias — dalam keluarannya, yang pada akhirnya sangat mengurangi fungsinya. Meskipun proses ini dapat diidentifikasi dan dihentikan sebelum menjadi serius, namun hal ini mempunyai risiko.

“Para peneliti perlu memeriksa data yang dihasilkan, mengulangi proses pembuatannya, dan mengidentifikasi perlindungan untuk menghilangkan titik data berkualitas rendah,” kata Soldaini. “Pipa data sintetik bukanlah mesin yang dapat berkembang dengan sendirinya; keluarannya harus diperiksa dan ditingkatkan secara cermat sebelum digunakan untuk pelatihan.”

CEO OpenAI Sam Altman pernah berpendapat bahwa AI akan melakukannya suatu hari nanti menghasilkan data sintetis yang cukup baik untuk melatih dirinya sendiri secara efektif. Namun – dengan asumsi hal itu memungkinkan – teknologi tersebut belum ada. Belum ada laboratorium AI besar yang merilis model yang dilatih pada data sintetis saja.

Setidaknya di masa mendatang, nampaknya kita memerlukan manusia untuk turut serta suatu tempat untuk memastikan pelatihan model tidak berjalan salah.

Sumber

LEAVE A REPLY

Please enter your comment!
Please enter your name here