Pembuat konten YouTube terkejut saat mengetahui Apple dan perusahaan lain melatih AI pada video mereka
Seorang komentator teknologi memegang iPhone sambil berbicara ke kamera
Memperbesar / YouTuber Marques Brownlee membahas iOS 18 dalam sebuah video baru. Video ini bukan bagian dari kumpulan data besar yang digunakan untuk melatih model AI, tetapi banyak video lainnya yang termasuk dalam kumpulan data tersebut.

Model AI di Apple, Salesforce, Anthropic, dan pemain teknologi besar lainnya dilatih pada puluhan ribu video YouTube tanpa persetujuan pembuatnya dan berpotensi melanggar ketentuan YouTube, menurut laporan baru yang muncul di kedua platform. Bukti Berita Dan Berkabel.

Perusahaan-perusahaan melatih model mereka sebagian dengan menggunakan “the Pile,” sebuah koleksi yang dibuat oleh lembaga nirlaba Bahasa Indonesia: EleutherAI yang disusun sebagai cara untuk menawarkan kumpulan data yang berguna kepada individu atau perusahaan yang tidak memiliki sumber daya untuk bersaing dengan Big Tech, meskipun data tersebut juga telah digunakan oleh perusahaan-perusahaan besar tersebut.

Tumpukan tersebut berisi buku, artikel Wikipedia, dan banyak lagi. Termasuk teks YouTube yang dikumpulkan oleh API teks YouTube, yang diambil dari 173.536 video YouTube di lebih dari 48.000 saluran. Termasuk video dari YouTuber besar seperti MrBeast, PewDiePie, dan komentator teknologi populer Merek BrownleePada X, Brownlee memanggil Penggunaan dataset oleh Apple, tetapi mengakui bahwa menyalahkan pihak lain itu rumit karena Apple tidak mengumpulkan data itu sendiri. Ia menulis:

Apple telah mengambil data untuk AI mereka dari beberapa perusahaan

Salah satu dari mereka mengambil banyak data/transkrip dari video YouTube, termasuk milik saya

Apple secara teknis menghindari “kesalahan” di sini karena mereka bukan pihak yang melakukan scraping

Namun ini akan menjadi masalah yang terus berkembang dalam jangka waktu yang lama

Ini juga mencakup saluran berbagai merek media arus utama dan daring, termasuk video yang ditulis, diproduksi, dan diterbitkan oleh Ars Technica dan stafnya serta oleh berbagai merek Condé Nast lainnya seperti Wired dan The New Yorker.

Secara kebetulan, salah satu video yang digunakan dalam kumpulan data tersebut adalah film pendek produksi Ars Technica yang leluconnya adalah bahwa film tersebut sudah ditulis oleh AI. Artikel Proof News juga menyebutkan bahwa film tersebut dilatih pada video burung beo, jadi model AI meniru burung beo, meniru ucapan manusia, serta meniru AI lain, meniru manusia.

Karena konten yang dihasilkan AI terus menjamur di Internet, akan semakin sulit untuk menyusun kumpulan data guna melatih AI yang tidak menyertakan konten yang sudah diproduksi oleh AI.

Untuk lebih jelasnya, beberapa hal ini bukanlah berita baru. The Pile sering digunakan dan dirujuk dalam lingkaran AI dan telah diketahui digunakan oleh perusahaan teknologi untuk pelatihan di masa lalu. Pile telah dikutip dalam beberapa tuntutan hukum oleh pemilik kekayaan intelektual terhadap perusahaan AI dan teknologi. Para terdakwa dalam tuntutan hukum tersebut, termasuk OpenAImengatakan bahwa pengikisan semacam ini adalah penggunaan wajar. Gugatan hukum tersebut belum diselesaikan di pengadilan.

Namun, Proof News melakukan beberapa penggalian untuk mengidentifikasi secara spesifik tentang penggunaan teks YouTube dan melangkah lebih jauh dengan membuat alat yang dapat Anda gunakan untuk cari tumpukannya untuk video atau saluran individual.

Penelitian ini mengungkap betapa kuatnya pengumpulan data dan menarik perhatian pada betapa kecilnya kendali yang dimiliki pemilik kekayaan intelektual atas bagaimana karya mereka digunakan jika berada di web terbuka.

Penting untuk dicatat bahwa belum tentu data ini digunakan untuk melatih model guna menghasilkan konten kompetitif yang menjangkau pengguna akhir. Misalnya, Apple mungkin telah melatih set data tersebut untuk tujuan penelitian, atau untuk meningkatkan pelengkapan otomatis untuk pengetikan teks pada perangkatnya.

Reaksi dari kreator

Proof News juga menghubungi beberapa kreator tersebut untuk meminta pernyataan, serta perusahaan yang menggunakan kumpulan data tersebut. Sebagian besar kreator terkejut karena konten mereka telah digunakan dengan cara ini, dan mereka yang memberikan pernyataan mengkritik EleutherAI dan perusahaan yang menggunakan kumpulan datanya. Misalnya, David Pakman dari Pertunjukan David Pakman dikatakan:

Tidak ada yang datang kepada saya dan berkata, “Kami ingin menggunakan ini”… Ini adalah mata pencaharian saya, dan saya meluangkan waktu, sumber daya, uang, dan waktu staf untuk membuat konten ini. Pekerjaan sungguh tidak ada habisnya.

Julia Walsh, CEO dari perusahaan produksi Complexly bertanggung jawab atas Pertunjukan Sains dan konten edukasi Hank dan John Green lainnya, mengatakan:

Kami merasa frustrasi mengetahui bahwa konten pendidikan yang kami produksi dengan saksama telah digunakan dengan cara ini tanpa persetujuan kami.

Ada pula pertanyaan apakah pengikisan konten ini melanggar ketentuan YouTube, yang melarang akses ke video dengan “cara otomatis.” Pendiri EleutherAI Sid Black mengatakan bahwa ia menggunakan skrip untuk mengunduh teks melalui API YouTube, seperti yang dilakukan peramban web.

Anthropic adalah salah satu perusahaan yang telah melatih model pada kumpulan data tersebut, dan untuk bagiannya, perusahaan itu mengklaim tidak ada pelanggaran di sini. Juru bicara Jennifer Martinez berkata:

The Pile mencakup sebagian kecil subtitel YouTube… Ketentuan YouTube mencakup penggunaan langsung platformnya, yang berbeda dari penggunaan kumpulan data The Pile. Mengenai potensi pelanggaran ketentuan layanan YouTube, kami harus merujuk Anda ke penulis The Pile.

Seorang juru bicara Google mengatakan kepada Proof News bahwa Google telah mengambil “tindakan selama bertahun-tahun untuk mencegah pengikisan yang tidak sah dan tidak sah” tetapi tidak memberikan tanggapan yang lebih spesifik. Ini bukan pertama kalinya perusahaan AI dan teknologi menjadi sasaran kritik karena melatih model pada video YouTube tanpa izin. Khususnya, OpenAI (perusahaan di balik ChatGPT dan alat pembuat video Sora) diyakini telah menggunakan data YouTube untuk melatih modelnya, meskipun tidak semua tuduhan tentang hal ini telah dikonfirmasi.

Dalam wawancara dengan Nilay Patel dari The Verge, CEO Google Sundar Pichai disarankan bahwa penggunaan video YouTube untuk melatih Sora dari OpenAI akan melanggar ketentuan YouTube. Memang, penggunaan tersebut berbeda dengan pengambilan teks melalui API.

Sumber