Apple melatih model AI pada konten YouTube tanpa persetujuan

Sejumlah raksasa teknologi, termasuk apelterlatih Kecerdasan buatan model pada Youtube video tanpa persetujuan pembuatnya, menurut laporan baru hari ini.

Mereka melakukannya dengan menggunakan file subtitle yang diunduh oleh pihak ketiga dari lebih dari 170.000 video. Para kreator yang terpengaruh termasuk pengulas teknologi Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver, dan Jimmy Kimmel …

File subtitle pada dasarnya adalah transkrip dari konten video.

Berkabel laporan.

Investigasi oleh Proof News menemukan beberapa perusahaan AI terkaya di dunia telah menggunakan materi dari ribuan video YouTube untuk melatih AI. Perusahaan melakukannya meskipun ada peraturan YouTube yang melarang pengambilan materi dari platform tersebut tanpa izin.

Investigasi kami menemukan bahwa subtitle dari 173.536 video YouTube, yang diambil dari lebih dari 48.000 saluran, digunakan oleh tokoh besar di Silicon Valley, termasuk Anthropic, Nvidia, Apple, dan Salesforce.

Pengunduhan tersebut dilaporkan dilakukan oleh lembaga nirlaba bernama EleutherAI, yang mengatakan bahwa lembaga tersebut membantu pengembang melatih model AI. Meskipun tujuannya tampaknya adalah untuk menyediakan materi pelatihan bagi pengembang kecil dan akademisi, kumpulan data tersebut juga telah digunakan oleh beberapa raksasa teknologi, termasuk Apple.

Menurut sebuah makalah penelitian yang diterbitkan oleh EleutherAI, kumpulan data tersebut merupakan bagian dari kompilasi yang dirilis oleh lembaga nirlaba yang disebut Pile (…)

Sebagian besar kumpulan data Pile dapat diakses dan terbuka bagi siapa saja di internet yang memiliki cukup ruang dan daya komputasi untuk mengaksesnya. Akademisi dan pengembang lain di luar Big Tech memanfaatkan kumpulan data tersebut, tetapi mereka bukan satu-satunya.

Apple, Nvidia, dan Salesforce—perusahaan yang nilainya mencapai ratusan miliar dan triliunan dolar—menjelaskan dalam makalah penelitian dan posting mereka bagaimana mereka menggunakan Pile untuk melatih AI. Dokumen tersebut juga menunjukkan Apple menggunakan Pile untuk melatih OpenELM, model terkenal yang dirilis pada bulan April, beberapa minggu sebelum perusahaan tersebut mengungkapkan akan menambahkan kemampuan AI baru ke iPhone dan MacBook.

Berkabel mengatakan Apple belum menanggapi permintaan komentar saat artikel ini ditulis.

Pandangan 9to5Mac

Penting untuk ditegaskan di sini bahwa Apple tidak mengunduh data itu sendiri, tetapi dilakukan oleh EleutherAI. Organisasi inilah yang tampaknya telah melanggar syarat dan ketentuan YouTube.

Meski demikian, meskipun Apple dan perusahaan lain yang disebutkan kemungkinan besar menggunakan kumpulan data yang tersedia untuk umum dengan itikad baik, hal itu merupakan contoh bagus dari ladang ranjau hukum yang diciptakan dengan cara mengikis web untuk melatih sistem AI. Ada beberapa contoh sistem AI yang menjiplak seluruh paragraf teks ketika ditanya tentang topik khusus, dan bahaya penggunaan materi tanpa izin hanya meningkat ketika perusahaan menggunakan kumpulan data yang dikompilasi oleh pihak ketiga.

Kami telah menghubungi Apple untuk meminta komentar dan akan memperbaruinya jika ada tanggapan.

Tangkapan layar: MKBHD

FTC: Kami menggunakan tautan afiliasi otomatis yang menghasilkan pendapatan. Lagi.

Sumber