Nvidia dituduh mengambil jutaan video daring untuk melatih produk AI miliknya. Sumber mengatakan video tersebut tidak hanya ditujukan untuk penelitian, tetapi seharusnya digunakan untuk produk perusahaan, termasuk generator dunia Omniverse 3D, sistem mobil self-driving, dan generator avatar Digital Humans. Laporan ini diduga berasal dari mantan karyawan Nvidia anonim yang membagikan data tersebut dengan 404 Media.
Menurut media tersebut, beberapa karyawan diperintahkan untuk mengunduh video guna melatih AI Nvidia. Banyak yang menyuarakan kekhawatiran tentang legalitas dan etika tindakan tersebut, tetapi manajer proyek secara konsisten meyakinkan mereka. Ming-Yu Liu, wakil presiden Riset di Nvidia, diduga menanggapi satu pertanyaan dengan, “Ini adalah keputusan eksekutif. Kami memiliki persetujuan menyeluruh untuk semua data.”
Ini bukan pertama kalinya perusahaan teknologi AI dituduh mengambil konten daring tanpa izin. Ada beberapa tuntutan hukum terhadap perusahaan AI seperti OpenAI, Stability AI, Midjourney, DeviantArt, dan Runway. Nvidia tidak terpengaruh saat ini, karena perusahaan ini dikenal sebagai pemasok pusat data chip AI, yang membantu menjadikannya salah satu perusahaan paling bernilai di dunia.
Namun, tampaknya Nvidia juga ingin terjun ke dalam permainan pemrosesan data dengan menciptakan model AI mendasar yang dapat dikembangkan oleh perusahaan lain. Untuk membantu perusahaan meraih keunggulan di pasar AI yang sangat kompetitif saat ini, Nvidia diduga menargetkan pelatihan sistemnya menggunakan pustaka data video daring yang sangat besar.
“Kami sedang menyelesaikan jalur data v1 dan mengamankan sumber daya komputasi yang diperlukan untuk membangun pabrik data video yang dapat menghasilkan pengalaman visual seumur hidup manusia yang setara dengan data pelatihan per hari,” kata Liu melalui email.
Beberapa sumber melaporkan bahwa Nvidia menggunakan video yang tersedia untuk umum, data yang dilisensikan secara eksklusif untuk penelitian nonkomersial, video YouTube, dan bahkan film dan acara dari Netflix. Bahkan disinggung bahwa perusahaan akan meminta seseorang menonton film sambil menggunakan teknologi tangkapan layar untuk merekam dari Netflix, meskipun kami tidak dapat memastikan apakah ini lelucon. “Kami akan mendapatkan banyak video wajah berkualitas tinggi dari ini,” imbuh Liu.
Tim Nvidia yang tengah mengerjakan pelatihan AI-nya juga harus mempertimbangkan untuk merekam video permainan dan memanfaatkan tim GeForce Now untuk membantu mereka mendapatkannya. Namun, Jim Fan, seorang ilmuwan peneliti senior di Nvidia mengatakan, “Kami belum memiliki statistik atau berkas video, karena infrastrukturnya belum siap untuk merekam banyak video & aksi permainan langsung. Ada rintangan teknis & regulasi yang harus dilewati. Namun, kami akan menambahkan data GFN (GeForce Now) yang telah dibersihkan & diproses ke team-vfm segera setelah data tersebut tiba.”
404 Media mengatakan proyek AI yang dijuluki Cosmos itu dimulai pada Februari 2024. Hingga Maret, tim tersebut telah mengunduh 100.000 video, dan pada Mei, sebuah email mengatakan bahwa mereka telah mengumpulkan 38,5 juta URL, dengan hampir 40% di antaranya berasal dari video sinematik.
Tidak jelas seberapa dalam dan luas proyek Cosmos di Nvidia, tetapi 404 Media telah mengutip CEO Nvidia Jensen Huang yang menanggapi email tentang hal itu dengan, “Pembaruan yang hebat. Banyak perusahaan harus membangun video FM (model dasar). Kami dapat menawarkan jalur produksi yang sepenuhnya dipercepat.”
Nvidia kemungkinan terburu-buru membangun modelnya sementara masalah hak cipta dan pelatihan AI lainnya belum terselesaikan, sehingga menimbulkan area abu-abu hukum yang besar. Saat ini, belum ada undang-undang khusus yang mengatur pelatihan AI, tetapi para legislator telah memperhatikannya. Beberapa RUU di Kongres secara khusus membahas hal ini, seperti AI Foundation Model Transparency Act dan Generative AI Copyright Disclosure Act.
Google berpendapat bahwa Pengikisan AI adalah 'Penggunaan Wajar',' tetapi kita tidak tahu ke mana hukum ini akan membawa kita. Jadi, meskipun belum ada yang jelas, banyak perusahaan ingin memanfaatkan data online secara maksimal untuk mengungguli pesaing.