Anda tidak dapat berbicara tentang perangkat lunak AI generatif seperti itu ObrolanGPT tanpa memikirkan Nvidiayang merupakan salah satu pemenang besar di masa-masa awal revolusi genAI. Namun Nvidia sejauh ini terkenal karena menyediakan chip yang dibutuhkan perusahaan seperti OpenAI untuk memproses semua fungsi AI generatif mereka yang kompleks.
Maju cepat ke awal Oktober 2024, dan Nvidia mengejutkan dunia AI dengan mengumumkan NVLM 1.0, rangkaian model bahasa multimodal besar yang setidaknya dapat bekerja sama baiknya dengan model GPT-4o ChatGPT.
Sebelum Anda terlalu tertarik dengan produk NVLM Nvidia yang potensial bagi konsumen, Anda harus tahu bahwa perusahaan tersebut memilih cara lain untuk menunjukkan kekuatan genAI-nya. Daripada merilis pesaing langsung ChatGPT, Claude, dan Gemini, mereka membuat bobot model tersedia untuk umum sehingga orang lain dapat menggunakan NVLM untuk mengembangkan aplikasi dan sistem AI mereka sendiri.
Nvidia dirilis sebuah kertas untuk mengumumkan NVLM 1.0 dan mengungkapkan bahwa bobot dan kode pelatihannya akan menjadi sumber terbuka:
Kami memperkenalkan NVLM 1.0, rangkaian model bahasa besar multimodal (LLM) kelas terdepan yang mencapai hasil tercanggih dalam tugas-tugas bahasa visi, menyaingi model kepemilikan terkemuka (misalnya, GPT-4o) dan akses terbuka model (misalnya, Llama 3-V 405B dan InternVL 2). Hebatnya, setelah pelatihan multimodal, NVLM 1.0 menunjukkan peningkatan akurasi pada tugas-tugas hanya teks melalui tulang punggung LLM-nya. Kami menyediakan model bobot dan kode pelatihan di Megatron-Core secara open source untuk komunitas.
NVLM-D-72B dengan parameter 72 miliar adalah LLM andalan Nvidia. Perusahaan mengatakan bahwa mereka “mencapai kinerja yang setara dengan model terkemuka dalam tugas bahasa visi dan hanya teks.”
Makalah ini menunjukkan berbagai contoh obrolan yang melibatkan input multimodal. Manusia dalam obrolan menggunakan teks dan gambar dalam perintahnya. Contoh-contoh tersebut menunjukkan bahwa AI sangat baik dalam mengidentifikasi orang, hewan, dan objek dalam gambar-gambar tersebut dan memberikan jawaban terkait hal tersebut.
Dalam contoh di atas, pengguna meminta NVLM untuk menjelaskan meme, dan AI melakukannya dengan sangat baik. Berikut penjelasan Nvidia mengenai kemampuan AI tersebut:
NVLM-D-1.0-72B kami menunjukkan kemampuan serbaguna dalam berbagai tugas multimodal dengan secara bersama-sama memanfaatkan OCR, penalaran, lokalisasi, akal sehat, pengetahuan dunia, dan kemampuan pengkodean. Misalnya, model kita dapat memahami humor di balik meme “abstrak vs. kertas” pada contoh (a) dengan melakukan OCR untuk mengenali label teks untuk setiap gambar dan menggunakan alasan untuk memahami mengapa menyandingkan “yang abstrak” — diberi label dengan warna yang garang. -berpenampilan lynx – dan “kertas” – diberi label kucing rumahan – lucu.
NVLM juga dapat memecahkan masalah matematika yang kompleks, sesuatu yang telah kita lihat pada produk genAI lainnya, termasuk ChatGPT OpenAI.
Selain itu, Nvidia mengatakan NVLM-D-72B dapat meningkatkan kinerja pada tugas-tugas yang hanya berupa teks setelah pelatihan multimodal.
Tolok ukur yang ditawarkan Nvidia menunjukkan bahwa NVLM mampu bertahan melawan GPT-4o, Claude 3.5 Sonnet, dan Gemini 1.5 Pro. Model bahasa genAI Nvidia yang sekarang terbuka sebenarnya dapat mengungguli produk AI milik OpenAI, Anthrophic, dan Google dalam tugas-tugas tertentu. Tabel di bawah juga menunjukkan bahwa NVLM-D-72B setara dengan platform Llama AI akses terbuka dari Meta.
Sebagai UsahaBeat menunjukkan, pengungkapan mengejutkan Nvidia telah mengejutkan beberapa peneliti AI.
Bukan hanya performa NVLM, tetapi keputusan Nvidia untuk menjadikannya tersedia sebagai proyek sumber terbuka. OpenAI, Claude, dan Google diperkirakan tidak akan melakukan hal tersebut dalam waktu dekat. Pendekatan Nvidia dapat menguntungkan para peneliti AI dan perusahaan-perusahaan kecil, karena mereka akan mendapatkan akses ke LLM multimodal yang tampaknya kuat tanpa harus membayarnya.
Pengguna ChatGPT biasa seperti Anda dan saya harus menunggu dan melihat apa yang keluar dari pengumuman Nvidia. Artinya, kita harus menunggu produk komersial yang memanfaatkan NVLM. Semakin cepat hal ini terjadi, semakin baik bagi industri, karena hal ini dapat berdampak pada berbagai keputusan bisnis OpenAI, Anthropic, Google, dan lainnya.