Zuckerberg memuji visi video AI terbaru Meta dengan CEO Nvidia Jensen Huang

Meta mengalami kesuksesan yang nyata tahun lalu dengan Segmentasikan Apa Sajasebuah model pembelajaran mesin yang dapat mengidentifikasi dan menguraikan hampir semua hal dalam gambar dengan cepat dan andal. Sekuelnya, yang diperkenalkan CEO Mark Zuckerberg di panggung SIGGRAPH pada hari Senin, membawa model tersebut ke ranah video, menunjukkan seberapa cepat bidang tersebut bergerak.

Segmentasi adalah istilah teknis untuk saat model visi melihat gambar dan memilih bagian-bagiannya: “ini anjing, ini pohon di belakang anjing” semoga saja, dan bukan “ini pohon yang tumbuh dari anjing.” Ini telah terjadi selama beberapa dekade, tetapi baru-baru ini menjadi jauh lebih baik dan lebih cepat, dengan Segmen Apa Saja menjadi langkah maju yang besar.

Segmen Apa Saja 2 (SA2) merupakan tindak lanjut alami yang berlaku secara asli pada video dan bukan hanya gambar diam; meskipun Anda tentu saja dapat menjalankan model pertama pada setiap bingkai video secara individual, itu bukanlah alur kerja yang paling efisien.

“Ilmuwan menggunakan hal ini untuk mempelajari terumbu karang dan habitat alami, hal-hal seperti itu. Namun, mampu melakukan ini dalam bentuk video dan tidak mengambil gambar apa pun serta menyampaikan apa yang Anda inginkan, itu sangat keren,” kata Zuckerberg dalam percakapan dengan CEO Nvidia Jensen Huang.

Tentu saja, pemrosesan video jauh lebih menuntut komputasi, dan ini merupakan bukti kemajuan yang telah dicapai di seluruh industri dalam hal efisiensi, sehingga SA2 dapat berjalan tanpa merusak pusat data. Tentu saja, ini masih merupakan model besar yang membutuhkan perangkat keras yang serius agar dapat berfungsi, tetapi segmentasi yang cepat dan fleksibel hampir mustahil dilakukan bahkan setahun yang lalu.

Kredit Gambar: Meta

Modelnya, seperti model pertama, akan terbuka dan bebas digunakan, dan belum ada kabar mengenai versi yang dihosting, sesuatu yang terkadang ditawarkan oleh perusahaan AI ini. Namun ada demo gratis.

Tentu saja model seperti itu membutuhkan banyak sekali data untuk dilatih, dan Meta juga merilis basis data besar beranotasi yang berisi 50.000 video yang dibuatnya khusus untuk tujuan ini. Dalam makalah yang menjelaskan SA2, basis data lain yang berisi lebih dari 100.000 video yang “tersedia secara internal” juga digunakan untuk pelatihan, dan yang ini tidak dipublikasikan — Saya telah meminta Meta untuk memberikan informasi lebih lanjut tentang apa ini dan mengapa tidak dirilis. (Dugaan kami, sumbernya berasal dari profil Instagram dan Facebook publik.)

Contoh data pelatihan berlabel.
Kredit Gambar: Meta

Meta telah menjadi pemimpin dalam domain AI “terbuka” selama beberapa tahun ini, meskipun sebenarnya (seperti yang dikatakan Zuckerberg dalam percakapan tersebut) telah melakukannya sejak lama, dengan alat-alat seperti PyTorch. Namun baru-baru ini, LLaMa, Segment Anything, dan beberapa model lain yang dirilis secara gratis telah menjadi standar yang relatif mudah diakses untuk kinerja AI di area tersebut, meskipun “keterbukaan” mereka masih menjadi bahan perdebatan.

Zuckerberg menyebutkan bahwa keterbukaan tersebut tidak sepenuhnya berasal dari kebaikan hati mereka di Meta, tetapi itu tidak berarti niat mereka tidak murni:

“Ini bukan sekadar perangkat lunak yang dapat Anda buat — Anda memerlukan ekosistem di sekitarnya. Ini hampir tidak akan berfungsi dengan baik jika kita tidak membuka sumbernya, bukan? Kami tidak melakukan ini karena kami orang yang altruistik, meskipun saya pikir ini akan membantu ekosistem — kami melakukannya karena kami pikir ini akan membuat hal yang kami bangun menjadi yang terbaik.”

Tentu saja, itu akan digunakan dengan baik. Lihat GitHub di sini.

Sumber