Kami membuat kucing minum bir dengan generator video AI Runway, dan muncullah tangan
Tangkapan layar video buatan AI tentang seekor kucing yang sedang minum sekaleng bir, dibuat oleh Runway Gen-3 Alpha.

Pada bulan Juni, Runway memperkenalkan model sintesis teks-ke-video baru yang disebut Gen-3 Alfa. Ia mengubah deskripsi tertulis yang disebut “perintah” menjadi klip video HD tanpa suara. Sejak saat itu, kami berkesempatan untuk menggunakannya dan ingin berbagi hasil kami. Pengujian kami menunjukkan bahwa perintah yang cermat tidak sepenting mencocokkan konsep yang mungkin ditemukan dalam data pelatihan, dan bahwa untuk mencapai hasil yang menghibur kemungkinan memerlukan banyak generasi dan pemilihan yang cermat.

Tema yang terus ada pada semua model AI generatif yang telah kita lihat sejak 2022 adalah bahwa model tersebut dapat sangat baik dalam mencampur konsep yang ditemukan dalam data pelatihan tetapi biasanya sangat buruk dalam melakukan generalisasi (menerapkan “pengetahuan” yang dipelajari ke situasi baru yang belum dilatihkan secara eksplisit pada model tersebut). Itu berarti model tersebut dapat unggul dalam hal kebaruan gaya dan tematik tetapi kesulitan dalam hal kebaruan struktural fundamental yang melampaui data pelatihan.

Apa maksud semua itu? Dalam kasus Runway Gen-3, kurangnya generalisasi berarti Anda mungkin meminta kapal layar dalam secangkir kopi yang berputar, dan asalkan data pelatihan Gen-3 mencakup contoh video kapal layar dan kopi yang berputar, itu adalah kombinasi baru yang “mudah” bagi model untuk dibuat dengan cukup meyakinkan. Namun, jika Anda meminta kucing minum sekaleng bir (dalam iklan bir), umumnya akan gagal karena kemungkinan tidak banyak video kucing fotorealistik minum minuman manusia dalam data pelatihan. Sebaliknya, model akan menarik dari apa yang telah dipelajarinya tentang video kucing dan video iklan bir dan menggabungkannya. Hasilnya adalah kucing dengan tangan manusia yang memukul brewsky.

Beberapa petunjuk dasar

Selama fase pengujian Alfa Gen-3, kami mendaftar untuk paket Standar Runway, yang menyediakan 625 kredit seharga $15 per bulan, ditambah beberapa bonus kredit uji coba gratis. Setiap generasi berharga 10 kredit per satu detik video, dan kami membuat video berdurasi 10 detik seharga 100 kredit per video. Jadi, jumlah generasi yang dapat kami buat terbatas.

Kami pertama kali mencoba beberapa standar dari pengujian sintesis gambar kami di masa lalu, seperti kucing minum birBahasa Indonesia: orang barbar dengan perangkat TV CRTDan ratu alam semestaKami juga menyelami kisah Ars Technica dengan “moonshark”, maskot kami. Anda akan melihat semua hasil tersebut dan lebih banyak lagi di bawah ini.

Kami memiliki begitu sedikit kredit sehingga kami tidak mampu untuk mengulanginya dan memilih yang terbaik, jadi apa yang Anda lihat pada setiap perintah adalah persis generasi tunggal yang kami terima dari Runway.

“Seseorang yang sangat cerdas sedang membaca “Ars Technica” di komputernya ketika layarnya meledak”

“iklan untuk burger keju berapi baru dari McDonald's”

“Hiu bulan melompat keluar dari layar komputer dan menyerang seseorang”

“Seekor kucing di dalam mobil minum sekaleng bir, iklan bir”

Will Smith makan spageti“memicu filter, jadi kami mencoba”seorang pria kulit hitam sedang makan spageti.” (Tonton sampai akhir.)

“Hewan humanoid robotik dengan kostum vaudeville berkeliaran di jalan sambil mengumpulkan uang perlindungan dalam bentuk token”

“Seorang pemain basket di gerbong kereta penumpang berhantu dengan lapangan basket, dan dia bermain melawan tim hantu”

“Kawanan sejuta kucing berlari di lereng bukit, pandangan udara”

“rekaman video game dari permainan platform 3D orang ketiga dinamis tahun 1990-an yang dibintangi oleh bocah hiu antropomorfik”

Sumber