Perusahaan AI Tiongkok berjuang untuk menonjol dari para pesaingnya di pasar teks-ke-video

Perusahaan-perusahaan Tiongkok dari perusahaan rintisan Zhipu AI hingga raksasa teknologi ByteDance telah bergegas meluncurkan alat-alat pembuat video kecerdasan buatan (AI) dalam beberapa hari terakhir, tetapi menghadapi tantangan dalam membedakan diri dari para pesaing lokal di pasar.

Pendatang baru lainnya di pasar ini termasuk operator platform video pendek Kuaishou Technology dan perusahaan rintisan Shengshu AI, yang merilis perangkat pembuat video untuk penggunaan publik. Raksasa e-commerce Alibaba Group Holding juga telah menerbitkan kerangka kerja untuk perangkat bergaya Sora. Alibaba memiliki South China Morning Post.

Sementara perusahaan China tertinggal beberapa bulan di belakang Sora OpenAi dalam mengembangkan model yang dapat mengubah teks menjadi video, mereka telah menunjukkan potensi untuk mengejar ketinggalan dengan cepat di bidang tersebut, kata para analis.

Lu Yanxia, ​​direktur penelitian untuk teknologi baru di IDC China, mengatakan model teks-ke-video telah menjamur berkat investasi signifikan China dalam model AI. OpenAI yang didukung Microsoft memelopori pembuatan teks-ke-video dengan peluncuran Sora pada bulan Februari, tetapi perusahaan rintisan yang berbasis di San Francisco tersebut belum menyediakan produk tersebut untuk masyarakat umum, dengan hanya sejumlah kecil pengguna perintis yang diberi akses.

Dalam ilustrasi foto ini, video yang dibuat oleh alat pengubah teks ke video milik Open AI, Sora, diputar di monitor di Washington, DC pada 16 Februari 2024. Foto: AFP/Getty Images/TNS

ByteDance merupakan perusahaan terakhir di antara para pesaingnya yang memperkenalkan versi Sora, dengan alat video bernama Jimeng yang dirilis di toko Android lokal pada tanggal 31 Juli. Alat ini menerima perintah teks dan gambar untuk membuat klip berdurasi hingga 12 detik, menjadikannya pilihan utama dalam hal durasi video.

Model Kuaishou dapat menghasilkan klip dengan durasi maksimum 10 detik, sementara Qing milik ZhipuAI dan Vidu milik Shengshu menghasilkan klip antara empat dan enam detik. Di sisi lain, Shengshu menonjol dalam hal kecepatan pembuatan. Versinya membutuhkan waktu kurang dari 30 detik untuk menghasilkan klip berdurasi empat detik, sementara sebagian besar layanan lain membutuhkan waktu lebih lama untuk menghasilkan video berdurasi serupa.

Seorang karyawan di salah satu perusahaan AI, yang meminta identitasnya dirahasiakan, mengatakan model yang dikembangkan oleh perusahaan-perusahaan Tiongkok bersifat homogen dan tidak terlalu berbeda satu sama lain. Sebaliknya, perusahaan akan membedakan diri berdasarkan layanan yang diberikan dan industri yang menjadi target mereka.

Keempat layanan tersebut telah mengadopsi model freemium, yang memungkinkan pengguna mencoba layanan tanpa biaya tetapi dengan waktu tunggu yang lebih lama selama periode penggunaan puncak. Mereka juga menawarkan paket harga sehingga pengguna dapat menghindari penundaan dan menerima fasilitas tambahan, seperti klip definisi tinggi.

Lu dari IDC memperkirakan model video akan pertama kali diadopsi oleh sektor internet, khususnya untuk streaming langsung dan permainan video, kemudian diikuti dengan penerapan di kota pintar dan manufaktur.

“Ini akan menjadi bidang persaingan utama bagi teknologi AI generatif,” katanya.

Sumber