Pada hari Selasa, OpenAI mulai bergulir versi alfa dari Mode Suara Lanjutan barunya untuk sekelompok kecil pelanggan ChatGPT Plus. Fitur ini, yang OpenAI dipratinjau pada bulan Mei dengan peluncuran GPT-4o, bertujuan untuk membuat percakapan dengan AI lebih alami dan responsif. Pada bulan Mei, fitur tersebut memicu kritik dari ekspresi emosional yang disimulasikan dan mendorong sengketa publik dengan aktris Scarlett Johansson tuduhan bahwa OpenAI meniru suaranya. Meski begitu, uji coba awal fitur baru yang dibagikan oleh pengguna di media sosial sebagian besar mendapat sambutan antusias.
Dalam uji coba awal yang dilaporkan oleh pengguna yang memiliki akses, Advanced Voice Mode memungkinkan mereka melakukan percakapan langsung dengan ChatGPT, termasuk kemampuan untuk menyela AI di tengah kalimat hampir seketika. AI dapat merasakan dan menanggapi isyarat emosional pengguna melalui nada dan penyampaian vokal, serta memberikan efek suara saat bercerita.
Namun yang mengejutkan banyak orang pada awalnya adalah bagaimana suara-suara tersebut meniru mengambil napas sambil berbicara.
“Mode Suara Lanjutan ChatGPT menghitung secepat mungkin hingga 10, lalu hingga 50 (ini membuat saya tercengang—ia berhenti untuk mengatur napas seperti yang dilakukan manusia),” menulis penulis teknologi Cristiano Giardina tentang X.
Mode Suara Lanjutan mensimulasikan jeda yang dapat didengar untuk bernapas karena dilatih pada sampel audio manusia yang berbicara yang menyertakan fitur yang sama. Model tersebut telah belajar mensimulasikan tarikan napas pada waktu yang tampaknya tepat setelah terpapar pada ratusan ribu, jika tidak jutaan, contoh ucapan manusia. Model bahasa besar (LLM) seperti GPT-4o adalah peniru ulung, dan keterampilan itu kini telah meluas ke ranah audio.
Giardina membagikannya kesan lainnya tentang Mode Suara Lanjutan pada X, termasuk pengamatan tentang aksen dalam bahasa lain dan efek suara.
“Sangat cepat, hampir tidak ada latensi dari saat Anda berhenti berbicara hingga saat merespons,” dia menulis“Saat Anda memintanya untuk membuat suara, suaranya selalu “membuat” suara tersebut (dengan hasil yang lucu). Ia dapat mengeluarkan aksen, tetapi saat berbicara dalam bahasa lain, ia selalu menggunakan aksen Amerika. (Dalam video, ChatGPT berperan sebagai komentator pertandingan sepak bola)“
Berbicara tentang efek suara, pengguna X Kesku, yang merupakan moderator server Discord OpenAI, membagikan contoh ChatGPT yang dimainkan beberapa bagian dengan suara yang berbeda dan suara lain yang menceritakan cerita fiksi ilmiah yang terdengar seperti buku audio dari perintah, “Ceritakan padaku sebuah kisah aksi seru dengan elemen fiksi ilmiah dan ciptakan suasana dengan membuat suara-suara yang sesuai dengan kejadian yang terjadi menggunakan onomatopoeia.”
Kesku juga memberikan beberapa contoh pertanyaan untuk kami, termasuk cerita tentang maskot Ars Technica “Moonshark.”
Dia juga memintanya untuk menyanyikan “Lagu Mayor Jenderal“dari opera komik Gilbert dan Sullivan tahun 1879 Bajak Laut Penzance:
Manuel Sainsily, pendukung AI yang sering diposting video Advanced Voice Mode yang bereaksi terhadap masukan kamera, memberikan saran tentang cara merawat anak kucing. “Rasanya seperti berbicara langsung dengan teman yang sangat berpengetahuan, yang dalam kasus ini sangat membantu—meyakinkan kami dengan anak kucing baru kami,” tulisnya. “Ia dapat menjawab pertanyaan secara langsung dan menggunakan kamera sebagai masukan juga!”
Tentu saja, karena berbasis pada LLM, terkadang mungkin bermusyawarah tanggapan yang salah pada topik atau dalam situasi di mana “pengetahuannya” (yang berasal dari set data pelatihan GPT-4o) kurang. Namun jika dianggap sebagai demo teknologi atau hiburan bertenaga AI dan Anda menyadari keterbatasannya, Mode Suara Lanjutan tampaknya berhasil menjalankan banyak tugas yang ditunjukkan oleh demo OpenAI pada bulan Mei.
Keamanan
Seorang juru bicara OpenAI mengatakan kepada Ars Technica bahwa perusahaan tersebut bekerja sama dengan lebih dari 100 penguji eksternal pada peluncuran Advanced Voice Mode, yang secara kolektif berbicara dalam 45 bahasa berbeda dan mewakili 29 wilayah geografis. Sistem tersebut dilaporkan dirancang untuk mencegah peniruan identitas individu atau tokoh publik dengan memblokir keluaran yang berbeda dari empat suara prasetel yang dipilih OpenAI.
OpenAI juga telah menambahkan filter untuk mengenali dan memblokir permintaan untuk menghasilkan musik atau audio berhak cipta lainnya, yang telah membuat perusahaan AI lainnya dalam masalah.Taman dilaporkan “kebocoran” audio pada beberapa keluaran audio yang memiliki musik yang tidak disengaja di latar belakang, menunjukkan bahwa OpenAI melatih model suara AVM pada berbagai macam sumber audio, kemungkinan dari materi berlisensi dan audio yang diambil dari platform video daring.
Ketersediaan
OpenAI berencana untuk memperluas akses ke lebih banyak pengguna ChatGPT Plus dalam beberapa minggu mendatang, dengan peluncuran penuh untuk semua pelanggan Plus diharapkan pada musim gugur ini. Seorang juru bicara perusahaan memberi tahu Ars bahwa pengguna dalam kelompok uji alfa akan menerima pemberitahuan di aplikasi ChatGPT dan email berisi petunjuk penggunaan.
Sejak pratinjau awal suara GPT-4o pada bulan Mei, OpenAI mengklaim telah meningkatkan kemampuan model untuk mendukung jutaan percakapan suara secara bersamaan dan real-time sambil mempertahankan latensi rendah dan kualitas tinggi. Dengan kata lain, mereka bersiap untuk menghadapi serbuan yang akan membutuhkan banyak komputasi back-end untuk mengakomodasinya.