Catatan OpenAI menunjukkan bahwa hal itu berhasil dengan aktor yang sama sekali berbedadan menarik suara yang disebut Sky dari produknya. Pada bulan Juni, perusahaan itu mengatakan akan menunda peluncuran mode suara untuk melakukan pengujian keamanan lebih lanjut. Mode suara baru yang diluncurkan hari Selasa tidak menyertakan suara Sky, juru bicara OpenAI mengonfirmasi.
Perusahaan teknologi telah berupaya membuat chatbot AI percakapan selama bertahun-tahun. Alexa milik Amazon Dan Siri milik Apple ada di mana-mana dan digunakan oleh jutaan orang untuk mengatur waktu dan mencari tahu cuaca, tetapi tidak cukup mampu untuk tugas-tugas yang rumit. Sekarang, OpenAI, Google, Microsoft, Apple, dan sejumlah perusahaan teknologi lainnya mencoba menggunakan terobosan dalam AI generatif untuk akhirnya membangun jenis asisten yang telah menjadi bagian dari fiksi ilmiah selama beberapa dekade.
Penggemar dan pelanggan OpenAI telah meminta-minta mode suara, dengan beberapa mengeluh secara daring ketika perusahaan menunda peluncurannya pada bulan Juni. Fitur baru ini akan tersedia untuk sejumlah kecil pengguna pada awalnya, dan perusahaan akan secara bertahap membukanya untuk semua pelanggan OpenAI yang membayar pada musim gugur.
Versi ChatGPT sebelumnya memiliki kemampuan untuk mendengarkan pertanyaan lisan dan menanggapi dengan audio dengan mentranskripsikan pertanyaan menjadi teks, menjalankannya melalui algoritma AI, lalu membacakan tanggapan teksnya dengan lantang. Namun, fitur suara baru ini dibangun di atas model AI terbaru OpenAI, yang langsung memproses audio tanpa perlu mengubahnya menjadi teks terlebih dahulu. Hal itu memungkinkan bot untuk mendengarkan beberapa suara sekaligus dan menentukan nada suara seseorang, menanggapi secara berbeda berdasarkan apa yang menurutnya merupakan emosi orang tersebut.
Hal ini membuka serangkaian pertanyaan baru, seperti bagaimana perbedaan budaya berperan, atau apakah orang mungkin mengembangkan hubungan dengan bot yang dilatih untuk menanggapi emosi mereka dengan cara tertentu. OpenAI mengatakan bahwa hal itu berhasil dengan orang-orang mewakili 45 bahasa dan 29 “geografi” untuk meningkatkan kemampuan model AI.
Hanya empat suara unik yang akan tersedia untuk digunakan, dan alat tersebut akan memblokir upaya untuk membuat bot menghasilkan suara orang sungguhan, kata perusahaan itu.