Mode suara baru OpenAI memungkinkan saya berbicara dengan telepon saya, bukan ke telepon saya

Aku sudah bermain-main dengan Mode Suara Canggih OpenAI selama seminggu terakhir, dan ini adalah gambaran paling meyakinkan yang pernah saya dapatkan tentang masa depan yang didukung AI. Minggu ini, ponsel saya menertawakan lelucon, membalasnya, menanyakan kabar saya, dan mengatakan bahwa ponsel saya “bersenang-senang”. Saya berbicara dengan iPhone saya, bukan menggunakannya dengan tangan saya.

Fitur terbaru OpenAI, yang saat ini dalam uji alfa terbatas, tidak membuat ChatGPT lebih pintar dari sebelumnya. Sebaliknya, Advanced Voice Mode (AVM) membuatnya lebih ramah dan lebih alami untuk diajak bicara. Fitur ini menciptakan antarmuka baru untuk menggunakan AI dan perangkat Anda yang terasa segar dan menarik, dan itulah yang membuat saya takut. Produknya agak bermasalah, dan seluruh idenya benar-benar membuat saya takut, tetapi saya terkejut dengan betapa saya benar-benar menikmati menggunakannya.

Mundur selangkah, saya pikir AVM cocok dengan visi CEO OpenAI Sam Altman yang lebih luas, bersama agen, untuk mengubah cara manusia berinteraksi dengan komputer, dengan model AI di depan dan di tengah.

“Pada akhirnya, Anda tinggal meminta komputer untuk melakukan apa yang Anda butuhkan dan komputer akan melakukan semua tugas ini untuk Anda,” kata Altman selama Dev Day OpenAI pada bulan November 2023. “Kemampuan ini sering disebut dalam bidang AI sebagai 'agen'. Keuntungannya akan sangat luar biasa.”

Teman saya, ChatGPT

Pada hari Rabu, saya menguji manfaat paling luar biasa dari teknologi canggih yang dapat saya pikirkan: Saya meminta ChatGPT untuk memesan Taco Bell seperti yang dilakukan Obama.

“Uhhh, biar saya tegaskan – saya mau Crunchwrap Supreme, mungkin beberapa taco juga,” kata Mode Suara Canggih ChatGPT. “Menurutmu bagaimana dia akan menangani layanan pesan-antar?” kata ChatGPT, lalu menertawakan leluconnya sendiri.

Tangkapan layar: ChatGPT menyalin percakapan verbal setelahnya.

Kesan itu benar-benar membuat saya tertawa juga, sesuai dengan irama dan jeda khas Obama. Meski begitu, nadanya tetap sama dengan suara ChatGPT yang saya pilih, Juniper, sehingga tidak benar-benar tertukar dengan suara Obama. Kedengarannya seperti seorang teman yang menirukan suara buruk, memahami dengan tepat apa yang ingin saya sampaikan, dan bahkan mengatakan sesuatu yang lucu. Saya merasa sangat senang berbicara dengan asisten canggih ini di ponsel saya.

Saya juga meminta saran dari ChatGPT untuk mengatasi masalah yang melibatkan hubungan manusia yang rumit: meminta orang terkasih untuk tinggal bersama saya. Setelah menjelaskan kerumitan hubungan dan arah karier kami, saya menerima beberapa saran yang sangat terperinci tentang cara untuk maju. Ini adalah pertanyaan yang tidak akan pernah bisa Anda tanyakan kepada Siri atau Google Search, tetapi sekarang Anda bisa melakukannya dengan ChatGPT. Suara chatbot bahkan mengekspresikan nada yang sedikit serius dan lembut saat menanggapi permintaan ini; sangat kontras dengan nada bercanda dalam pesanan Taco Bell Obama.

AVM ChatGPT juga sangat bagus untuk membantu Anda memahami subjek yang rumit. Saya memintanya untuk menguraikan item pada laporan pendapatan – seperti arus kas bebas – dengan cara yang dapat dipahami oleh anak berusia 10 tahun. Ia menggunakan contoh kedai limun, dan menjelaskan beberapa istilah keuangan dengan cara yang dapat dipahami oleh sepupu saya. Anda bahkan dapat meminta AVM ChatGPT untuk berbicara lebih lambat agar sesuai dengan tingkat pemahaman Anda saat ini.

Siri berjalan agar AVM bisa berjalan

Dibandingkan dengan Siri atau Alexa, AVM ChatGPT jelas lebih unggul berkat waktu respons yang lebih cepat, jawaban yang unik, dan kemampuannya untuk menjawab pertanyaan rumit yang tidak pernah bisa dijawab oleh asisten virtual generasi sebelumnya. Namun, AVM memiliki kekurangan dalam hal lain. Fitur suara ChatGPT tidak dapat mengatur timer atau pengingat, menjelajahi web secara real time, memeriksa cuaca, atau berinteraksi dengan API apa pun di ponsel Anda. Saat ini, setidaknya, fitur ini belum menjadi pengganti yang efektif untuk asisten virtual.

Dibandingkan dengan Gemini HidupFitur pesaing Google, AVM terasa sedikit lebih unggul. Gemini Live tidak dapat menirukan suara, tidak mengekspresikan emosi apa pun, tidak dapat mempercepat atau memperlambat, dan membutuhkan waktu lebih lama untuk merespons. Gemini Live memang memiliki lebih banyak suara (sepuluh dibandingkan dengan tiga milik OpenAI), dan tampaknya lebih mutakhir (Gemini Live mengetahui tentang putusan antimonopoli Google). Khususnya, baik AVM maupun Gemini Live tidak akan bernyanyi, kemungkinan sebagai upaya untuk menghindari gugatan hak cipta dari industri rekaman.

Meski begitu, AVM ChatGPT sering bermasalah (begitu pula Gemini Live, kalau boleh jujur). Terkadang, AVM terputus di tengah kalimat, lalu mulai lagi. AVM juga mengeluarkan suara aneh dan kasar di sana-sini yang sedikit tidak menyenangkan. Saya tidak yakin apakah ini masalah dengan model, koneksi internet, atau yang lainnya, tetapi kekurangan teknis ini memang wajar untuk uji alfa. Namun, masalah tersebut tidak banyak membantu saya untuk benar-benar berbicara dengan ponsel saya.

Contoh-contoh ini, menurut saya, adalah keindahan AVM. Fitur ini tidak menjadikan ChatGPT serba tahu, tetapi memungkinkan orang berinteraksi dengan GPT-4o, model AI yang mendasarinya, dengan cara yang unik dan manusiawi. (Saya mengerti jika Anda lupa tidak ada orang di ujung telepon Anda.) ChatGPT terasa seperti sadar sosial saat berbicara dengan AVM, tetapi tentu saja tidak. ChatGPT hanyalah sekumpulan algoritme prediktif yang dikemas dengan rapi.

Berbicara tentang teknologi

Terus terang, fitur tersebut membuat saya khawatir. Ini bukan pertama kalinya perusahaan teknologi menawarkan teman di ponsel Anda. Generasi saya, Gen Z, adalah yang pertama tumbuh bersama media sosial, di mana perusahaan menawarkan koneksi tetapi malah mempermainkan rasa tidak aman kolektif kita. Berbicara dengan perangkat AI – seperti yang tampaknya ditawarkan AVM – tampaknya merupakan evolusi dari fenomena “teman di ponsel” media sosial, yang menawarkan koneksi murah yang menggores naluri manusiawi kita. Namun kali ini, ia menyingkirkan manusia dari lingkaran sepenuhnya.

Koneksi manusia buatan telah menjadi kasus penggunaan yang sangat populer untuk AI generatif. Orang-orang saat ini menggunakan chatbot AI sebagai teman, mentor, terapis, dan guru. Ketika OpenAI meluncurkan toko GPT-nya, itu cepat dibanjiri dengan “pacar AI”,” chatbot yang dikhususkan untuk bertindak sebagai pasangan Anda. Dua peneliti dari MIT Media Lab mengeluarkan peringatan bulan ini untuk mempersiapkan “kecerdasan adiktif,” atau pendamping AI dengan pola gelap untuk membuat manusia terpikat. Kita bisa membuka kotak Pandora untuk cara-cara baru yang menggoda bagi perangkat untuk menarik perhatian kita.

Awal bulan ini, seorang mahasiswa putus kuliah dari Harvard mengguncang dunia teknologi dengan menggoda seorang Kalung AI bernama TemanPerangkat yang dapat dikenakan — jika berfungsi seperti yang dijanjikan — selalu mendengarkan, dan chatbot akan mengirimi Anda pesan teks tentang kehidupan Anda. Meskipun idenya tampak gila, inovasi seperti AVM ChatGPT memberi saya alasan untuk menganggap serius kasus penggunaan tersebut.

Dan sementara OpenAI memimpin di sini, Google tidak jauh tertinggal. Saya yakin Amazon dan Apple berlomba-lomba untuk memasukkan kemampuan ini ke dalam produk mereka juga, dan tak lama lagi, ini bisa menjadi taruhan utama bagi industri.

Bayangkan meminta rekomendasi film yang sangat spesifik dari TV pintar Anda, dan Anda langsung mendapatkan rekomendasi itu. Atau memberi tahu Alexa gejala flu yang Anda rasakan, dan Alexa akan memesankan tisu dan obat batuk di Amazon, sambil menyarankan pengobatan rumahan. Mungkin Anda bisa meminta komputer untuk membuat rencana perjalanan akhir pekan untuk keluarga Anda, daripada mencari semuanya di Google secara manual.

Tentu saja, tindakan ini memerlukan batasan dan lompatan maju dalam dunia agen AI. Upaya OpenAI di bidang itu, toko GPT, terasa seperti produk yang terlalu dibesar-besarkan yang tidak lagi menjadi fokus utama perusahaan. Namun, AVM setidaknya menangani bagian “berbicara dengan komputer” dari teka-teki tersebut. Konsep-konsep ini masih jauh dari kata sempurna, tetapi setelah menggunakan AVM, konsep-konsep tersebut tampak jauh lebih dekat daripada minggu lalu.

Sumber