OpenAI memperkenalkan pembuatan asisten suara yang mudah di acara pengembang tahun 2024
Logo OpenAI bersinar dengan latar belakang biru.

Benj Edwards

Pada hari Senin, OpenAI memulai acara tahunannya Hari Dev acara di San Francisco, meluncurkan empat pembaruan API utama untuk pengembang yang mengintegrasikan model AI perusahaan ke dalam produk mereka. Berbeda dengan tahun lalu acara satu lokasi menampilkan keynote dari CEO Sam Altman, DevDay 2024 lebih dari satu hari, mengadopsi pendekatan global dengan acara tambahan yang direncanakan di London pada 30 Oktober dan Singapura pada 21 November.

Acara di San Francisco, yang hanya untuk undangan dan tertutup untuk pers, ditampilkan pembicara di atas panggung melalui presentasi teknis. Mungkin fitur API baru yang paling menonjol adalah Realtime API, sekarang dalam versi beta publik, yang mendukung percakapan ucapan-ke-ucapan menggunakan enam suara yang telah ditetapkan sebelumnya dan memungkinkan pengembang membuat fitur yang sangat mirip dengan ChatGPT. Mode Suara Tingkat Lanjut (AVM) ke dalam aplikasi mereka.

OpenAI mengatakan bahwa Realtime API menyederhanakan proses pembuatan asisten suara. Sebelumnya, pengembang harus menggunakan beberapa model untuk pengenalan suara, pemrosesan teks, dan konversi teks-ke-ucapan. Kini, mereka dapat menangani seluruh proses dengan satu panggilan API.

Perusahaan berencana untuk menambahkan kemampuan input dan output audio ke dalamnya API Penyelesaian Obrolan dalam beberapa minggu ke depan, memungkinkan pengembang memasukkan teks atau audio dan menerima respons dalam format apa pun.

Dua opsi baru untuk inferensi yang lebih murah

OpenAI juga mengumumkan dua fitur yang dapat membantu pengembang menyeimbangkan kinerja dan biaya saat membuat aplikasi AI. “Distilasi model” menawarkan cara bagi pengembang untuk menyempurnakan (menyesuaikan) model yang lebih kecil dan lebih murah GPT-4o mini menggunakan keluaran dari model yang lebih canggih seperti GPT-4o dan o1-pratinjau. Hal ini berpotensi memungkinkan pengembang mendapatkan keluaran yang lebih relevan dan akurat sambil menjalankan model yang lebih murah.

OpenAI juga mengumumkan “prompt caching”, sebuah fitur serupa diperkenalkan oleh Antropis untuk Claude API-nya pada bulan Agustus. Ini mempercepat inferensi (model AI menghasilkan keluaran) dengan mengingat perintah yang sering digunakan (token masukan). Selain itu, fitur ini memberikan diskon 50 persen untuk token masukan dan waktu pemrosesan yang lebih cepat dengan menggunakan kembali token masukan yang baru-baru ini terlihat.

Dan yang tak kalah pentingnya, perusahaan ini memperluas kemampuan penyesuaiannya dengan menyertakan gambar (yang disebutnya “penyempurnaan visi”), memungkinkan pengembang menyesuaikan GPT-4o dengan memasukkannya baik gambar maupun teks khusus. Pada dasarnya, pengembang dapat mengajarkan GPT-4o versi multimodal untuk mengenali hal-hal tertentu secara visual. OpenAI mengatakan fitur baru ini membuka kemungkinan peningkatan fungsi pencarian visual, deteksi objek yang lebih akurat untuk kendaraan otonom, dan kemungkinan peningkatan analisis gambar medis.

Di mana keynote Sam Altman?

CEO OpenAI Sam Altman berbicara pada acara OpenAI DevDay pada 6 November 2023, di San Francisco.
Memperbesar / CEO OpenAI Sam Altman berbicara pada acara OpenAI DevDay pada 6 November 2023, di San Francisco.

Gambar Getty

Tidak seperti tahun lalu, DevDay tidak disiarkan secara langsung, meskipun OpenAI berencana untuk memposting konten nanti di saluran YouTube-nya. Pemrograman acara ini mencakup sesi breakout, sorotan komunitas, dan demo. Namun perubahan terbesar sejak tahun lalu adalah tidak adanya pembicara utama dari CEO perusahaan. Tahun ini, keynote ditangani oleh tim produk OpenAI.

Pada DevDay perdana tahun lalu, 6 November 2023, CEO OpenAI Sam Altman menyampaikan pesan ala Steve Jobs keynote langsung untuk berkumpul pengembang, karyawan OpenAI, dan pers. Dalam presentasinya, CEO Microsoft Satya Nadella muncul secara mengejutkan dan membicarakan kemitraan antar perusahaan.

Sebelas hari kemudian, dewan OpenAI memecat Altmanmemicu kekacauan selama seminggu yang mengakibatkan Altman kembali sebagai CEO dan a dewan direksi baru. Tepat setelah penembakan, Kara Swisher disampaikan sumber orang dalam yang mengatakan keynote DevDay Altman dan pengenalan toko GPT telah menjadi faktor pemicu penembakan tersebut (meskipun bukan faktor pemicunya). faktor kunci) karena beberapa perbedaan pendapat internal mengenai arah perusahaan yang lebih berorientasi konsumen sejak peluncuran ChatGPT.

Dengan mempertimbangkan sejarah tersebut—dan fokus pada pengembang di atas segalanya untuk acara ini—mungkin perusahaan memutuskan bahwa yang terbaik adalah membiarkan Altman menjauh dari keynote dan membiarkan teknologi OpenAI menjadi fokus utama acara tersebut daripada dirinya. Kami murni berspekulasi mengenai hal ini, namun OpenAI tentu saja mengalaminya bagiannya dalam drama selama sebulan terakhir, jadi ini mungkin merupakan keputusan yang bijaksana.

Meskipun tidak ada keynote, Altman hadir di Dev Day San Francisco hari ini dan dijadwalkan untuk melakukan “obrolan api unggun” penutup di akhir (yang belum terjadi hingga tulisan ini dibuat). Juga, Altman membuat penyataan tentang DevDay di X, mengingat bahwa sejak DevDay tahun lalu, OpenAI telah melihat beberapa perubahan dramatis (secara harfiah):

Dari hari kemarin hingga hari ini:

*Penurunan biaya per token sebesar 98% dari GPT-4 menjadi 4o mini
*50x peningkatan volume token di seluruh sistem kami
*kemajuan kecerdasan model yang luar biasa
*(dan sedikit drama sepanjang perjalanan)

Dalam tweet tindak lanjut yang disampaikan dalam huruf kecil khasnya, Altman membagikan pesan berwawasan ke depan yang merujuk pada upaya perusahaan untuk AI tingkat manusia, yang sering disebut AGI: “bersemangat untuk membuat lebih banyak kemajuan dari hari devday ini ke hari dev berikutnya.” Dia menulis. “Jalan menuju agi tidak pernah sejelas ini.”

Sumber