Para peneliti mengatakan alat transkripsi bertenaga AI yang digunakan di rumah sakit menciptakan hal-hal yang belum pernah dikatakan oleh siapa pun

SAN FRANCISCO — Raksasa teknologi OpenAI memuji alat transkripsi bertenaga kecerdasan buatannya, Whisper, yang memiliki “ketahanan dan akurasi tingkat manusia”.

Namun Whisper memiliki kelemahan besar: Ia cenderung membuat potongan teks atau bahkan seluruh kalimat, menurut wawancara dengan lebih dari selusin insinyur perangkat lunak, pengembang, dan peneliti akademis. Para ahli tersebut mengatakan beberapa teks yang diciptakan – yang dikenal dalam industri sebagai halusinasi – dapat mencakup komentar rasial, retorika kekerasan, dan bahkan perawatan medis yang dibayangkan.

Para ahli mengatakan pemalsuan tersebut menimbulkan masalah karena Whisper digunakan di banyak industri di seluruh dunia untuk menerjemahkan dan menyalin wawancara, menghasilkan teks dalam teknologi konsumen populer, dan membuat subtitle untuk video.

Yang lebih memprihatinkan, kata mereka, adalah terburu-buru oleh pusat kesehatan untuk memanfaatkan alat berbasis Whisper untuk menuliskan konsultasi pasien dengan dokter BukaAI' Peringatan bahwa alat tersebut tidak boleh digunakan di “domain berisiko tinggi.”

Permasalahannya sulit untuk diketahui sepenuhnya, namun para peneliti dan insinyur mengatakan bahwa mereka sering menemukan halusinasi Whisper dalam pekerjaan mereka. A Universitas Michigan Peneliti yang melakukan studi tentang pertemuan publik, misalnya, mengatakan dia menemukan halusinasi dalam delapan dari setiap 10 transkripsi audio yang dia periksa, sebelum dia mulai mencoba memperbaiki modelnya.

Seorang insinyur pembelajaran mesin mengatakan dia awalnya menemukan halusinasi di sekitar setengah dari lebih dari 100 jam transkripsi Whisper yang dia analisis. Pengembang ketiga mengatakan dia menemukan halusinasi di hampir setiap satu dari 26.000 transkrip yang dia buat dengan Whisper.

Masalahnya tetap ada bahkan dalam sampel audio pendek yang direkam dengan baik. Sebuah studi baru-baru ini yang dilakukan oleh ilmuwan komputer menemukan 187 halusinasi di lebih dari 13.000 cuplikan audio jelas yang mereka periksa.

Tren ini akan menyebabkan puluhan ribu kesalahan transkripsi pada jutaan rekaman, kata para peneliti.

Kesalahan seperti itu bisa menimbulkan “konsekuensi yang sangat serius,” khususnya di lingkungan rumah sakit, katanya Alondra Nelsonyang memimpin Kantor Kebijakan Sains dan Teknologi Gedung Putih pada pemerintahan Biden hingga tahun lalu.

“Tidak seorang pun menginginkan kesalahan diagnosis,” kata Nelson, seorang profesor di Institute for Advanced Study di Princeton, New Jersey. “Harus ada standar yang lebih tinggi.”

Whisper juga digunakan untuk membuat teks tertulis untuk tunarungu dan gangguan pendengaran – populasi yang berisiko mengalami kesalahan transkripsi. Itu karena orang-orang tuna rungu dan orang yang mengalami gangguan pendengaran tidak memiliki cara untuk mengidentifikasi kebohongan yang “tersembunyi di antara semua teks lainnya ini,” kata Christian Vogleryang tuna rungu dan mengarahkan Program Akses Teknologi Universitas Gallaudet.

Prevalensi halusinasi tersebut telah menyebabkan para ahli, advokat, dan mantan karyawan OpenAI menyerukan pemerintah federal untuk mempertimbangkan peraturan AI. Setidaknya, kata mereka, OpenAI perlu mengatasi kekurangan tersebut.

“Hal ini tampaknya dapat diselesaikan jika perusahaan bersedia memprioritaskannya,” kata William Saunders, seorang insinyur riset yang berbasis di San Francisco yang keluar dari OpenAI pada bulan Februari karena kekhawatirannya terhadap arah perusahaan. “Akan menjadi masalah jika Anda menerapkan teknologi ini dan orang-orang terlalu percaya diri mengenai apa yang dapat dilakukan teknologi ini dan mengintegrasikannya ke dalam semua sistem lainnya.”

Sebuah OpenAI Juru bicaranya mengatakan perusahaan terus mempelajari cara mengurangi halusinasi dan menghargai temuan para peneliti, menambahkan bahwa OpenAI memasukkan umpan balik dalam pembaruan model.

Meskipun sebagian besar pengembang berasumsi bahwa alat transkripsi salah mengeja kata atau membuat kesalahan lainnya, para insinyur dan peneliti mengatakan mereka belum pernah melihat alat transkripsi bertenaga AI yang berhalusinasi seperti Whisper.

Alat ini terintegrasi ke dalam beberapa versi chatbot andalan OpenAI, ChatGPT, dan merupakan penawaran bawaan di platform komputasi awan Oracle dan Microsoft, yang melayani ribuan perusahaan di seluruh dunia. Ini juga digunakan untuk menyalin dan menerjemahkan teks ke berbagai bahasa.

Dalam sebulan terakhir saja, satu versi terbaru Whisper telah diunduh lebih dari 4,2 juta kali dari platform AI sumber terbuka HuggingFace. Sanchit Gandhi, seorang insinyur pembelajaran mesin di sana, mengatakan Whisper adalah model pengenalan suara sumber terbuka paling populer dan terintegrasi dalam segala hal mulai dari pusat panggilan hingga asisten suara.

Profesor Allison Koenecke dari Universitas Cornell dan Mona Sloane dari Universitas Virginia memeriksa ribuan cuplikan pendek yang mereka peroleh dari TalkBank, sebuah gudang penelitian yang diselenggarakan di Universitas Carnegie Mellon. Mereka menetapkan bahwa hampir 40% halusinasi berbahaya atau mengkhawatirkan karena pembicara dapat disalahartikan atau disalahartikan.

Dalam contoh yang mereka temukan, seorang pembicara berkata, “Dia, anak laki-laki itu, akan, saya tidak yakin persisnya, mengambil payung.”

Namun perangkat lunak transkripsi menambahkan: “Dia mengambil sepotong besar sebuah salib, sepotong kecil, sepotong kecil… Saya yakin dia tidak memiliki pisau teror sehingga dia membunuh sejumlah orang.”

Seorang pembicara dalam rekaman lain menggambarkan “dua gadis lain dan satu wanita.” Whisper menciptakan komentar tambahan tentang ras, menambahkan “dua gadis lain dan satu wanita, um, berkulit hitam.”

Dalam transkripsi ketiga, Whisper menemukan obat yang tidak ada yang disebut “antibiotik hiperaktif.”

Para peneliti tidak yakin mengapa Whisper dan alat serupa berhalusinasi, namun pengembang perangkat lunak mengatakan pemalsuan tersebut cenderung terjadi di tengah jeda, suara latar, atau pemutaran musik.

OpenAI merekomendasikan dalam pengungkapan online-nya untuk tidak menggunakan Whisper dalam “konteks pengambilan keputusan, di mana kelemahan dalam akurasi dapat menyebabkan kelemahan yang nyata pada hasil.”

Peringatan tersebut tidak menghentikan rumah sakit atau pusat kesehatan untuk menggunakan model ucapan-ke-teks, termasuk Whisper, untuk menyalin apa yang dikatakan selama kunjungan dokter agar penyedia layanan kesehatan dapat menghemat waktu dalam membuat catatan atau menulis laporan.

Lebih dari 30.000 dokter dan 40 sistem kesehatan, termasuk Klinik Mankato di Minnesota dan Rumah Sakit Anak Los Angeles, telah mulai menggunakan alat berbasis Whisper yang dibuat oleh Nablayang memiliki kantor di Perancis dan Amerika

Alat tersebut telah disesuaikan dengan bahasa medis untuk menuliskan dan merangkum interaksi pasien, kata kepala bagian teknologi Nabla, Martin Raison.

Pejabat perusahaan mengatakan mereka sadar bahwa Whisper dapat berhalusinasi dan sedang mengatasi masalah tersebut.

Tidak mungkin membandingkan transkrip yang dihasilkan AI oleh Nabla dengan rekaman asli karena alat Nabla menghapus audio asli demi “alasan keamanan data,” kata Raison.

Nabla mengatakan alat tersebut telah digunakan untuk menyalin sekitar 7 juta kunjungan medis.

Saunders, mantan insinyur OpenAI, mengatakan menghapus audio asli dapat mengkhawatirkan jika transkrip tidak diperiksa ulang atau dokter tidak dapat mengakses rekaman untuk memverifikasi kebenarannya.

“Anda tidak dapat menemukan kesalahan jika Anda menghilangkan kebenaran yang ada,” katanya.

Nabla mengatakan bahwa tidak ada model yang sempurna, dan model yang mereka gunakan saat ini mengharuskan penyedia layanan kesehatan untuk segera mengedit dan menyetujui catatan yang ditranskripsikan, namun hal tersebut dapat berubah.

Karena pertemuan pasien dengan dokter bersifat rahasia, sulit untuk mengetahui bagaimana transkrip yang dihasilkan AI memengaruhi mereka.

Seorang anggota parlemen negara bagian California, Rebecca Bauer-Kahanmengatakan dia membawa salah satu anaknya ke dokter awal tahun ini, dan menolak menandatangani formulir yang disediakan jaringan kesehatan yang meminta izinnya untuk berbagi audio konsultasi dengan vendor termasuk Microsoft Azure, sistem komputasi awan yang dijalankan oleh investor terbesar OpenAI. . Bauer-Kahan tidak ingin percakapan medis yang intim seperti itu dibagikan kepada perusahaan teknologi, katanya.

“Pelepasan ini sangat spesifik sehingga perusahaan nirlaba berhak mendapatkan hal ini,” kata Bauer-Kahan, seorang Demokrat yang mewakili sebagian wilayah pinggiran San Francisco di Majelis negara bagian. “Saya seperti 'sama sekali tidak.'”

Juru bicara John Muir Health, Ben Drew, mengatakan sistem kesehatan mematuhi undang-undang privasi negara bagian dan federal.

___

Schellmann melaporkan dari New York.

___

Kisah ini dibuat melalui kerja sama dengan Jaringan Akuntabilitas AI Pulitzer Center, yang juga mendukung sebagian studi akademis Whisper.

___

Associated Press menerima bantuan keuangan dari Jaringan Omidyar untuk mendukung liputan kecerdasan buatan dan dampaknya terhadap masyarakat. AP bertanggung jawab penuh atas semua konten. Temukan AP standar untuk bekerja dengan filantropi, daftar pendukung dan area cakupan yang didanai di AP.org.

___

Associated Press dan OpenAI memiliki perjanjian lisensi dan teknologi mengizinkan akses OpenAI ke bagian arsip teks AP.

Sumber

LEAVE A REPLY

Please enter your comment!
Please enter your name here