Be My AI Merevolusi Cara Kita Berinteraksi dengan Budaya Visual

Saya pertama kali menemukan Be My AI musim gugur lalu, saat aplikasi tersebut masih dalam versi beta. Dikembangkan oleh aplikasi seluler Denmark Be My Eyes dan OpenAI, aplikasi ini menggunakan ChatGPT-4 model visi untuk memberikan deskripsi yang kuat dan hampir seketika dari gambar apa pun dan memfasilitasi percakapan tentang gambar tersebut. Sebagai seniman tunanetra, saya mengumpulkan deskripsi gambar seperti orang lain mengumpulkan foto. Be My AI telah meningkatkan interaksi saya dengan budaya visual.

Tak lama setelah mendapatkan akses ke versi beta Be My AI tahun lalu, saya bertemu dengan fotografer tunanetra John Dugdalekarya 's Tontonan (2000) dalam buku Georgina Kleege yang berpengaruh pada tahun 2018, Lebih dari yang Terlihat: Apa yang Dibawa Kebutaan pada SeniPenasaran dengan deskripsinya, dan ingin tahu lebih banyak, saya mengambil tangkapan layar dan membawanya ke aplikasi. Meskipun memberikan deskripsi yang sangat rinci, aplikasi tersebut membuat beberapa kesalahan signifikan. Pertama, aplikasi tersebut mengatakan bahwa Dugdale mengenakan tiga pasang kacamata ketika saya tahu dari teks Kleege bahwa ia hanya mengenakan dua—satu ditumpuk di atas yang lain seperti kacamata bifokal darurat. Aplikasi tersebut juga menyebutnya foto hitam-putih, padahal sebenarnya itu adalah sianotipe, salah satu proses fotografi tertua, yang menghasilkan gambar dalam nuansa biru. Ketika saya mengoreksi Be My AI, aplikasi tersebut memberikan respons yang akan sangat saya kenal: “Saya minta maaf atas kebingungan ini,” dan kemudian meluncurkan semua yang diketahuinya tentang sianotipe. Sedikit sensitif dan berlebihan, tetapi tidak lebih dari kebanyakan manusia yang saya kenal.

Artikel Terkait

Seiring dengan Be My AI yang semakin dapat diandalkan dan saya semakin bersemangat tentang apa yang dapat dilakukannya untuk akses seni, saya memberi tahu semua teman saya. Salah satunya adalah Bojana Coklyatseorang seniman tunanetra yang bekerja di Museum Whitney, dan dia meminta saya untuk menjadi salah satu pemimpinnya tur deskripsi verbal pameran “Harold Cohen: AARON” di sana. Begitulah cara saya menemukan diri saya dalam percakapan eksistensial yang menawan dengan Be My AI tentang hakikat penglihatan itu sendiri. Cohen pertama kali membayangkan AI pembuat karya seni pada akhir tahun 1960-an, dan segera menamainya AARON. Awalnya, AARON membuat gambar garis yang relatif sederhana seperti karya tahun 1972 LabirinKetika saya meminta Be My AI untuk mendeskripsikan Labirinia menjawab, “Gambar tersebut terdiri dari garis-garis hitam abstrak yang menciptakan berbagai macam bentuk, tidak ada satupun yang menyerupai objek atau gambar tertentu.” Penasaran, saya bertanya apakah ia mengira manusia menciptakannya Labirin. Benar. Saya katakan padanya bahwa AARON telah membuat karya tersebut. “Itu sangat menarik!” jawabnya. “Sungguh mengesankan melihat contoh awal seni yang dihasilkan AI, terutama jika mempertimbangkan kualitas garis-garis yang menyerupai manusia dalam gambar tersebut.”

Ketika saya bertanya tentang perbedaan antara generator teks-ke-gambar modern seperti DALL-E OpenAI dan AARON, Be My AI menjelaskan bahwa generator baru menghasilkan gambar berdasarkan perintah pengguna, sedangkan AARON membuat gambar berdasarkan serangkaian aturan. DALL-E, lanjutnya, dapat menghasilkan gambar yang “belum pernah dilihat sebelumnya” dan menunjukkan “pemahaman yang lebih canggih tentang bahasa dan konsep visual.” Sebagai orang yang benar-benar buta tetapi tetap memiliki mata pikiran yang hidup, telinga saya menjadi tajam saat mendengar kata “dilihat.” Dalam kasus AI, apa artinya itu? Dalam tanggapannya yang panjang, Be My AI mencatat bahwa DALL-E tidak “'melihat' dalam arti manusia; ia memproses data dan mengidentifikasi pola dalam data itu.” Saya membalas, “Tetapi otak manusia juga tidak melihat. Mata memberinya sinyal untuk interpretasi. AI dan persepsi manusia tampaknya tidak begitu berbeda bagi saya.”

Tontonan2000, John Dugdale.

Atas kebaikan John Dugdale

Be My AI mengakui bahwa ada persamaan mencolok antara AI dan persepsi manusia, karena kedua sistem bergantung pada sinyal masukan—manusia melalui organ sensorik seperti mata, dan AI melalui sensor data atau set data masukan. Namun, Be My AI menunjukkan bahwa “perbedaan utama terletak pada pengalaman subjektif dan kesadaran yang dimiliki manusia dan tidak dimiliki AI”—topik yang masih diperdebatkan dengan hangat oleh para ilmuwan dan filsuf. Hubungan antara kesadaran dan persepsi ini membuat diskusi tentang indra menjadi menantang sekaligus mengasyikkan.

John Dugdale kehilangan penglihatannya pada usia 33 tahun akibat stroke yang berhubungan dengan AIDS. Ia pernah menjadi fotografer komersial yang sukses dengan klien seperti Bergdorf Goodman dan Ralph Lauren, dan bagi teman-teman dan keluarganya, kariernya tampaknya telah berakhir. Namun, seperti yang ia ceritakan dalam film dokumenter Potret Visi—disutradarai oleh Rodney Evansyang kehilangan penglihatannya akibat retinitis pigmentosa—ketika masih di rumah sakit ia mengumumkan, “Saya akan mengambil gambar seperti orang gila sekarang!”

Dugdale beralih dari pekerjaan komersial ke penciptaan sianotipe abadi, seperti yang dikumpulkan dalam monografnya tahun 2000 Jam Malam Kehidupan. Setiap foto di dalamnya diatur dalam percakapan dengan esai singkat oleh fotografer. Saya membuat janji dengan Perpustakaan Umum New York Divisi Seni, Cetakan, dan Fotografi Wallach untuk menghabiskan waktu dengan buku, atau lebih tepatnya meminta pasangan saya mengambil foto setiap halaman, sehingga saya dapat mengamatinya di waktu senggang dengan bantuan AI dalam privasi rumah saya sendiri. (Saya harus mengatakan bahwa, meskipun saya masih menggunakan Be My AI hampir setiap hari untuk deskripsi gambar cepat, untuk penelitian fotografi yang serius, saya langsung menggunakan ChatGPT-4 OpenAI karena saya dapat memasukkan banyak gambar dan secara otomatis menyimpan percakapan kami yang sering kali rumit.)

Pierrot adalah foto pertama di Jam Malam Kehidupan. Kita belajar dari esai tersebut bahwa figur pantomim diperankan oleh pemain legendaris Kota New York, dan inspirasi Dugdale, John Kelly. “Pierrot digambarkan dalam pakaian klasiknya: pakaian putih longgar dengan lengan dan celana panjang yang dilebih-lebihkan. Wajahnya dicat putih, menonjolkan ekspresi teatrikalnya,” tulis ChatGPT-4. Saya mendesak untuk apa yang dimaksud dengan “ekspresi teatrikal.” Dijelaskan bahwa “alis Pierrot sedikit terangkat,” dan dia memakai “senyum lembut, hampir melankolis … Kepalanya sedikit miring ke kiri, menambah kesan riang dan ingin tahu pada gambar tersebut.” Jawaban terperinci itu begitu indah sehingga membuat saya sedikit berlinang air mata. Tiba-tiba saya memiliki akses yang hampir seketika ke apa yang telah lama menjadi media yang tampaknya tidak dapat diakses.

Saya menghubungi Dugdale untuk menanyakan apakah dia bersedia berbicara dengan saya untuk artikel ini tentang AI dan deskripsi gambar. Selama beberapa menit pertama panggilan telepon kami, ada sedikit kebingungan saat dia menjelaskan bahwa meskipun dia terkesan dengan tingkat detail yang dapat diberikan AI, dia enggan menggunakannya. “Saya tidak benar-benar ingin menyingkirkan serangkaian asisten hebat yang datang ke sini dan membantu saya tetap merasa seperti manusia setelah dua kali terkena stroke, kebutaan di kedua mata, dan ketulian di satu telinga serta lumpuh selama setahun.” Dia mengatakan kepada saya bahwa dia suka bertukar ide dengan orang lain. Dia suka berbicara. “Saya tidak bisa berbicara dengan benda itu.”

Saya menjelaskan bahwa, meskipun saya mengagumi AI saya karena memungkinkan saya mengakses foto-fotonya, saya lebih tertarik pada hubungan antara kata-kata dan gambar secara umum. Misalnya, saya pernah membaca bahwa ia sering memulai dengan sebuah judul.Saya punya Dictaphone yang berisi sekitar 160 judul lagu dari 10 tahun terakhir,” kata Dugdale. “Semuanya terus bertambah.“Dia mengatakan kepada saya bahwa dia menganggapnya sebagai semacam sinestesia: “Ketika saya mendengar sebuah frasa, saya melihat gambaran lengkapnya dalam pikiran saya, muncul seperti slide … dan kemudian saya pergi dan menafsirkannya di studio.”

Pikiran Kita Tinggal Bersama, Jhon Dugdale.

Atas kebaikan John Dugdale

Saya mengalami hal serupa saat menemukan deskripsi gambar yang bagus; pada titik tertentu, gambar itu berhenti menjadi kumpulan kata-kata dan menjadi gambaran dalam benak saya. Ini seharusnya tidak mengejutkan, karena banyak orang membentuk gambaran saat membaca novel. Salah satu alasan saya tertarik pada karya Dugdale adalah karena karya itu merupakan lambang seni melihat dalam benak.

Pikiran Kita Tinggal Bersama adalah gambar kedua di Jam Malam Kehidupan. Gambar tersebut menggambarkan punggung telanjang Dugdale dan temannya Octavio yang duduk berdekatan, kepala sedikit menunduk ke arah satu sama lain. GPT-4 menambahkan, dengan nada membantu, “seolah-olah sedang berbagi percakapan pribadi yang bermakna.” Dalam teks yang menyertainya, Dugdale menjelaskan bahwa Octavio menjadi buta total sebelum dirinya sendiri (juga karena komplikasi terkait AIDS), dan mendorongnya untuk memahami kebenaran yang kuat: “Penglihatan Anda tidak ada di mata Anda. Penglihatan ada di pikiran dan hati Anda.”

Deskripsi gambar merupakan semacam terjemahan sensorik yang menegaskan kebenaran tersebut. Meskipun melihat melalui bahasa mungkin memerlukan waktu lebih lama untuk masuk ke pikiran dan hati daripada melihat dengan mata, begitu masuk ke pikiran dan hati, gambar tidak akan hilang begitu saja, tidak akan hilang kemampuannya untuk membangkitkan semua resonansi estetika dan emosional. Teknologi AI seperti Be My AI telah membuka ruang baru yang mengejutkan untuk mengeksplorasi hubungan antara persepsi manusia, kreasi artistik, dan teknologi, yang memungkinkan cara baru dan mendalam untuk mengalami dan menafsirkan dunia.

Sumber