Penghobi menemukan cara memasukkan font khusus ke dalam gambar yang dihasilkan AI
Contoh Cyberpunk 2077 LoRA yang sedang beraksi, dirender dengan Flux dev.
Memperbesar / Contoh yang dihasilkan oleh AI dari Cyberpunk 2077 LoRA, dirender dengan Flux dev.

Minggu lalu, seorang penghobi bereksperimen dengan teknologi baru Aliran Model sintesis gambar AI telah menemukan bahwa secara tak terduga sangat bagus dalam merender reproduksi tipografi yang dilatih secara khusus. Meskipun metode yang jauh lebih efisien untuk menampilkan fon komputer telah ada selama beberapa dekade, teknik baru ini berguna bagi penggemar gambar AI karena Flux mampu merender penggambaran teks yang akurat, dan pengguna kini dapat langsung memasukkan kata-kata yang dirender dalam fon khusus ke dalam pembuatan gambar AI.

Kita telah memiliki teknologi untuk menghasilkan fon yang dirender komputer dengan akurat dalam bentuk khusus sejak tahun 1980-an (1970-an dalam bidang penelitian), jadi membuat fon yang direplikasi AI bukanlah berita besar. Namun, teknik baru memungkinkan Anda melihat fon tertentu muncul dalam gambar yang dihasilkan AI, misalnya, menu papan tulis di restoran yang tampak nyata atau kartu nama cetak yang dipegang oleh rubah cyborg.

Tak lama setelah munculnya model sintesis gambar AI arus utama seperti Difusi Stabil pada tahun 2022, beberapa orang mulai bertanya-tanya:Bagaimana saya bisa memasukkan produk, pakaian, karakter, atau gaya saya sendiri ke dalam gambar yang dihasilkan AI? Salah satu jawaban yang muncul adalah LoRA (low-rank adaption), sebuah teknik telah menemukan pada tahun 2021 yang memungkinkan pengguna untuk menambah pengetahuan dalam model dasar AI dengan add-on modular yang telah dilatih khusus.

LoRA ini, sebagaimana modul-modul tersebut disebut, memungkinkan model sintesis gambar untuk menciptakan konsep-konsep baru yang awalnya tidak ditemukan (atau kurang terwakili) dalam data pelatihan model dasar. Dalam praktiknya, penggemar sintesis gambar menggunakannya untuk membuat gaya-gaya unik (misalnya, segala sesuatu dalam seni kapur) atau subjek (gambar detail Manusia laba-labamisalnya). Setiap LoRA harus dilatih secara khusus menggunakan contoh yang diberikan oleh pengguna.

Hingga Flux, sebagian besar generator gambar AI tidak begitu bagus dalam merender teks yang akurat dalam sebuah adegan. Jika Anda meminta Stable Diffusion 1.5 untuk merender tanda yang bertuliskan “keju,” hasilnya akan tidak jelas. OpenAI DALL-E 3yang dirilis tahun lalu, adalah model utama pertama yang mampu mengolah teks dengan cukup baik. Flux terkadang masih membuat kesalahan dengan kata-kata dan huruf, tetapi ini adalah model AI yang paling mampu mengolah “teks di dunia nyata” (Anda mungkin menyebutnya demikian) yang pernah kami lihat sejauh ini.

Karena Flux adalah model terbuka yang tersedia untuk diunduh dan disempurnakan, bulan lalu merupakan pertama kalinya pelatihan jenis huruf LoRA mungkin masuk akal. Itulah yang dimaksud Penggemar AI bernama Vadim Fedenko (yang tidak menanggapi permintaan wawancara hingga berita ini ditulis) baru-baru ini menemukan. “Saya sangat terkesan dengan hasil ini,” tulis Fedenko dalam sebuah postingan reddit“Flux mengenali tampilan huruf dalam gaya/font tertentu, sehingga memungkinkan Loras dilatih dengan Font, Jenis Huruf, dsb. tertentu. Kami akan segera melatih lebih banyak lagi.”

Untuk percobaan pertamanya, Fedenko memilih gelembung Font gaya “Y2K” mengingatkan pada model yang populer pada akhir tahun 1990-an dan awal tahun 2000-an, menerbitkan model yang dihasilkan pada platform Civitai pada tanggal 20 Agustus. Dua hari kemudian, pengguna Civitai bernama “AggravatingScree7189” memposting jenis huruf LoRA kedua yang mereproduksi font yang mirip dengan yang ditemukan di Cyberpunk 2077 permainan video.

“Teksnya sangat buruk sehingga tidak pernah terpikir oleh saya bahwa Anda bisa melakukan ini,” menulis Seorang pengguna Reddit bernama eggs-benedryl saat bereaksi terhadap postingan Fedenko tentang font Y2K. Pengguna Reddit lainnya menulis“Saya tidak tahu jurnal Y2K itu palsu sampai saya memperbesarnya.”

Apakah itu berlebihan?

Contoh LoRA <em>Cyberpunk 2077</em>, yang dirender dengan Flux dev.” src=”https://cdn.arstechnica.net/wp-content/uploads/2024/08/without_with_2-640×357.jpg” width=”640″ height=”357″ srcset=”https://cdn.arstechnica.net/wp-content/uploads/2024/08/without_with_2.jpg 2x”/></a><figcaption class=
Memperbesar / Sebuah contoh dari Cyberpunk 2077 LoRA, dirender dengan Flux dev.

Memang benar bahwa menggunakan jaringan saraf sintesis gambar yang sangat terlatih untuk membuat font lama biasa pada latar belakang sederhana mungkin berlebihan. Anda mungkin tidak ingin menggunakan metode ini untuk mengganti Adobe Illustrator saat mendesain dokumen.

“Ini terlihat bagus, tetapi agak lucu bagaimana kami menemukan kembali ide font sebagai LoRA 300MB,” menulis satu komentator Reddit pada thread tentang Cyberpunk 2077 jenis huruf.

AI Generatif adalah sering dikritik untuk dampak lingkungannya, dan ini merupakan kekhawatiran yang valid untuk pusat data cloud yang besar. Namun kami menemukan bahwa Flux dapat memasukkan font ini ke dalam adegan yang dihasilkan AI saat berjalan secara lokal pada RTX 3060 dalam terkuantisasi (ukuran diperkecil) (dan model pengembangan penuh dapat berjalan pada RTX 3090). Konsumsi listriknya mirip dengan bermain gim video di PC yang sama. Hal yang sama berlaku untuk pembuatan LoRA: Pencipta Cyberpunk 2077 huruf terlatih LoRA dalam tiga jam pada GPU 3090.

Ada juga masalah etika dalam penggunaan generator gambar AI, seperti bagaimana mereka dilatih pada data yang dipanen tanpa persetujuan pemilik konten. Meskipun teknologinya memecah belah di antara beberapa seniman, komunitas besar orang menggunakannya setiap hari dan bagikan hasil secara online melalui platform media sosial seperti Reddit, yang mengarah pada aplikasi teknologi baru seperti ini.

Saat tulisan ini dibuat, hanya ada dua LoRA jenis huruf Flux yang dapat disesuaikan, tetapi kami telah mendengar rencana orang-orang untuk membuat lebih banyak lagi saat kami menulis ini. Meskipun masih dalam tahap awal, teknik pembuatan LoRA jenis huruf dapat menjadi dasar jika sintesis gambar AI digunakan secara lebih luas di masa mendatang. Adobe, dengan model sintesis gambar sendirikemungkinan sedang menonton.

Sumber