FLUX: Generator gambar AI baru ini sangat bagus dalam menciptakan tangan manusia
Gambar yang dihasilkan AI oleh pengembang FLUX.1:
Memperbesar / Gambar buatan AI oleh pengembang FLUX.1: “Ratu alam semesta yang cantik tengah mengangkat tangannya, wajahnya ada di latar belakang.”

FLUKS.1

Pada hari Kamis, perusahaan rintisan AI Black Forest Labs diumumkan peluncuran perusahaannya dan rilis rangkaian pertama model AI teks-ke-gambar, yang disebut FLUX.1. Perusahaan yang berbasis di Jerman, didirikan oleh para peneliti yang mengembangkan teknologi di balik Difusi Stabil dan menemukan teknik difusi latenbertujuan untuk menciptakan AI generatif canggih untuk gambar dan video.

Peluncuran FLUX.1 terjadi sekitar tujuh minggu setelah rilis Stability AI yang bermasalah Difusi Stabil 3 Sedang pada pertengahan Juni. Penawaran Stability AI menghadapi kritik luas di antara penggemar sintesis gambar karena kinerjanya yang buruk dalam menghasilkan anatomi manusia, dengan pengguna berbagi contoh anggota tubuh dan tubuh yang terdistorsi di media sosial. Peluncuran yang bermasalah itu mengikuti kepergian tiga teknisi utama dari Stability AI sebelumnya—Robin Rombach, Andreas Blattmann, dan Dominik Lorenz—yang kemudian mendirikan Black Forest Labs bersama dengan rekan pengembang latent diffusion Patrick Esser dan yang lain.

Black Forest Labs diluncurkan dengan merilis tiga model teks-ke-gambar FLUX.1: versi “pro” komersial kelas atas, versi “dev” kelas menengah dengan bobot terbuka untuk penggunaan nonkomersial, dan versi “schnell” dengan bobot terbuka yang lebih cepat (“schnell” berarti cepat atau tangkas dalam bahasa Jerman). Black Forest Labs mengklaim modelnya mengungguli opsi yang ada seperti Midjourney dan DALL-E dalam hal kualitas gambar dan kepatuhan terhadap perintah teks.

Dalam pengalaman kami, output dari dua model FLUX.1 kelas atas umumnya sebanding dengan OpenAI DALL-E 3 dalam kesetiaan yang cepat, dengan fotorealisme yang tampaknya dekat dengan Perjalanan Tengah 6Mereka mewakili peningkatan yang signifikan dibandingkan Difusi Stabil XLrilis utama terakhir tim di bawah Stabilitas (jika Anda tidak menghitung SDXL Turbo).

Model FLUX.1 menggunakan apa yang disebut perusahaan sebagai “arsitektur hibrida” yang menggabungkan teknik transformator dan difusi, yang ditingkatkan hingga 12 miliar parameter. Black Forest Labs mengatakan bahwa model ini meningkatkan model difusi sebelumnya dengan menggabungkan pencocokan aliran dan pengoptimalan lainnya.

FLUX.1 tampaknya kompeten dalam menghasilkan tangan manusia, yang merupakan titik lemah dalam model sintesis gambar sebelumnya seperti Stable Diffusion 1.5 karena kurangnya gambar pelatihan yang berfokus pada tangan. Sejak awal, generator gambar AI lainnya seperti Midjourney juga telah menguasai tangan, tetapi perlu dicatat bahwa ada model bobot terbuka yang membuat tangan relatif akurat dalam berbagai pose.

Kami mengunduh file bobot ke model dev FLUX.1 dari GitHubtetapi pada 23GB, itu tidak akan muat di VRAM 12GB kartu RTX 3060 kami, jadi itu perlu kuantisasi untuk dijalankan secara lokal (mengurangi ukurannya), yang kabarnya (melalui obrolan di Reddit) beberapa orang telah berhasil melakukannya.

Sebagai gantinya, kami bereksperimen dengan model FLUX.1 pada platform hosting cloud AI Salah Dan Mengulangiyang memerlukan biaya untuk digunakan, meskipun Fal menawarkan beberapa kredit gratis untuk memulai.

Hutan Hitam menatap ke depan

Black Forest Labs mungkin merupakan perusahaan baru, tetapi perusahaan ini telah menarik pendanaan dari para investor. Perusahaan ini baru saja menutup putaran pendanaan awal senilai $31 juta yang dipimpin oleh Andreessen Horowitz, dengan investasi tambahan dari General Catalyst dan MätchVC. Perusahaan ini juga mendatangkan penasihat-penasihat ternama, termasuk eksekutif hiburan dan mantan Presiden Disney. Michael Ovitz dan peneliti AI Matius Bethge.

“Kami yakin bahwa AI generatif akan menjadi fondasi dasar semua teknologi masa depan,” demikian pernyataan perusahaan dalam pengumumannya. “Dengan menyediakan model kami untuk khalayak luas, kami ingin memberikan manfaatnya kepada semua orang, mengedukasi masyarakat, dan meningkatkan kepercayaan terhadap keamanan model ini.”

Berbicara tentang “kepercayaan dan keamanan,” perusahaan tersebut tidak menyebutkan dari mana mereka memperoleh data pelatihan yang mengajarkan model FLUX.1 cara menghasilkan gambar. Dilihat dari hasil yang dapat kami hasilkan dengan model yang menyertakan penggambaran karakter berhak cipta, Black Forest Labs kemungkinan besar menggunakan pengikisan gambar yang tidak sah dari Internet, yang mungkin dikumpulkan oleh LAINYAsebuah organisasi yang mengumpulkan dataset yang melatih Difusi Stabil. Ini masih spekulasi saat ini. Meskipun pencapaian teknologi dasar FLUX.1 patut dicatat, tampaknya tim tersebut bermain cepat dan longgar dengan etika pengikisan gambar “penggunaan wajar” seperti yang dilakukan AI Stabilitas. Praktik itu pada akhirnya dapat menarik tuntutan hukum seperti yang diajukan terhadap Stability AI.

Meskipun fokus Black Forest saat ini adalah pembuatan teks ke gambar, perusahaan berencana untuk memperluas ke pembuatan video berikutnya, dengan mengatakan bahwa FLUX.1 akan berfungsi sebagai fondasi model teks ke video baru dalam pengembangan, yang akan bersaing dengan OpenAI Soralandasan pacu Gen-3 Alfadan Kuaishou Kling dalam kontes untuk mengubah realitas media sesuai permintaan. “Model video kami akan membuka kreasi dan penyuntingan yang presisi pada definisi tinggi dan kecepatan yang belum pernah ada sebelumnya,” klaim pengumuman Black Forest.

Sumber