Model TTT mungkin menjadi batas berikutnya dalam AI generatif

Setelah bertahun-tahun mendominasi dengan bentuk AI yang dikenal sebagai transformerperburuan arsitektur baru pun dimulai.

Transformator menopang Model pembangkit video OpenAI Soradan mereka berada di inti model pembangkit teks seperti Claude dari AntropikBahasa Indonesia: Gemini milik Google Dan GPT-4oNamun, mereka mulai menghadapi kendala teknis — khususnya kendala terkait komputasi.

Transformer tidak terlalu efisien dalam memproses dan menganalisis data dalam jumlah besar, setidaknya berjalan pada perangkat keras yang tersedia. Dan itu mengarah ke curam dan mungkin tidak berkelanjutan peningkatan permintaan daya saat perusahaan membangun dan memperluas infrastruktur untuk mengakomodasi kebutuhan transformator.

Arsitektur yang menjanjikan yang diusulkan bulan ini adalah pelatihan waktu ujian (TTT)yang dikembangkan selama satu setengah tahun oleh para peneliti di Stanford, UC San Diego, UC Berkeley, dan Meta. Tim peneliti mengklaim bahwa model TTT tidak hanya dapat memproses lebih banyak data daripada transformer, tetapi juga dapat melakukannya tanpa menghabiskan daya komputasi sebanyak itu.

Keadaan tersembunyi dalam transformator

Komponen dasar transformer adalah “keadaan tersembunyi”, yang pada dasarnya adalah daftar data yang panjang. Saat transformer memproses sesuatu, ia menambahkan entri ke keadaan tersembunyi untuk “mengingat” apa yang baru saja diprosesnya. Misalnya, jika model sedang membaca buku, nilai keadaan tersembunyi akan berupa hal-hal seperti representasi kata-kata (atau bagian dari kata-kata).

“Jika Anda menganggap transformator sebagai entitas cerdas, maka tabel pencarian — status tersembunyinya — adalah otak transformator,” kata Yu Sun, seorang post-doc di Stanford dan salah satu kontributor penelitian TTT, kepada TechCrunch. “Otak khusus ini memungkinkan kemampuan transformator yang terkenal seperti pembelajaran dalam konteks.”

Keadaan tersembunyi merupakan bagian dari apa yang membuat transformer begitu kuat. Namun, hal itu juga menghambatnya. Untuk “mengatakan” satu kata pun tentang buku yang baru saja dibaca transformer, model tersebut harus memindai seluruh tabel pencariannya — tugas yang sama menuntutnya secara komputasi seperti membaca ulang seluruh buku.

Jadi Sun dan tim punya ide untuk mengganti keadaan tersembunyi dengan model pembelajaran mesin — seperti boneka AI, jika Anda mau, model di dalam model.

Agak teknis, tetapi intinya adalah bahwa model pembelajaran mesin internal model TTT, tidak seperti tabel pencarian transformer, tidak tumbuh dan tumbuh saat memproses data tambahan. Sebaliknya, model ini mengodekan data yang diprosesnya menjadi variabel representatif yang disebut bobot, yang membuat model TTT berperforma tinggi. Tidak peduli berapa banyak data yang diproses model TTT, ukuran model internalnya tidak akan berubah.

Sun yakin bahwa model TTT di masa mendatang dapat memproses miliaran data secara efisien, mulai dari kata-kata hingga gambar, rekaman audio hingga video. Itu jauh melampaui kemampuan model saat ini.

“Sistem kami dapat menyebutkan X kata tentang sebuah buku tanpa kompleksitas komputasional seperti membaca ulang buku tersebut X kali,” kata Sun. “Model video besar yang berbasis transformer, seperti Sora, hanya dapat memproses video selama 10 detik, karena model tersebut hanya memiliki 'otak' tabel pencarian. Tujuan akhir kami adalah mengembangkan sistem yang dapat memproses video panjang yang menyerupai pengalaman visual kehidupan manusia.”

Keraguan terhadap model TTT

Jadi, apakah model TTT pada akhirnya akan menggantikan transformator? Bisa saja. Namun, masih terlalu dini untuk mengatakannya dengan pasti.

Model TTT bukan pengganti langsung untuk transformator. Dan para peneliti hanya mengembangkan dua model kecil untuk penelitian, sehingga TTT sebagai metode sulit dibandingkan saat ini dengan beberapa implementasi transformator yang lebih besar di luar sana.

“Saya pikir ini adalah inovasi yang sangat menarik, dan jika data mendukung klaim bahwa inovasi ini memberikan peningkatan efisiensi, maka itu adalah berita bagus, tetapi saya tidak dapat memberi tahu Anda apakah inovasi ini lebih baik daripada arsitektur yang sudah ada atau tidak,” kata Mike Cook, seorang dosen senior di departemen informatika King's College London yang tidak terlibat dalam penelitian TTT. “Seorang profesor lama saya biasa menceritakan sebuah lelucon ketika saya masih mahasiswa: Bagaimana Anda memecahkan masalah apa pun dalam ilmu komputer? Tambahkan lapisan abstraksi lainnya. Menambahkan jaringan saraf di dalam jaringan saraf benar-benar mengingatkan saya akan hal itu.”

Bagaimanapun, makin cepatnya laju penelitian terhadap alternatif transformator menunjukkan makin besarnya pengakuan akan perlunya terobosan.

Minggu ini, startup AI Mistral merilis sebuah model, Codestral Mamba, yang didasarkan pada alternatif lain dari transformator yang disebut model ruang keadaan (SSM)SSM, seperti model TTT, tampaknya lebih efisien secara komputasi daripada transformer dan dapat ditingkatkan ke jumlah data yang lebih besar.

AI21 Labs juga sedang menjajaki SSM. Begitu juga Kartesiusyang memelopori beberapa SSM pertama dan nama Codestral Mamba, Mamba dan Mamba-2.

Jika upaya ini berhasil, AI generatif bisa jadi lebih mudah diakses dan tersebar luas dibandingkan saat ini — misalnya, lebih baik atau lebih buruk.

Sumber