Apple telah mengungkapkan bahwa mereka tidak menggunakan akselerator perangkat keras Nvidia untuk mengembangkan produk mereka yang baru-baru ini diungkapkan Kecerdasan Apple Fitur. Menurut keterangan resmi Apple makalah penelitian (PDF), namun sebaliknya mengandalkan Google TPU untuk mengolah data pelatihan di balik Model Bahasa Apple Intelligence Foundation.
Pengepakan sistem Google TPU v4 dan chip TPUv5 berperan penting dalam pembuatan Apple Foundation Models (AFM). Model-model ini, model AFM-server dan AFM-on-device, dirancang untuk mendukung fitur-fitur Apple Intelligence online dan offline yang diperkenalkan kembali di WWDC 2024 pada bulan Juni.
Server AFM merupakan LLM terbesar Apple, dan karenanya tetap online saja. Menurut makalah penelitian yang baru-baru ini dirilis, server AFM Apple dilatih pada 8.192 chip TPUv4 yang “disediakan sebagai 8 × 1.024 irisan chip, yang mana irisan-irisan tersebut dihubungkan bersama oleh jaringan pusat data (DCN).” Pra-pelatihan merupakan proses tiga tahap, dimulai dengan token 6,3T, dilanjutkan dengan token 1T, dan kemudian pemanjangan konteks menggunakan token 100B.
Apple mengatakan data yang digunakan untuk melatih AFM-nya mencakup info yang dikumpulkan dari perayap web Applebot (mengacu pada robots.txt) ditambah berbagai set data berlisensi “berkualitas tinggi”. Apple juga memanfaatkan kode, matematika, dan set data publik yang dipilih dengan cermat.
Tentu saja, model ARM pada perangkat dipangkas secara signifikan, tetapi Apple menganggap teknik penyulingan pengetahuannya telah mengoptimalkan kinerja dan efisiensi model yang lebih kecil ini. Makalah ini mengungkap bahwa AFM pada perangkat adalah model parameter 3B, yang disuling dari model server 6.4B, yang dilatih pada token 6.3T penuh.
Tidak seperti pelatihan server AFM, kluster Google TPUv5 dimanfaatkan untuk menyiapkan model ARM pada perangkat. Makalah tersebut mengungkapkan bahwa “AFM pada perangkat dilatih pada satu irisan 2.048 chip TPUv5p.”
Menarik untuk melihat Apple telah merilis makalah terperinci seperti itu, yang mengungkap teknik dan teknologi di balik Apple Intelligence. Perusahaan ini tidak terkenal karena transparansinya tetapi tampaknya berusaha keras untuk membuat kesan di bidang AI, mungkin karena terlambat dalam bidang ini.
Menurut pengujian internal Apple, server AFM dan AFM pada perangkat unggul dalam tolak ukur seperti Mengikuti Instruksi, Menggunakan Alat, Menulis, dan banyak lagi. Kami telah menyematkan bagan Tolok Ukur Penulisan, di atas, sebagai salah satu contoh.
Jika Anda tertarik dengan beberapa detail lebih mendalam mengenai pelatihan dan pengoptimalan yang digunakan oleh Apple, serta perbandingan tolok ukur lebih lanjut, lihat PDF yang ditautkan dalam intro.