Model Phi-3.5 Baru Microsoft, Mengalahkan Gemini 1.5 Flash, Llama 3.1, GPT-4o

Microsoft telah merilis model Phi-3.5 baru:

  • Phi-3.5-MoE-instruksikan,
  • Phi-3.5-mini-instruksi, dan
  • Phi-3.5-visi-instruksi.

Phi-3.5-mini-instruct, dengan 3,82 miliar parameter, dibuat untuk tugas-tugas penalaran dasar dan cepat.

Instruksi Phi-3.5-MoE, dengan 41,9 miliar parameter, menangani penalaran yang lebih maju.

Phi-3.5-vision-instruct, dengan 4,15 miliar parameter, dirancang untuk tugas penglihatan seperti analisis gambar dan video

Phi-3.5 MOE-instruksi

Instruksi Phi-3.5-MoE adalah model sumber terbuka dengan 42 miliar parameter.

Fitur ini memiliki 16 pakar, dengan dua pakar diaktifkan selama pembuatan, dan memiliki 6,6 miliar parameter yang terlibat dalam setiap inferensi.

Ini menunjukkan peningkatan signifikan dalam kemampuan penalaran, mengungguli model yang lebih besar seperti Llama 3.1 8B dan Gemma 2 9B di berbagai tolok ukur.

Model ini mendukung aplikasi multibahasa dan memperluas panjang konteksnya hingga 128.000 token.

Namun bahasa spesifik yang dicakup tidak jelas.

Phi-3.5-MoE tertinggal sedikit di belakang GPT-4o-mini tetapi melampaui Gemini 1.5 Flash dalam benchmark.

Model ini ditujukan untuk digunakan dalam lingkungan dengan keterbatasan memori dan komputasi serta skenario sensitif terhadap latensi.

Kasus penggunaan utama untuk Phi-3.5-MoE meliputi;

  • sistem AI tujuan umum,
  • aplikasi yang membutuhkan penalaran yang kuat dalam kode,
  • matematika,
  • logika, dan
  • sebagai komponen dasar untuk fitur-fitur bertenaga AI generatif

Phi-3.5-mini-instruksi

Dengan 3,8 miliar parameter, model ini ringan namun bertenaga. Ia mengungguli model yang lebih besar seperti Llama3.1 8B dan Mistral 7B.

Mendukung panjang konteks token 128K, jauh lebih banyak dari pesaing utamanya yang umumnya hanya mendukung hingga 8K.

Sebagai pilihan dalam tugas konteks panjang seperti peringkasan dokumen dan pengambilan informasi, ia mengungguli beberapa model yang lebih besar seperti Llama-3.1-8B-instruct dan Mistral-Nemo-12B-instruct-2407 pada berbagai tolok ukur.

Model ini ditujukan untuk;

  • penggunaan komersial dan penelitian,

terutama dalam lingkungan dengan keterbatasan memori dan komputasi,

  • skenario terikat latensi, dan
  • aplikasi yang memerlukan penalaran yang kuat dalam kode, matematika, dan logika.

Phi-3.5-visi-instruksi

Phi-3.5 Vision adalah model parameter 4,2 miliar dan unggul dalam pemahaman dan penalaran gambar multi-bingkai.

Telah menunjukkan peningkatan kinerja dalam benchmark seperti MMMU, MMBench, dan TextVQA, yang menunjukkan kemampuannya dalam tugas visual.

Bahkan mengungguli OpenAI GPT-4o pada beberapa benchmark.

Model ini mengintegrasikan encoder gambar, konektor, proyektor, dan model bahasa Phi-3 Mini.

Dengan panjang konteks 128K token, ia mendukung input teks dan gambar dan dioptimalkan untuk permintaan menggunakan format obrolan

Model ini dilatih selama 6 hari menggunakan 256 GPU A100-80G, memproses 500 miliar token yang mencakup data penglihatan dan teks.

Model Phi-3.5 sekarang tersedia di platform AI Wajah Pelukan di bawah lisensi MIT.

Mereka dapat diakses untuk berbagai macam aplikasi.

Peluncuran model Phi-3.5 sejalan dengan komitmen Microsoft untuk menyediakan alat AI sumber terbuka yang efisien dan serbaguna.



Sumber