Champion Open-Source Baru Reflection 70B Mengungguli GPT-4o dan Claude Sonnet 3.5

Matt Shumer, salah satu pendiri dan CEO perusahaan rintisan penulisan AI Tulisan Hiper baru saja meluncurkan model baru yang disebut Refleksi 70B.

Model ini telah muncul sebagai model bahasa sumber terbuka terkemuka, mengungguli model sumber tertutup teratas seperti GPT-4o milik OpenAI dan Claude Sonnet 3.5 milik Anthropic. Model ini, yang dikembangkan menggunakan teknik baru yang disebut Reflection-Tuning, menunjukkan peningkatan signifikan dalam uji benchmark, termasuk MMLU, MATH, IFEval, dan GSM8K.

Teknik Reflection-Tuning memungkinkan Reflection 70B mendeteksi dan mengoreksi kesalahannya sendiri sebelum menyelesaikan jawaban. Kemajuan ini bertujuan untuk mengatasi masalah umum berupa halusinasi model dan meningkatkan akurasi penalaran.

Model mengeluarkan penalaran internalnya dalam tag dan jawaban akhir di tag, dengan tambahan tag yang digunakan untuk mengoreksi kesalahan yang terdeteksi.

Saat ini, Reflection 70B menduduki posisi teratas dalam beberapa tolok ukur dan menunjukkan kinerja yang lebih unggul dibandingkan GPT-4o dan Llama 3.1 405B. Model Reflection 405B mendatang, yang diharapkan akan diluncurkan minggu depan, diharapkan dapat semakin meningkatkan standar LLM secara global.

Ini adalah model kedua minggu ini yang mengungguli GPT-4o dan Claude Sonnet 3.5

Alibaba baru saja merilis Qwen2-VLmodel terbaru dalam seri bahasa visualnya. Model baru ini dapat mengobrol melalui kamera, bermain permainan kartu, dan mengendalikan ponsel dan robot dengan bertindak sebagai agen. Model ini tersedia dalam tiga versi: model open source 2 miliar dan 7 miliar, dan model 72 miliar yang lebih canggih, yang dapat diakses menggunakan API.

Model Qwen2-VL 72 miliar yang canggih mencapai pemahaman visual SOTA di 20 tolok ukur. “Secara keseluruhan, model 72B kami menunjukkan kinerja tingkat atas di sebagian besar metrik, bahkan sering kali melampaui model sumber tertutup seperti GPT-4o dan Claude 3.5-Sonnet,” kata perusahaan itu dalam sebuah posting blog, yang mengatakan bahwa model itu menunjukkan keunggulan signifikan dalam pemahaman dokumen.



Sumber