9 Açık Kaynak AI Modeli, 46 Senaryo: 2026 İş Grafik Üretimi Karşılaştırması
Hangi açık kaynak AI modeli en doğru iş grafiklerini üretiyor? 9 modeli Ollama sunucusunda 46 gerçek analitik senaryoyla test ettik — doğruluk, metrik uyumu, grafik kalitesi ve hızı ölçtük. Seçilmiş veri yok. Bulut yok. Sadece ham sonuçlar.
v1'den Ne Değişti?
v1 karşılaştırmamızda 12 modeli 32 senaryoyla test etmiştik. Bu sefer:
- 9 açık kaynak model — Ollama üzerindeki en uygun seçeneklere odaklandık
- 46 test senaryosu (32'den yukarı) — karar analizi, karşılaştırma dönemleri, türetilmiş boyutlar ve çok adımlı takip sorguları dahil
- Yeni metrik: Uyum (Compliance) — modeller biçimlendirme kurallarını, eşikleri ve metrik spesifikasyonlarını ne kadar iyi takip ediyor?
- Yeni metrik: Grafik kalitesi — "grafik üretti mi?" değil, "iyi bir grafik mi?" 1-5 ölçeğinde puanlama
- Takip sorguları — "şimdi bunu pasta grafiğe çevir" gibi çok adımlı konuşmaları yönetebiliyor mu?
Test Metodolojisi
9 Model
Tüm modeller Ollama sunucusunda test edildi, iş analitiği için en popüler açık kaynak seçenekler:
| # | Model | Parametre | Neden Seçildi |
|---|---|---|---|
| 1 | GLM-5.1 | — | Zhipu'nun son modeli, güçlü muhakeme |
| 2 | Gemma4 31B | 31B | Google'ın en büyük Gemma'sı |
| 3 | DeepSeek-V4-Pro | — | DeepSeek'in amiral gemisi muhakeme modeli |
| 4 | Kimi-K2.6 | — | Moonshot AI'nin son modeli, güçlü çok dilli |
| 5 | Qwen-3.5 | — | Alibaba'nın son modeli, dengeli performans |
| 6 | GPT-OSS 120B | 120B | Büyük açık kaynak model |
| 7 | MiniMax-M3 | — | MiniMax'in çok modlu modeli |
| 8 | Gemini-3-Flash | — | Google'ın hızlı modeli |
| 9 | Mistral-Large-3 | — | Mistral'in amiral gemisi, en hızlı yanıt |
46 Senaryo — 17 Kategori
| Kategori | Sayı | Ne Test Ediyor |
|---|---|---|
| Temel Grafikler (bar, line, pie, area) | 8 | Temel grafik üretimi |
| Karar Analizi | 6 | Isı haritası, scatter, huni, radar — karmaşık analitik sorgular |
| Takip Sorguları | 6 | Çok adımlı: stili değiştir, grafik türünü değiştir, filtreleri koru |
| Karşılaştırma Dönemi | 1 | Yıldan yıla karşılaştırmalar |
| Türetilmiş Boyut | 1 | Tarihlerden yaş grupları |
| Çoklu Metrik | 1 | Birden fazla metri tek grafikte |
| Performans Matrisi | 1 | Dörtgen/scatter ile boyutlar |
| İleri Düzey Grafikler (sankey, treemap, sunburst, vb.) | 22 | Özelleşmiş grafik türleri |
Değerlendirme Kriterleri (4 Boyut)
- Doğruluk (%40) — Doğru grafik türü + doğru veri sütunu eşleştirmesi
- Metrik Uyumu (%25) — Model eşikleri, renk kurallarını ve biçimlendirme yönergelerini takip etti mi?
- Grafik Kalitesi (%20) — Sonuç grafik net, iyi yapılandırılmış ve sunuma hazır mı? (1-5 ölçek)
- Hız (%15) — Ollama sunucusundaki yanıt süresi
Sonuçlar: Genel Doğruluk
Öne çıkan bulgu: sadece 2 model tüm 46 senaryoda %100 doğruluk elde etti.
| # | Model | Doğru | Kısmi | Yanlış | Doğruluk |
|---|---|---|---|---|---|
| 🥇 | GLM-5.1 | 46/46 | 0 | 0 | %100 |
| 🥇 | Gemma4 31B | 46/46 | 0 | 0 | %100 |
| 3 | DeepSeek-V4-Pro | 45/46 | 0 | 1 | %97.8 |
| 4 | Kimi-K2.6 | 44/46 | 1 | 1 | %95.7 |
| 5 | Qwen-3.5 | 43/46 | 2 | 1 | %93.5 |
| 6 | GPT-OSS 120B | 40/46 | 3 | 3 | %87.0 |
| 7 | MiniMax-M3 | 38/46 | 3 | 5 | %82.6 |
| 8 | Gemini-3-Flash | 34/46 | 2 | 10 | %73.9 |
| 9 | Mistral-Large-3 | 33/46 | 2 | 11 | %71.7 |
Sonuçlar: Metrik Uyumu
Uyum, modelin belirli metrik kurallarını — eşikler, filtreler, renk yönergeleri ve biçimlendirme spesifikasyonlarını — ne kadar iyi takip ettiğini ölçer.
9 modelin 8'i %100 uyum elde etti. Sadece MiniMax-M3 %99.5'e düştü.
Bu önemli bir bulgu: artık çoğu açık kaynak model yapılandırılmış çıktı biçimlendirmesini güvenilir şekilde hallediyor. Meydan okuma artık "kuralları takip edebilir mi?" değil, "doğru grafik türünü üretebilir mi?"
Sonuçlar: Grafik Kalitesi
Tüm 9 model, doğru çıktı ürettiğinde 5.0/5 grafik kalitesi puanı aldı. Modeller arasındaki kalite farkı v1'e kıyasla dramatik şekilde azaldı.
Temel bulgu: Bir model grafik türünü ve veri eşleştirmesini doğru yaptığında, çıktı kalitesi tutarlı şekilde mükemmel. Farklılaşma tamamen doğrulukta, kalitede değil.
Sonuçlar: Hız
| # | Model | Ort. Yanıt | Doğruluk | Hız-Doğruluk Oranı |
|---|---|---|---|---|
| 1 | Mistral-Large-3 | 1.1s | %71.7 | Hızlı ama hatalı |
| 2 | GLM-5.1 | 5.6s | %100 | En iyi denge |
| 3 | Kimi-K2.6 | 6.0s | %95.7 | Güçlü aday |
| 4 | Gemini-3-Flash | 6.6s | %73.9 | Hızlı ama hatalı |
| 5 | Qwen-3.5 | 10.0s | %93.5 | İyi doğruluk |
| 6 | Gemma4 31B | 10.2s | %100 | Doğru ama yavaş |
| 7 | DeepSeek-V4-Pro | 11.5s | %97.8 | Çok doğru |
| 8 | GPT-OSS 120B | 11.7s | %87.0 | Ağır ve orta |
| 9 | MiniMax-M3 | 15.6s | %82.6 | Yavaş ve hatalı |
Kategori Derinlemesine: Karar Analizi
Karar analizi en zor kategoriydi — ısı haritaları, scatter plot'lar, huni grafikler ve radar grafikler içeriyor. Model başına 6 senaryo test ettik.
| Model | Doğru | Doğruluk | Ana Sorun |
|---|---|---|---|
| GLM-5.1 | 6/6 | %100 | Yok |
| Gemma4 31B | 6/6 | %100 | Yok |
| DeepSeek-V4-Pro | 6/6 | %100 | Yok |
| Kimi-K2.6 | 6/6 | %100 | Yok |
| Qwen-3.5 | 5/6 | %83.3 | Huni grafiği waterfall olarak yanlış tanıdı |
| GPT-OSS 120B | 4/6 | %66.7 | Metrik spesifikasyon eksik |
| MiniMax-M3 | 4/6 | %66.7 | Metrik spesifikasyon eksik |
| Gemini-3-Flash | 1/6 | %16.7 | 6 senaryonun 5'inde metrik spesifikasyon üretemedi |
| Mistral-Large-3 | 0/6 | %0 | Tamamen metrik spesifikasyon hatası |
Mistral-Large-3 karar kategorisinde tamamen başarısız oldu — 6 karar prompt'unun hiçbirinde gerekli metrik spesifikasyon başlıklarını üretemedi. En hızlı model (1.1s) olmasına rağmen, bu kategoride sıfır kullanılabilir grafik üretti.
Gemini-3-Flash benzer bir model sergiledi: 6 senaryonun 5'inde missing_metric_spec_header hatası ile başarısız oldu.
Kategori Derinlemesine: Takip Sorguları
Modeller konuşmayı yönetebiliyor mu? Çok adımlı etkileşimleri test ettik:
- "Bölgesel geliri çubuk grafikte göster" → çubuk grafik üretildi
- "Şimdi stili değiştir" → stil değiştirildi
- "Şimdi bunu pasta grafiğe çevir, filtreyi koru" → grafik türü değiştirildi
- "Şimdi bu çizgi grafiği alan grafiğine çevir" → grafik türü değiştirildi
İlk yanıt doğruluğu: Tüm 9 model doğru ilk yanıt üretti.
Takip yanıtı doğruluğu:
| Model | Takip Doğru | Ana Sorun |
|---|---|---|
| GLM-5.1 | 3/3 | Mükemmel |
| Gemma4 31B | 3/3 | Mükemmel |
| Kimi-K2.6 | 3/3 | Mükemmel |
| Qwen-3.5 | 3/3 | Mükemmel |
| MiniMax-M3 | 3/3 | Mükemmel |
| GPT-OSS 120B | 3/3 | Mükemmel |
| DeepSeek-V4-Pro | 2/3 | Çizgi→alan dönüşümü başarısız |
| Gemini-3-Flash | 2/3 | Çubuk→pasta dönüşümü başarısız |
| Mistral-Large-3 | 1/3 | 2/3 takip sorgusunda başarısız |
Temel Bulgular
1. GLM-5.1 Sürpriz Lider
GLM-5.1 (Zhipu AI) %100 doğruluk, %100 uyum, %100 grafik kalitesi ve 5.6 saniye ortalama yanıt süresi elde etti. Karar analizi ve takip sorguları dahil her kategoriyi mükemmel halletti.
Analitik görevler için çoğu "en iyi" listesinde yer almayan bir model için bu çarpıcı.
2. Uyum Artık Fark Yaratmıyor
v1'de uyum önemli bir farklılaştırmaydı. v2'de 9 modelin 8'i %100 uyum elde etti. Meydan okuma "kuralları takip edebilir mi?"den "hangi grafiği üreteceğini anlayabilir mi?"ye kaydı — özellikle karmaşık analitik sorgular için.
3. Karar Analizi Kritik Bir Boşluğu Ortaya Çıkarıyor
Karar kategorisi (ısı haritaları, huniler, radar, analitik amaçlı scatter) en büyük model farklılaşmasını ortaya koydu:
- 4 model %100 puan aldı
- 2 model %66.7 puan aldı
- 1 model %16.7 puan aldı
- 1 model %0 puan aldı
Bu 100 puanlık yayılma, analitik kullanım senaryolarında model seçiminin çok önemli olduğu anlamına geliyor.
4. Hız vs. Doğruluk Ödengesi
Mistral-Large-3, GLM-5.1'den 5× daha hızlı ama 28 puan daha az doğru. Kullanıcıların anında geri bildirim beklediği etkileşimli panolarda bu ödengi önemli. Ama hızlı ama yanlış bir grafik, yavaş ama doğru bir grafikten daha kötü.
5. En Üst ve En Alt Arasındaki Boşluk Büyüyor
v1'de en iyi ve en kötü arasındaki doğruluk farkı ~25 puandı (%87.5 vs ~%62). v2'de 28.3 puan (%100 vs %71.7). Üst modeller önemli ölçüde gelişirken, alt modeller karmaşık görevlerde yerinde saydı.
Kullanım Senaryosuna Göre Önerilen Modeller
| Kullanım Senaryosu | Önerilen Model | Neden |
|---|---|---|
| 🏆 Genel analitik | GLM-5.1 | %100 doğruluk, 5.6s hız, en iyi tümünü yapıcı |
| Maksimum doğruluk (hız önemli değil) | Gemma4 31B | %100 doğruluk, 10.2s hız |
| Hızlı etkileşimli kullanım | Kimi-K2.6 | %95.7 doğruluk, 6.0s — GLM'den sonra en iyi hız-doğruluk oranı |
| Karar analizi & karmaşık sorgular | GLM-5.1 veya Gemma4 31B | Sadece 4 model karar kategorisinde %100 |
| Bütçe dostu dağıtım | Qwen-3.5 | %93.5 doğruluk, yaygın olarak erişilebilir |
| ❌ Analitik için kaçınılmalı | Mistral-Large-3 | Karar kategorisinde %0, genel %71.7 |
İş Analitiği İçin Bu Ne Anlama Geliyor?
2026 karşılaştırması v1'den üç değişimi ortaya koyuyor:
- Uyum çözüldü. Neredeyse tüm modeller biçimlendirme kurallarını takip ediyor. Mücadele karmaşık analitik niyeti anlamaya kaydı.
- Karar analizi yeni farklılaştırıcı. Isı haritası, huni veya radar grafiğe ihtiyacınız varsa, model seçimi kritik. 4 model bunu mükemmel hallediyor; 2 tamamen başarısız oluyor.
- GLM-5.1 yeni karşılaştırma lideri. Daha önce Llama 3.1 8B liderdi. Manzara değişti.
Kendiniz Deneyin
LivChart ile yerel AI panolarını erişilebilir kıldık. Farklı modelleri deneyip verileriniz için hangisinin en iyi çalıştığını görebilirsiniz.
- Ücretsiz playground'ı deneyin — kayıt yok, kurulum yok
- Ollama + LivChart'ı 5 dakikada kurun
- Ollama üzerinde LivChart optimize modeli deneyin
Analitik için hangi modeli kullanıyorsunuz? Deneyiminizi paylaşın — X'te veya r/LocalLLaMA'da tartışın.
Bu, LivChart AI Benchmark v2'dir. Yeni modeller çıktıkça güncelleyeceğiz. v1 sonuçlarını burada görün.