9 Açık Kaynak AI Modeli, 46 Senaryo: 2026 İş Grafik Üretimi Karşılaştırması

Hangi açık kaynak AI modeli en doğru iş grafiklerini üretiyor? 9 modeli Ollama sunucusunda 46 gerçek analitik senaryoyla test ettik — doğruluk, metrik uyumu, grafik kalitesi ve hızı ölçtük. Seçilmiş veri yok. Bulut yok. Sadece ham sonuçlar.

v1'den Ne Değişti?

v1 karşılaştırmamızda 12 modeli 32 senaryoyla test etmiştik. Bu sefer:

  • 9 açık kaynak model — Ollama üzerindeki en uygun seçeneklere odaklandık
  • 46 test senaryosu (32'den yukarı) — karar analizi, karşılaştırma dönemleri, türetilmiş boyutlar ve çok adımlı takip sorguları dahil
  • Yeni metrik: Uyum (Compliance) — modeller biçimlendirme kurallarını, eşikleri ve metrik spesifikasyonlarını ne kadar iyi takip ediyor?
  • Yeni metrik: Grafik kalitesi — "grafik üretti mi?" değil, "iyi bir grafik mi?" 1-5 ölçeğinde puanlama
  • Takip sorguları — "şimdi bunu pasta grafiğe çevir" gibi çok adımlı konuşmaları yönetebiliyor mu?

Test Metodolojisi

9 Model

Tüm modeller Ollama sunucusunda test edildi, iş analitiği için en popüler açık kaynak seçenekler:

# Model Parametre Neden Seçildi
1 GLM-5.1 Zhipu'nun son modeli, güçlü muhakeme
2 Gemma4 31B 31B Google'ın en büyük Gemma'sı
3 DeepSeek-V4-Pro DeepSeek'in amiral gemisi muhakeme modeli
4 Kimi-K2.6 Moonshot AI'nin son modeli, güçlü çok dilli
5 Qwen-3.5 Alibaba'nın son modeli, dengeli performans
6 GPT-OSS 120B 120B Büyük açık kaynak model
7 MiniMax-M3 MiniMax'in çok modlu modeli
8 Gemini-3-Flash Google'ın hızlı modeli
9 Mistral-Large-3 Mistral'in amiral gemisi, en hızlı yanıt

46 Senaryo — 17 Kategori

Kategori Sayı Ne Test Ediyor
Temel Grafikler (bar, line, pie, area) 8 Temel grafik üretimi
Karar Analizi 6 Isı haritası, scatter, huni, radar — karmaşık analitik sorgular
Takip Sorguları 6 Çok adımlı: stili değiştir, grafik türünü değiştir, filtreleri koru
Karşılaştırma Dönemi 1 Yıldan yıla karşılaştırmalar
Türetilmiş Boyut 1 Tarihlerden yaş grupları
Çoklu Metrik 1 Birden fazla metri tek grafikte
Performans Matrisi 1 Dörtgen/scatter ile boyutlar
İleri Düzey Grafikler (sankey, treemap, sunburst, vb.) 22 Özelleşmiş grafik türleri

Değerlendirme Kriterleri (4 Boyut)

  1. Doğruluk (%40) — Doğru grafik türü + doğru veri sütunu eşleştirmesi
  2. Metrik Uyumu (%25) — Model eşikleri, renk kurallarını ve biçimlendirme yönergelerini takip etti mi?
  3. Grafik Kalitesi (%20) — Sonuç grafik net, iyi yapılandırılmış ve sunuma hazır mı? (1-5 ölçek)
  4. Hız (%15) — Ollama sunucusundaki yanıt süresi

Sonuçlar: Genel Doğruluk

Öne çıkan bulgu: sadece 2 model tüm 46 senaryoda %100 doğruluk elde etti.

# Model Doğru Kısmi Yanlış Doğruluk
🥇 GLM-5.1 46/46 0 0 %100
🥇 Gemma4 31B 46/46 0 0 %100
3 DeepSeek-V4-Pro 45/46 0 1 %97.8
4 Kimi-K2.6 44/46 1 1 %95.7
5 Qwen-3.5 43/46 2 1 %93.5
6 GPT-OSS 120B 40/46 3 3 %87.0
7 MiniMax-M3 38/46 3 5 %82.6
8 Gemini-3-Flash 34/46 2 10 %73.9
9 Mistral-Large-3 33/46 2 11 %71.7

Sonuçlar: Metrik Uyumu

Uyum, modelin belirli metrik kurallarını — eşikler, filtreler, renk yönergeleri ve biçimlendirme spesifikasyonlarını — ne kadar iyi takip ettiğini ölçer.

9 modelin 8'i %100 uyum elde etti. Sadece MiniMax-M3 %99.5'e düştü.

Bu önemli bir bulgu: artık çoğu açık kaynak model yapılandırılmış çıktı biçimlendirmesini güvenilir şekilde hallediyor. Meydan okuma artık "kuralları takip edebilir mi?" değil, "doğru grafik türünü üretebilir mi?"

Sonuçlar: Grafik Kalitesi

Tüm 9 model, doğru çıktı ürettiğinde 5.0/5 grafik kalitesi puanı aldı. Modeller arasındaki kalite farkı v1'e kıyasla dramatik şekilde azaldı.

Temel bulgu: Bir model grafik türünü ve veri eşleştirmesini doğru yaptığında, çıktı kalitesi tutarlı şekilde mükemmel. Farklılaşma tamamen doğrulukta, kalitede değil.

Sonuçlar: Hız

# Model Ort. Yanıt Doğruluk Hız-Doğruluk Oranı
1 Mistral-Large-3 1.1s %71.7 Hızlı ama hatalı
2 GLM-5.1 5.6s %100 En iyi denge
3 Kimi-K2.6 6.0s %95.7 Güçlü aday
4 Gemini-3-Flash 6.6s %73.9 Hızlı ama hatalı
5 Qwen-3.5 10.0s %93.5 İyi doğruluk
6 Gemma4 31B 10.2s %100 Doğru ama yavaş
7 DeepSeek-V4-Pro 11.5s %97.8 Çok doğru
8 GPT-OSS 120B 11.7s %87.0 Ağır ve orta
9 MiniMax-M3 15.6s %82.6 Yavaş ve hatalı

Kategori Derinlemesine: Karar Analizi

Karar analizi en zor kategoriydi — ısı haritaları, scatter plot'lar, huni grafikler ve radar grafikler içeriyor. Model başına 6 senaryo test ettik.

Model Doğru Doğruluk Ana Sorun
GLM-5.1 6/6 %100 Yok
Gemma4 31B 6/6 %100 Yok
DeepSeek-V4-Pro 6/6 %100 Yok
Kimi-K2.6 6/6 %100 Yok
Qwen-3.5 5/6 %83.3 Huni grafiği waterfall olarak yanlış tanıdı
GPT-OSS 120B 4/6 %66.7 Metrik spesifikasyon eksik
MiniMax-M3 4/6 %66.7 Metrik spesifikasyon eksik
Gemini-3-Flash 1/6 %16.7 6 senaryonun 5'inde metrik spesifikasyon üretemedi
Mistral-Large-3 0/6 %0 Tamamen metrik spesifikasyon hatası

Mistral-Large-3 karar kategorisinde tamamen başarısız oldu — 6 karar prompt'unun hiçbirinde gerekli metrik spesifikasyon başlıklarını üretemedi. En hızlı model (1.1s) olmasına rağmen, bu kategoride sıfır kullanılabilir grafik üretti.

Gemini-3-Flash benzer bir model sergiledi: 6 senaryonun 5'inde missing_metric_spec_header hatası ile başarısız oldu.

Kategori Derinlemesine: Takip Sorguları

Modeller konuşmayı yönetebiliyor mu? Çok adımlı etkileşimleri test ettik:

  1. "Bölgesel geliri çubuk grafikte göster" → çubuk grafik üretildi
  2. "Şimdi stili değiştir" → stil değiştirildi
  3. "Şimdi bunu pasta grafiğe çevir, filtreyi koru" → grafik türü değiştirildi
  4. "Şimdi bu çizgi grafiği alan grafiğine çevir" → grafik türü değiştirildi

İlk yanıt doğruluğu: Tüm 9 model doğru ilk yanıt üretti.

Takip yanıtı doğruluğu:

Model Takip Doğru Ana Sorun
GLM-5.1 3/3 Mükemmel
Gemma4 31B 3/3 Mükemmel
Kimi-K2.6 3/3 Mükemmel
Qwen-3.5 3/3 Mükemmel
MiniMax-M3 3/3 Mükemmel
GPT-OSS 120B 3/3 Mükemmel
DeepSeek-V4-Pro 2/3 Çizgi→alan dönüşümü başarısız
Gemini-3-Flash 2/3 Çubuk→pasta dönüşümü başarısız
Mistral-Large-3 1/3 2/3 takip sorgusunda başarısız

Temel Bulgular

1. GLM-5.1 Sürpriz Lider

GLM-5.1 (Zhipu AI) %100 doğruluk, %100 uyum, %100 grafik kalitesi ve 5.6 saniye ortalama yanıt süresi elde etti. Karar analizi ve takip sorguları dahil her kategoriyi mükemmel halletti.

Analitik görevler için çoğu "en iyi" listesinde yer almayan bir model için bu çarpıcı.

2. Uyum Artık Fark Yaratmıyor

v1'de uyum önemli bir farklılaştırmaydı. v2'de 9 modelin 8'i %100 uyum elde etti. Meydan okuma "kuralları takip edebilir mi?"den "hangi grafiği üreteceğini anlayabilir mi?"ye kaydı — özellikle karmaşık analitik sorgular için.

3. Karar Analizi Kritik Bir Boşluğu Ortaya Çıkarıyor

Karar kategorisi (ısı haritaları, huniler, radar, analitik amaçlı scatter) en büyük model farklılaşmasını ortaya koydu:

  • 4 model %100 puan aldı
  • 2 model %66.7 puan aldı
  • 1 model %16.7 puan aldı
  • 1 model %0 puan aldı

Bu 100 puanlık yayılma, analitik kullanım senaryolarında model seçiminin çok önemli olduğu anlamına geliyor.

4. Hız vs. Doğruluk Ödengesi

Mistral-Large-3, GLM-5.1'den 5× daha hızlı ama 28 puan daha az doğru. Kullanıcıların anında geri bildirim beklediği etkileşimli panolarda bu ödengi önemli. Ama hızlı ama yanlış bir grafik, yavaş ama doğru bir grafikten daha kötü.

5. En Üst ve En Alt Arasındaki Boşluk Büyüyor

v1'de en iyi ve en kötü arasındaki doğruluk farkı ~25 puandı (%87.5 vs ~%62). v2'de 28.3 puan (%100 vs %71.7). Üst modeller önemli ölçüde gelişirken, alt modeller karmaşık görevlerde yerinde saydı.

Kullanım Senaryosuna Göre Önerilen Modeller

Kullanım Senaryosu Önerilen Model Neden
🏆 Genel analitik GLM-5.1 %100 doğruluk, 5.6s hız, en iyi tümünü yapıcı
Maksimum doğruluk (hız önemli değil) Gemma4 31B %100 doğruluk, 10.2s hız
Hızlı etkileşimli kullanım Kimi-K2.6 %95.7 doğruluk, 6.0s — GLM'den sonra en iyi hız-doğruluk oranı
Karar analizi & karmaşık sorgular GLM-5.1 veya Gemma4 31B Sadece 4 model karar kategorisinde %100
Bütçe dostu dağıtım Qwen-3.5 %93.5 doğruluk, yaygın olarak erişilebilir
❌ Analitik için kaçınılmalı Mistral-Large-3 Karar kategorisinde %0, genel %71.7

İş Analitiği İçin Bu Ne Anlama Geliyor?

2026 karşılaştırması v1'den üç değişimi ortaya koyuyor:

  1. Uyum çözüldü. Neredeyse tüm modeller biçimlendirme kurallarını takip ediyor. Mücadele karmaşık analitik niyeti anlamaya kaydı.
  2. Karar analizi yeni farklılaştırıcı. Isı haritası, huni veya radar grafiğe ihtiyacınız varsa, model seçimi kritik. 4 model bunu mükemmel hallediyor; 2 tamamen başarısız oluyor.
  3. GLM-5.1 yeni karşılaştırma lideri. Daha önce Llama 3.1 8B liderdi. Manzara değişti.

Kendiniz Deneyin

LivChart ile yerel AI panolarını erişilebilir kıldık. Farklı modelleri deneyip verileriniz için hangisinin en iyi çalıştığını görebilirsiniz.

Analitik için hangi modeli kullanıyorsunuz? Deneyiminizi paylaşın — X'te veya r/LocalLLaMA'da tartışın.

Bu, LivChart AI Benchmark v2'dir. Yeni modeller çıktıkça güncelleyeceğiz. v1 sonuçlarını burada görün.