LivChart Chart Wizard, kullanıcıların istedikleri grafiği doğal dilde tarif ederek oluşturmasını sağlar.

Ancak hangi AI modeli en iyi sonuçları üretiyor?

32 gerçek iş senaryosunda 12 popüler modeli test ettik.

Bu makale doğruluk, hız ve panel oluşturma için pratik güvenilirlik hakkında öğrendiklerimizi paylaşıyor.

12 AI Modelini Neden Test Ettik

Grafik oluşturma, yerel AI'ın iş analizindeki en pratik kullanımlarından biridir.

Bir kullanıcı "bana aylık geliri bölgeye göre göster" yazdığında AI modeli şunları yapmalıdır:

  • iş amacını anlamak
  • doğru veri sütunlarını belirlemek
  • uygun grafik türünü seçmek
  • geçerli yapılandırma oluşturmak
  • kenar durumları ve belirsiz istekleri yönetmek

Farklı modeller bu görevleri çok farklı şekilde yerine getirir.

Genel sohbet kalitesi değil, gerçek iş paneli iş akışları için hangi modellerin en iyi çalıştığını anlamak istedik.

Test Metodolojisi

Yaygın iş analizi isteklerini kapsayan 32 test senaryosu tasarladık.

Senaryo Kategorileri

  • Temel grafikler: Standart KPI'lar için çubuk, çizgi, pasta, alan grafikleri
  • Çok boyutlu analiz: Gruplu karşılaştırmalar, yığınlı grafikler
  • Zaman serisi analizi: Zamana göre eğilimler, dönem karşılaştırmaları
  • Koşullu biçimlendirme: Eşikler, renk kuralları, veriye dayalı stillendirme
  • Çok dilli prompt'lar: Türkçe ve İngilizce istekler
  • Karmaşık sorgular: Takip sorularıyla çok adımlı analiz

Değerlendirme Kriterleri

Her model şu kriterlere göre puanlandırıldı:

  • Doğruluk: Doğru grafik türü ve veri eşlemesi oluşturdu mu?
  • Tamlık: İstenen tüm öğeleri içerd mi?
  • Hız: Ne kadar hızlı yanıt verdi?
  • Tutarlılık: Benzer prompt'lar arasında tutarlı sonuçlar üretti mi?

Hız Sıralaması

Yanıt süresi etkileşimli panel oluşturmada kullanıcı deneyimini önemli ölçüde etkiler.

Model CPU (GPU yok) GPU / Apple Silicon
Gemma 4 E2B ~5s ~1.5s
Llama 3.1 8B ~8s ~2s
Qwen 2.5 7B ~7s ~2s
Qwen 3 8B ~10s ~3s
Mistral 7B ~6s ~2s

Hız etkileşimli kullanım için önemlidir. Kullanıcılar bir grafik için 10 saniyeden fazla beklerse katılım önemli ölçüde düşer.

Grafik Doğruluğu (32 Senaryo)

Model Doğru Yanlış Kısmi
Llama 3.1 8B 28/32 2 2
Qwen 2.5 7B 27/32 3 2
Gemma 4 E2B 25/32 4 3
Qwen 3 8B 26/32 3 3
Mistral 7B 24/32 5 3

Llama 3.1 8B genel olarak en doğru grafikleri üretti. Ancak yeni sürümler çıkdıkça üst modeller arasındaki fark daralıyor.

Çok Dilli Performans

Türkiye'de ve çok dilli ortamlarda faaliyet gösteren işletmeler için Türkçe dil desteği kritiktir.

Model Türkçe Prompt Doğruluğu İngilizce Prompt Doğruluğu Genel
Qwen 2.5 7B 26/32 27/32 En iyi çok dilli
Qwen 3 8B 25/32 26/32 Güçlü çok dilli
Llama 3.1 8B 22/32 28/32 İngilizce öncelikli
Gemma 4 E2B 20/32 25/32 Daha zayıf Türkçe
Mistral 7B 19/32 24/32 Daha zayıf Türkçe

Qwen modelleri açıkça çok dilli senaryolarda öne çıkıyor. Bu özellikle Türkçe panel oluşturmak için önemli.

Temel Çıkarımlar

  • Llama 3.1 8B grafik oluşturmada genel olarak en doğru model
  • Gemma 4 E2B en hızlı model, etkileşimli kullanım için ideal
  • Qwen modelleri çok dilli veride özellikle iyi performans gösteriyor
  • Çoğu iş kullanıcısı için hız, son birkaç yüzde puanlık doğruluktan daha önemlidir

Kullanım Senaryosuna Göre Önerilen Modeller

Kullanım Senaryosu Önerilen Model Neden
Türkçe paneller Qwen 2.5 7B En iyi çok dilli destek
Hızlı etkileşimli kullanım Gemma 4 E2B En hızlı yanıt süresi
Maksimum doğruluk Llama 3.1 8B En yüksek grafik doğruluğu
Dengeli performans Qwen 3 8B İyi doğruluk + çok dilli
Hafif dağıtım Mistral 7B Düşük donanım gereksinimi

Grafik Oluşturma Hakkında Öğrendiklerimiz

Grafik oluşturma genel sohbetten farklı bir beceri seti gerektirir.

Yapılandırılmış Çıktı Önemlidir

Modeller geçerli, yapılandırılmış grafik yapılandırması üretmelidir. Tüm modeller bunu eşit derecede iyi yapamaz.

Bazı modeller grafik yapılandırması beklenirken doğal dil yanıtları üretir. Diğerleri render'ı bozan kısmi yapılandırmalar üretir.

Niyet Algılama Kritiktir

Model, doğal dil açıklamasından kullanıcının ne tür bir grafik istediğini anlamalıdır.

"Bana geliri bölgeye göre göster" bir çubuk grafik, pasta grafik veya treemap olabilir. En iyi modeller bağlama dayalı en uygun görselleştirme türünü çıkarır.

Kenar Durumları Hatalara Neden Olur

Yaygın başarısızlık modelleri şunlardır:

  • tarih sütunlarını kategorik veri olarak yanlış tanımlama
  • veri yapısıyla eşleşmeyen grafik türleri oluşturma
  • boş veya null değerleri yönetememe
  • benzer sütun adlarını karıştırma

Daha iyi modeller bu kenar durumları daha zarif bir şekilde yönetir.

Oturumlar Arası Tutarlılık

Bazı modller aynı prompt için oturumlar arasında farklı grafikler üretir.

Üretim paneli oluşturması için tutarlılık esastır. Kullanıcıların güvenilir, tekrarlanabilir sonuçlara ihtiyacı vardır.

Donanım Değerlendirmeleri

Model seçimi donanım gereksinimlerini etkiler.

Model Gerekli RAM GPU Önerilen En İyi İçin
Gemma 4 E2B 8 GB Gerekli değil Hafif iş istasyonları
Qwen 2.5 7B 8 GB Yardımcı Genel analitik
Mistral 7B 8 GB Yardımcı Düşük kaynaklı ortamlar
Llama 3.1 8B 16 GB Önerilen Yüksek doğruluklu iş akışları
Qwen 3 8B 16 GB Önerilen Çok dilli analitik

Aralık Daralıyor

Her sürümle birlikte üst modeller arasındaki performans farkı daralıyor.

Altı ay önce grafik oluşturmada zorlanan modeller şimdi kabul edilebilir sonuçlar üretiyor.

Bu trend önümüzdeki yıl içinde çoğu ana akım modelin iş grafik oluşturmayı yeterli şekilde yöneteceği anlamına geliyor.

Şimdilik, belirli kullanım senaryonuz için doğru modeli seçmek hâlâ önemli.

Sonuç

Testlerimiz yerel AI modellerinin iş paneli oluşturma için giderek daha yetenekli hale geldiğini doğruluyor.

Llama 3.1 8B doğrulukta öne çıkıyor. Gemma 4 E2B hızda öne çıkıyor. Qwen modelleri çok dilli destekte öne çıkıyor.

Doğru seçim belirli gereksinimlerinize bağlı: dil, donanım, doğruluk ihtiyaçları ve yanıt süresi beklentileri.

Ekosistem geliştikçe bu önerileri test etmeye ve güncellemeye devam edeceğiz.