LivChart AI Model Karşılaştırması: Chart Wizard Testlerinde Ne Öğrendik

LivChart Chart Wizard, kullanıcıların istedikleri grafiği doğal dilde tarif ederek oluşturmasını sağlar.

Ancak hangi AI modeli en iyi sonuçları üretiyor?

32 gerçek iş senaryosunda 12 popüler modeli test ettik.

Bu makale doğruluk, hız ve panel oluşturma için pratik güvenilirlik hakkında öğrendiklerimizi paylaşıyor.

12 AI Modelini Neden Test Ettik

Grafik oluşturma, yerel AI'ın iş analizindeki en pratik kullanımlarından biridir.

Bir kullanıcı "bana aylık geliri bölgeye göre göster" yazdığında AI modeli şunları yapmalıdır:

iş amacını anlamak
doğru veri sütunlarını belirlemek
uygun grafik türünü seçmek
geçerli yapılandırma oluşturmak
kenar durumları ve belirsiz istekleri yönetmek

Farklı modeller bu görevleri çok farklı şekilde yerine getirir.

Genel sohbet kalitesi değil, gerçek iş paneli iş akışları için hangi modellerin en iyi çalıştığını anlamak istedik.

Test Metodolojisi

Yaygın iş analizi isteklerini kapsayan 32 test senaryosu tasarladık.

Senaryo Kategorileri

Temel grafikler: Standart KPI'lar için çubuk, çizgi, pasta, alan grafikleri
Çok boyutlu analiz: Gruplu karşılaştırmalar, yığınlı grafikler
Zaman serisi analizi: Zamana göre eğilimler, dönem karşılaştırmaları
Koşullu biçimlendirme: Eşikler, renk kuralları, veriye dayalı stillendirme
Çok dilli prompt'lar: Türkçe ve İngilizce istekler
Karmaşık sorgular: Takip sorularıyla çok adımlı analiz

Değerlendirme Kriterleri

Her model şu kriterlere göre puanlandırıldı:

Doğruluk: Doğru grafik türü ve veri eşlemesi oluşturdu mu?
Tamlık: İstenen tüm öğeleri içerd mi?
Hız: Ne kadar hızlı yanıt verdi?
Tutarlılık: Benzer prompt'lar arasında tutarlı sonuçlar üretti mi?

Hız Sıralaması

Yanıt süresi etkileşimli panel oluşturmada kullanıcı deneyimini önemli ölçüde etkiler.

Model	CPU (GPU yok)	GPU / Apple Silicon
Gemma 4 E2B	~5s	~1.5s
Llama 3.1 8B	~8s	~2s
Qwen 2.5 7B	~7s	~2s
Qwen 3 8B	~10s	~3s
Mistral 7B	~6s	~2s

Hız etkileşimli kullanım için önemlidir. Kullanıcılar bir grafik için 10 saniyeden fazla beklerse katılım önemli ölçüde düşer.

Grafik Doğruluğu (32 Senaryo)

Model	Doğru	Yanlış	Kısmi
Llama 3.1 8B	28/32	2	2
Qwen 2.5 7B	27/32	3	2
Gemma 4 E2B	25/32	4	3
Qwen 3 8B	26/32	3	3
Mistral 7B	24/32	5	3

Llama 3.1 8B genel olarak en doğru grafikleri üretti. Ancak yeni sürümler çıkdıkça üst modeller arasındaki fark daralıyor.

Çok Dilli Performans

Türkiye'de ve çok dilli ortamlarda faaliyet gösteren işletmeler için Türkçe dil desteği kritiktir.

Model	Türkçe Prompt Doğruluğu	İngilizce Prompt Doğruluğu	Genel
Qwen 2.5 7B	26/32	27/32	En iyi çok dilli
Qwen 3 8B	25/32	26/32	Güçlü çok dilli
Llama 3.1 8B	22/32	28/32	İngilizce öncelikli
Gemma 4 E2B	20/32	25/32	Daha zayıf Türkçe
Mistral 7B	19/32	24/32	Daha zayıf Türkçe

Qwen modelleri açıkça çok dilli senaryolarda öne çıkıyor. Bu özellikle Türkçe panel oluşturmak için önemli.

Temel Çıkarımlar

Llama 3.1 8B grafik oluşturmada genel olarak en doğru model
Gemma 4 E2B en hızlı model, etkileşimli kullanım için ideal
Qwen modelleri çok dilli veride özellikle iyi performans gösteriyor
Çoğu iş kullanıcısı için hız, son birkaç yüzde puanlık doğruluktan daha önemlidir

Kullanım Senaryosuna Göre Önerilen Modeller

Kullanım Senaryosu	Önerilen Model	Neden
Türkçe paneller	Qwen 2.5 7B	En iyi çok dilli destek
Hızlı etkileşimli kullanım	Gemma 4 E2B	En hızlı yanıt süresi
Maksimum doğruluk	Llama 3.1 8B	En yüksek grafik doğruluğu
Dengeli performans	Qwen 3 8B	İyi doğruluk + çok dilli
Hafif dağıtım	Mistral 7B	Düşük donanım gereksinimi

Grafik Oluşturma Hakkında Öğrendiklerimiz

Grafik oluşturma genel sohbetten farklı bir beceri seti gerektirir.

Yapılandırılmış Çıktı Önemlidir

Modeller geçerli, yapılandırılmış grafik yapılandırması üretmelidir. Tüm modeller bunu eşit derecede iyi yapamaz.

Bazı modeller grafik yapılandırması beklenirken doğal dil yanıtları üretir. Diğerleri render'ı bozan kısmi yapılandırmalar üretir.

Niyet Algılama Kritiktir

Model, doğal dil açıklamasından kullanıcının ne tür bir grafik istediğini anlamalıdır.

"Bana geliri bölgeye göre göster" bir çubuk grafik, pasta grafik veya treemap olabilir. En iyi modeller bağlama dayalı en uygun görselleştirme türünü çıkarır.

Kenar Durumları Hatalara Neden Olur

Yaygın başarısızlık modelleri şunlardır:

tarih sütunlarını kategorik veri olarak yanlış tanımlama
veri yapısıyla eşleşmeyen grafik türleri oluşturma
boş veya null değerleri yönetememe
benzer sütun adlarını karıştırma

Daha iyi modeller bu kenar durumları daha zarif bir şekilde yönetir.

Oturumlar Arası Tutarlılık

Bazı modller aynı prompt için oturumlar arasında farklı grafikler üretir.

Üretim paneli oluşturması için tutarlılık esastır. Kullanıcıların güvenilir, tekrarlanabilir sonuçlara ihtiyacı vardır.

Donanım Değerlendirmeleri

Model seçimi donanım gereksinimlerini etkiler.

Model	Gerekli RAM	GPU Önerilen	En İyi İçin
Gemma 4 E2B	8 GB	Gerekli değil	Hafif iş istasyonları
Qwen 2.5 7B	8 GB	Yardımcı	Genel analitik
Mistral 7B	8 GB	Yardımcı	Düşük kaynaklı ortamlar
Llama 3.1 8B	16 GB	Önerilen	Yüksek doğruluklu iş akışları
Qwen 3 8B	16 GB	Önerilen	Çok dilli analitik

Aralık Daralıyor

Her sürümle birlikte üst modeller arasındaki performans farkı daralıyor.

Altı ay önce grafik oluşturmada zorlanan modeller şimdi kabul edilebilir sonuçlar üretiyor.

Bu trend önümüzdeki yıl içinde çoğu ana akım modelin iş grafik oluşturmayı yeterli şekilde yöneteceği anlamına geliyor.

Şimdilik, belirli kullanım senaryonuz için doğru modeli seçmek hâlâ önemli.

Sonuç

Testlerimiz yerel AI modellerinin iş paneli oluşturma için giderek daha yetenekli hale geldiğini doğruluyor.

Llama 3.1 8B doğrulukta öne çıkıyor. Gemma 4 E2B hızda öne çıkıyor. Qwen modelleri çok dilli destekte öne çıkıyor.

Doğru seçim belirli gereksinimlerinize bağlı: dil, donanım, doğruluk ihtiyaçları ve yanıt süresi beklentileri.

Ekosistem geliştikçe bu önerileri test etmeye ve güncellemeye devam edeceğiz.