LivChart Chart Wizard, kullanıcıların istedikleri grafiği doğal dilde tarif ederek oluşturmasını sağlar.
Ancak hangi AI modeli en iyi sonuçları üretiyor?
32 gerçek iş senaryosunda 12 popüler modeli test ettik.
Bu makale doğruluk, hız ve panel oluşturma için pratik güvenilirlik hakkında öğrendiklerimizi paylaşıyor.
12 AI Modelini Neden Test Ettik
Grafik oluşturma, yerel AI'ın iş analizindeki en pratik kullanımlarından biridir.
Bir kullanıcı "bana aylık geliri bölgeye göre göster" yazdığında AI modeli şunları yapmalıdır:
- iş amacını anlamak
- doğru veri sütunlarını belirlemek
- uygun grafik türünü seçmek
- geçerli yapılandırma oluşturmak
- kenar durumları ve belirsiz istekleri yönetmek
Farklı modeller bu görevleri çok farklı şekilde yerine getirir.
Genel sohbet kalitesi değil, gerçek iş paneli iş akışları için hangi modellerin en iyi çalıştığını anlamak istedik.
Test Metodolojisi
Yaygın iş analizi isteklerini kapsayan 32 test senaryosu tasarladık.
Senaryo Kategorileri
- Temel grafikler: Standart KPI'lar için çubuk, çizgi, pasta, alan grafikleri
- Çok boyutlu analiz: Gruplu karşılaştırmalar, yığınlı grafikler
- Zaman serisi analizi: Zamana göre eğilimler, dönem karşılaştırmaları
- Koşullu biçimlendirme: Eşikler, renk kuralları, veriye dayalı stillendirme
- Çok dilli prompt'lar: Türkçe ve İngilizce istekler
- Karmaşık sorgular: Takip sorularıyla çok adımlı analiz
Değerlendirme Kriterleri
Her model şu kriterlere göre puanlandırıldı:
- Doğruluk: Doğru grafik türü ve veri eşlemesi oluşturdu mu?
- Tamlık: İstenen tüm öğeleri içerd mi?
- Hız: Ne kadar hızlı yanıt verdi?
- Tutarlılık: Benzer prompt'lar arasında tutarlı sonuçlar üretti mi?
Hız Sıralaması
Yanıt süresi etkileşimli panel oluşturmada kullanıcı deneyimini önemli ölçüde etkiler.
| Model | CPU (GPU yok) | GPU / Apple Silicon |
|---|---|---|
| Gemma 4 E2B | ~5s | ~1.5s |
| Llama 3.1 8B | ~8s | ~2s |
| Qwen 2.5 7B | ~7s | ~2s |
| Qwen 3 8B | ~10s | ~3s |
| Mistral 7B | ~6s | ~2s |
Hız etkileşimli kullanım için önemlidir. Kullanıcılar bir grafik için 10 saniyeden fazla beklerse katılım önemli ölçüde düşer.
Grafik Doğruluğu (32 Senaryo)
| Model | Doğru | Yanlış | Kısmi |
|---|---|---|---|
| Llama 3.1 8B | 28/32 | 2 | 2 |
| Qwen 2.5 7B | 27/32 | 3 | 2 |
| Gemma 4 E2B | 25/32 | 4 | 3 |
| Qwen 3 8B | 26/32 | 3 | 3 |
| Mistral 7B | 24/32 | 5 | 3 |
Llama 3.1 8B genel olarak en doğru grafikleri üretti. Ancak yeni sürümler çıkdıkça üst modeller arasındaki fark daralıyor.
Çok Dilli Performans
Türkiye'de ve çok dilli ortamlarda faaliyet gösteren işletmeler için Türkçe dil desteği kritiktir.
| Model | Türkçe Prompt Doğruluğu | İngilizce Prompt Doğruluğu | Genel |
|---|---|---|---|
| Qwen 2.5 7B | 26/32 | 27/32 | En iyi çok dilli |
| Qwen 3 8B | 25/32 | 26/32 | Güçlü çok dilli |
| Llama 3.1 8B | 22/32 | 28/32 | İngilizce öncelikli |
| Gemma 4 E2B | 20/32 | 25/32 | Daha zayıf Türkçe |
| Mistral 7B | 19/32 | 24/32 | Daha zayıf Türkçe |
Qwen modelleri açıkça çok dilli senaryolarda öne çıkıyor. Bu özellikle Türkçe panel oluşturmak için önemli.
Temel Çıkarımlar
- Llama 3.1 8B grafik oluşturmada genel olarak en doğru model
- Gemma 4 E2B en hızlı model, etkileşimli kullanım için ideal
- Qwen modelleri çok dilli veride özellikle iyi performans gösteriyor
- Çoğu iş kullanıcısı için hız, son birkaç yüzde puanlık doğruluktan daha önemlidir
Kullanım Senaryosuna Göre Önerilen Modeller
| Kullanım Senaryosu | Önerilen Model | Neden |
|---|---|---|
| Türkçe paneller | Qwen 2.5 7B | En iyi çok dilli destek |
| Hızlı etkileşimli kullanım | Gemma 4 E2B | En hızlı yanıt süresi |
| Maksimum doğruluk | Llama 3.1 8B | En yüksek grafik doğruluğu |
| Dengeli performans | Qwen 3 8B | İyi doğruluk + çok dilli |
| Hafif dağıtım | Mistral 7B | Düşük donanım gereksinimi |
Grafik Oluşturma Hakkında Öğrendiklerimiz
Grafik oluşturma genel sohbetten farklı bir beceri seti gerektirir.
Yapılandırılmış Çıktı Önemlidir
Modeller geçerli, yapılandırılmış grafik yapılandırması üretmelidir. Tüm modeller bunu eşit derecede iyi yapamaz.
Bazı modeller grafik yapılandırması beklenirken doğal dil yanıtları üretir. Diğerleri render'ı bozan kısmi yapılandırmalar üretir.
Niyet Algılama Kritiktir
Model, doğal dil açıklamasından kullanıcının ne tür bir grafik istediğini anlamalıdır.
"Bana geliri bölgeye göre göster" bir çubuk grafik, pasta grafik veya treemap olabilir. En iyi modeller bağlama dayalı en uygun görselleştirme türünü çıkarır.
Kenar Durumları Hatalara Neden Olur
Yaygın başarısızlık modelleri şunlardır:
- tarih sütunlarını kategorik veri olarak yanlış tanımlama
- veri yapısıyla eşleşmeyen grafik türleri oluşturma
- boş veya null değerleri yönetememe
- benzer sütun adlarını karıştırma
Daha iyi modeller bu kenar durumları daha zarif bir şekilde yönetir.
Oturumlar Arası Tutarlılık
Bazı modller aynı prompt için oturumlar arasında farklı grafikler üretir.
Üretim paneli oluşturması için tutarlılık esastır. Kullanıcıların güvenilir, tekrarlanabilir sonuçlara ihtiyacı vardır.
Donanım Değerlendirmeleri
Model seçimi donanım gereksinimlerini etkiler.
| Model | Gerekli RAM | GPU Önerilen | En İyi İçin |
|---|---|---|---|
| Gemma 4 E2B | 8 GB | Gerekli değil | Hafif iş istasyonları |
| Qwen 2.5 7B | 8 GB | Yardımcı | Genel analitik |
| Mistral 7B | 8 GB | Yardımcı | Düşük kaynaklı ortamlar |
| Llama 3.1 8B | 16 GB | Önerilen | Yüksek doğruluklu iş akışları |
| Qwen 3 8B | 16 GB | Önerilen | Çok dilli analitik |
Aralık Daralıyor
Her sürümle birlikte üst modeller arasındaki performans farkı daralıyor.
Altı ay önce grafik oluşturmada zorlanan modeller şimdi kabul edilebilir sonuçlar üretiyor.
Bu trend önümüzdeki yıl içinde çoğu ana akım modelin iş grafik oluşturmayı yeterli şekilde yöneteceği anlamına geliyor.
Şimdilik, belirli kullanım senaryonuz için doğru modeli seçmek hâlâ önemli.
Sonuç
Testlerimiz yerel AI modellerinin iş paneli oluşturma için giderek daha yetenekli hale geldiğini doğruluyor.
Llama 3.1 8B doğrulukta öne çıkıyor. Gemma 4 E2B hızda öne çıkıyor. Qwen modelleri çok dilli destekte öne çıkıyor.
Doğru seçim belirli gereksinimlerinize bağlı: dil, donanım, doğruluk ihtiyaçları ve yanıt süresi beklentileri.
Ekosistem geliştikçe bu önerileri test etmeye ve güncellemeye devam edeceğiz.