Bilgisayarlı Görü

Phi-4-reasoning-vision: Microsoft'tan Görsel Akıl Yürütme Devri

Oray Yılmaz

26 Nisan 2026

5 dk okuma süresi

Microsoft tarafından geliştirilen Phi-4-reasoning-vision-15B, devasa veri kümelerine ve donanımlara ihtiyaç duymadan karmaşık görsel ve matematiksel akıl yürütme görevlerini başarıyla yerine getirebilen, yüksek verimliliğe sahip yeni nesil kompakt bir yapay zeka modelidir.

Neden Phi-4-vision? Daha Az Veri, Daha Çok Zeka

Phi-4-vision 15B özellikleri arasında en çok dikkat çeken ve yapay zeka araştırmacılarında şaşkınlık yaratan detay, modelin eğitim sürecindeki muazzam veri optimizasyonudur. Sektördeki en güçlü rakip modeller olan Qwen 3 VL, Kimi-VL ve Gemma 3 gibi devasa vizyon-dil sistemleri genellikle 1 trilyonun üzerinde devasa veri tokenları ile eğitilmektedir. Buna karşılık, Phi-4-reasoning-vision yalnızca 200 milyar multimodal token kullanılarak eğitilmiş ve rakipleriyle başa baş, hatta belirli alanlarda onlardan çok daha üstün bir performans sergilemeyi başarmıştır.

Peki, beşte bir oranında veri ile bu denli yüksek bir zeka nasıl elde ediliyor? Cevap, verinin miktarından ziyade veri kürasyonu sürecindeki titizlikte yatmaktadır. Araştırmacılar, eğitim verilerini rasgele internetten çekmek yerine manuel olarak sınıflandırmış, açık kaynaklı veri setlerinde hatalı soruları, mantık yanlışlarını ve format bozukluklarını düzeltmiştir. Gerekli durumlarda GPT-4o gibi modeller kullanılarak veriler sentetik olarak zenginleştirilmiş ve kusursuz bir veri havuzu oluşturulmuştur. Sadece 240 adet NVIDIA B200 GPU kullanılarak 4 gün gibi kısa bir sürede eğitilen bu model, enerji verimliliği ve hesaplama gücü açısından Pareto sınırlarını zorlayan bir başyapıttır.

Aşağıdaki tablo, modelin rakiplerine karşı ortaya koyduğu yapısal farkları net bir biçimde özetlemektedir:

Özellik	Phi-4-reasoning-vision-15B	Rakip Modeller(Qwen/Gemma)
Eğitim Verisi	200 Milyar Token	1 Trilyon+ Token
Öne Çıkan Alan	Bilimsel Muhakeme & UI Anlama	Genel Görsel Tanımlama
Donanım İhtiyacı	Düşük / Modest Hardware	Yüksek / Datacenter
Akıl Yürütme	Hibrit (Reasoning + Non-reasoning)	Genelde tek modlu

Teknik Mimari: Mid-Fusion ve SigLIP-2 Entegrasyonu

Görsel ve metinsel verilerin bir yapay zeka modelinde nasıl birleştirileceği, o modelin verimliliğini doğrudan belirler. Görüntüleri ve metinleri en başından beri aynı transformatör içinde işleyen erken birleştirme (early-fusion) modelleri, çok büyük bir hesaplama gücü ve bellek kapasitesi gerektirir. Phi-4-reasoning-vision ise, yüksek ifade gücüyle düşük maliyetli aynı anda sunabilmek adına mid-fusion mimarisini kullanır. Bu mimaride, görüntüleri işlemek için Google tarafından geliştirilen gelişmiş SigLIP-2 görsel kodlayıcı görev alır. Görseller önce görsel tokenlara çevrilir, ardından çok katmanlı algılayıcı (MLP) bir projeksiyon katmanıyla Phi-4 modelinin gömme uzayına aktarılarak dil tokenlarıyla harmanlanır.

Bu entegrasyonun en can alıcı noktası ise dinamik çözünürlük kullanımıdır. SigLIP-2’nin NaFlex varyantı sayesinde görüntüler, orjinal en boy oranları bozulmadan işlenir. Görsel token sayısı, ihtiyaca göre 3.600’e (yaklaşık 720p HD çözünürlüğe) kadar çıkabilir. Bu dinamik yapı, bir bilgisayar ekranındaki en küçük ikonun veya bir bilimsel makaledeki ince detaylı grafiklerin kaybolmasını engelleyerek benzersiz bir görsel algı keskinliği sunar.

Hibrit Veri Stratejisi: Akıl Yürütme ve Algı

Phi-4-reasoning-vision, her sorunu aynı yöntemle çözmeye çalışan tekdüze modellere kıyasla, kullanıcılara “Düşün” ya da “Düşünme” seçeneklerini sunan devrimsel bir hibrit akıl yürütme motoruna sahiptir. Sistemin eğitim verisinin yaklaşık %80’i algı odaklıyken, %20’si derin akıl yürütme gerektiren verilerden oluşur.

Kullanıcılar modelin davranışını açıkça yönlendirebilir. Eğer sadece belgenin transkripti, makbuzun okunması veya ekrandaki bir nesnenin koordinatının bulunması isteniyorsa, <nothink> etiketi ile saniyeler içinde, gereksiz işlem gücü harcamadan doğrudan sonuç üretir. Ancak karmaşık bir fizik problemi, ispat gerektiren bir matematik sorusu veya çok adımlı bir analitik görev verildiğinde, <think>...</think> etiketleri arasına girerek problemi mantıksal parçalara ayırır, ara adımları değerlendirir ve zincirleme bir düşünce süreciyle en doğru cevaba ulaşır. Bu esneklik, gecikme süresini düşürürken doğruluğu maksimuma çıkarır.

2026 Uygulama Alanları: Ekran Okuma ve Bilimsel Analiz

Phi-4-reasoning-vision, salt akademik bir başarı olmanın ötesinde, endüstriyel ve bireysel sorunları çözmek için tasarlanmış profesyonel bir araçtır. Microsoft Foundry Al modelleri arasında öne çıkan bu yapay zekanın başlıca uygulama alanları şunlardır:

Ekran Kullanımı (CUA): Model, akıllı telefon, masaüstü ve web tarayıcı arayüzlerini mükemmel bir hassasiyetle okuyabilir. ScreenSpot v2 testlerinde elde ettiği 88.2 gibi rekor bir skor, modelin ekran üzerindeki butonları, menüleri, sepet simgelerini ve metin alanlarını sadece tanımakla kalmayıp, bu öğelerin (x,y) koordinatlarını milimetrik bir şekilde saptayabildiğini kanıtlar. Otonom yapay zeka ajanları (örn: e-ticaret botları) için kusursuz bir “görme” altyapısı sağlar.
Bilimsel Akıl Yürütme: Modelin matematiksel mantık yeteneği sektördeki devleri geride bırakmaktadır. Öğrencilerin karalamalar, üstü çizilmiş yanlış işlemler ve karmaşık el yazılarıyla dolu matematik denklemlerini analiz eder. Hatalı kısımları göz ardı edip doğru işlemlere odaklanarak, bir öğretmen gibi hatanın nerede yapıldığını açıklayan adım adım çözümler sunar. Ayrıca yoğun akademik grafikleri ve istatiksel tabloları başarıyla yorumlayabilir. MathVista mini testinde ulaştığı 75.2 puan bu üstün yeteneğin kanıtıdır.
Görsel Dil Görevleri: Günlük operasyonel iş akışlarını hızlandırmak adına, model fatura, fiş veya karmaşık PDF belgelerini anında okuyarak metne ve yapılandırılmış ver formatlarına (örn: JSON) dönüştürebilir. Ayrıca robotik ve ajan uygulamaları için oldukça kritik olan “Ne değişti?” senaryolarında, art arda gelen ardışık fotoğrafları karşılaştırarak aralarındaki zamansal ve mekansal farklılıkları anında saptayabilir.

Yapay zeka dünyasında büyüklüğün her zaman iyi performans anlamına gelmediği, aksine kaliteli veri ve optimize edilmiş mimarinin çok daha kritik olduğu Phi-4-reasoning-vision ile bir kez daha kanıtlamıştır. Verimliliği, akıl yürütme kapasitesi ve düşük donanım gereksinimi ile bu model, 2026 yılının ve ötesinin en stratejik yapay zeka asistanlarından biri olmaya adaydır.

Yapay zeka ekosistemi, gün geçtikçe daha büyük ve daha maliyetli modellere doğru evrilirken, Microsoft ezberleri bozan yeni bir yaklaşımla karşımıza çıkıyor. Multimodal reasoning modelleri 2026 vizyonunun en güçlü temsilcilerinden biri olan Phi-4-reasoning-vision, “Ne kadar büyükse o kadar iyidir” yanılgısını ortadan kaldırarak sektörde gerçek bir görsel akıl yürütme devri başlatıyor. Açık ağırlıklı olarak piyasaya sürülen bu yeni nesil 15 milyar parametreli (15B) model, yalnızca görüntüleri pasif bir şekilde algılamakla kalmıyor, aynı zamanda bu görseller üzerinde çok adımlı, mantıksal ve karmaşık çıkarımla yapabiliyor. Geliştiricilerin “ Microsoft Foundry AI modelleri ” kataloğundan, Hugging Face platformundan ve GitHub üzerinden anında erişebildiği bu yenilikçi yapı, yüksek hesaplama gücü gerektiren veri merkezlerine olan bağımlılığı azaltarak uç cihazlarda dahi güçlü analitik yetenekler sunuyor. Neden Phi-4-vision? Daha Az Veri, Daha Çok Zeka Phi-4-vision 15B özellikleri arasında en çok dikkat çeken ve yapay zeka araştırmacılarında şaşkınlık yaratan detay, modelin eğitim sürecindeki muazzam veri optimizasyonudur. Sektördeki en güçlü rakip modeller olan Qwen 3 VL , Kimi-VL ve Gemma 3 gibi devasa vizyon-dil sistemleri genellikle 1 trilyonun üzerinde devasa veri tokenları ile eğitilmektedir. Buna karşılık, Phi-4-reasoning-vision yalnızca 200 milyar multimodal token kullanılarak eğitilmiş ve rakipleriyle başa baş, hatta belirli alanlarda onlardan çok daha üstün bir performans sergilemeyi başarmıştır. Peki, beşte bir oranında veri ile bu denli yüksek bir zeka nasıl elde ediliyor? Cevap, verinin miktarından ziyade veri kürasyonu sürecindeki titizlikte yatmaktadır. Araştırmacılar, eğitim verilerini rasgele internetten çekmek yerine manuel olarak sınıflandırmış, açık kaynaklı veri setlerinde hatalı soruları, mantık yanlışlarını ve format bozukluklarını düzeltmiştir. Gerekli durumlarda GPT-4o gibi modeller kullanılarak veriler sentetik olarak zenginleştirilmiş ve kusursuz bir veri havuzu oluşturulmuştur. Sadece 240 adet NVIDIA B200 GPU kullanılarak 4 gün gibi kısa bir sürede eğitilen bu model, enerji verimliliği ve hesaplama gücü açısından Pareto sınırlarını zorlayan bir başyapıttır. Aşağıdaki tablo, modelin rakiplerine karşı ortaya koyduğu yapısal farkları net bir biçimde özetlemektedir: Özellik Phi-4-reasoning-vision-15B Rakip Modeller(Qwen/Gemma) Eğitim Verisi 200 Milyar Token 1 Trilyon+ Token Öne Çıkan Alan Bilimsel Muhakeme & UI Anlama Genel Görsel Tanımlama Donanım İhtiyacı Düşük / Modest Hardware Yüksek / Datacenter Akıl Yürütme Hibrit (Reasoning + Non-reasoning) Genelde tek modlu Teknik Mimari: Mid-Fusion ve SigLIP-2 Entegrasyonu Görsel ve metinsel verilerin bir yapay zeka modelinde nasıl birleştirileceği, o modelin verimliliğini doğrudan belirler. Görüntüleri ve metinleri en başından beri aynı transformatör içinde işleyen erken birleştirme (early-fusion) modelleri, çok büyük bir hesaplama gücü ve bellek kapasitesi gerektirir. Phi-4-reasoning-vision ise, yüksek ifade gücüyle düşük maliyetli aynı anda sunabilmek adına mid-fusion mimarisini kullanır. Bu mimaride, görüntüleri işlemek için Google tarafından geliştirilen gelişmiş SigLIP-2 görsel kodlayıcı görev alır. Görseller önce görsel tokenlara çevrilir, ardından çok katmanlı algılayıcı (MLP) bir projeksiyon katmanıyla Phi-4 modelinin gömme uzayına aktarılarak dil tokenlarıyla harmanlanır. Bu entegrasyonun en can alıcı noktası ise dinamik çözünürlük kullanımıdır. SigLIP-2’nin NaFlex varyantı sayesinde görüntüler, orjinal en boy oranları bozulmadan işlenir. Görsel token sayısı, ihtiyaca göre 3.600’e (yaklaşık 720p HD çözünürlüğe) kadar çıkabilir. Bu dinamik yapı, bir bilgisayar ekranındaki en küçük ikonun veya bir bilimsel makaledeki ince detaylı grafiklerin kaybolmasını engelleyerek benzersiz bir görsel algı keskinliği sunar. Hibrit Veri Stratejisi: Akıl Yürütme ve Algı Phi-4-reasoning-vision, her sorunu aynı yöntemle çözmeye çalışan tekdüze modellere kıyasla, kullanıcılara “Düşün” ya da “Düşünme” seçeneklerini sunan devrimsel bir hibrit akıl yürütme motoruna sahiptir. Sistemin eğitim verisinin yaklaşık %80’i algı odaklıyken, %20’si derin akıl yürütme gerektiren verilerden oluşur. Kullanıcılar modelin davranışını açıkça yönlendirebilir. Eğer sadece belgenin transkripti, makbuzun okunması veya ekrandaki bir nesnenin koordinatının bulunması isteniyorsa, <nothink> etiketi ile saniyeler içinde, gereksiz işlem gücü harcamadan doğrudan sonuç üretir. Ancak karmaşık bir fizik problemi, ispat gerektiren bir matematik sorusu veya çok adımlı bir analitik görev verildiğinde, <think>...</think> etiketleri arasına girerek problemi mantıksal parçalara ayırır, ara adımları değerlendirir ve zincirleme bir düşünce süreciyle en doğru cevaba ulaşır. Bu esneklik, gecikme süresini düşürürken doğruluğu maksimuma çıkarır. 2026 Uygulama Alanları: Ekran Okuma ve Bilimsel Analiz Phi-4-reasoning-vision, salt akademik bir başarı olmanın ötesinde, endüstriyel ve

Etiketler:Phi-4-reasoning-visionPhi-4-vision 15B özellikleriGörsel Akıl Yürütme

Oray Yılmaz

@orayyilmaz16

Yorumlar (0)

Yorum yapmak için giriş yapmalısınız.

Giriş Yap

Henüz yorum yapılmamış. İlk yorumu siz yapın!