Haber

Gemini 3 Flash'ın görsel muhakeme ile kod yürütmeyi birleştiren yeni yeteneği: Agentic Vision

Google, Gemini 3 Flash için Agentic Vision yeteneklerini duyurdu. Şirket, Gemini gibi ileri seviye modellerin genellikle dünyayı tek bir statik bakışta işlediğini belirtiyor. Bu modeller, mikroçipteki…

Google, Gemini 3 Flash için Agentic Vision yeteneklerini duyurdu. Şirket, ileri seviye modellerin genellikle detayları kaçırması durumunda tahmin yapmak zorunda kaldığını belirtiyor. Gemini 3 Flash’taki Agentic Vision, görüntü anlamayı ajansal bir sürece dönüştürerek görsel kanıtlara dayandırarak daha doğru tahminler yapmayı sağlıyor. Model, görüntüleri adım adım işlemek için planlar oluştururken Agentic Vision tarafından desteklenen kod yürütme işlevini de kullanıyor. Bu sayede, Gemini 3 Flash’ta kod yürütme etkinleştirildiğinde %5 ila %10 kalite artışı sağlandığı belirtiliyor.

Agentic Vision, “Düşün, Harekete Geç, Gözlemle” döngüsünü kullanarak modelin nihai yanıtı oluşturmadan önce verileri daha iyi bir bağlamda incelemesini sağlıyor. Model aynı zamanda görüntüdeki ince ayrıntıları algıladığında yakınlaştırma yapabiliyor. Agentic Vision’ın yüksek yoğunluklu tabloları ayrıştırabildiği ve Python kodunu çalıştırarak bulguları görselleştirebildiği de belirtiliyor. Google, Agentic Vision yeteneğini Gemini uygulamasında kullanıma sunmaya başladı. Bu yeni yeteneğe erişmek için geliştiriciler, Google AI Studio ve Vertex AI’daki Gemini API’yi kullanabilir.