Microsoft Foundry’de MAI-Transcribe-1, MAI-Voice-1 ve MAI-Image-2 Modelleri Kullanıma Açıldı

Rıfkı Erduran10 dakika önceGüncelleme: 3 Nisan 2026

Microsoft, yapay zeka geliştirme platformu Microsoft Foundry aracılığıyla üç yeni AI modeli: MAI-Transcribe-1, MAI-Voice-1 ve MAI-Image-2’yi kamuya açtı. Bu modeller, uygulama geliştiricilere AI altyapısı, araçlar ve ölçeklenebilir sistem inşa etme imkanı sağlıyor. Kullandığı ürünler arasında Copilot, Bing, PowerPoint ve Azure Speech yer alıyor ve artık yalnızca Foundry aracılığıyla geliştiricilerin erişimine sunuluyor.

MAI Model Ailesi

MAI ailesi, ses, konuşma ve görüntü iş akışlarını desteklemek üzere üç modelli bir sistem oluşturuyor. Bunlar:

MAI-Transcribe-1: Ses kaydını metne dönüştürme modeli.
MAI-Voice-1: Metni doğal ve hızlı ses biçimine dönüştüren model.
MAI-Image-2: Metin girdisine dayanarak görsel oluşturan model.

Bu modeller, gerçek zamanlı transkripsiyon, ses etkileşimleri ve görsel üretim uygulamaları için entegre bir ekosistem sağlıyor. Tüm modeller şu anda Microsoft Foundry’de genel ön izleme aşamasında.

MAI-Transcribe-1 Özellikleri

MAI-Transcribe-1, özellikle kurumsal ses tanıma iş yüklerine uygun. 25 farklı dili destekliyor ve farklı aksanları ile gerçek ortam seslerini işleyebiliyor. Model, benzerlerine kıyasla GPU maliyetini yarı yarıya düşürüyor. Bu sayede büyük ölçekli sistemlerde uygun maliyetle verimli kullanım sağlıyor.

Gerçek zamanlı transkripsiyon, çağrı merkezi analizleri, ses giriş sistemleri ve ses işleme zincirlerinde kullanılıyor. Ayrıca Microsoft Copilot’un ses modu ve dikte yeteneklerinde de görev yapıyor.

MAI-Voice-1 ile Hızlı ve Doğal Ses Üretimi

MAI-Voice-1, doğal ve ifadeli ses üretimine odaklanıyor. Tek bir GPU üzerinde 60 saniyeye kadar ses, 1 saniyeden kısa zamanda oluşturulabiliyor. Bu özellik, ses tabanlı uygulamalarda hızlı geri dönüş sağlıyor.

Konuşma ajanları, sesli asistanlar ve sesli içerik üretimi başlıca kullanım alanları arasında. Microsoft ekosisteminde Copilot’un ses deneyimleri ve podcast benzeri içeriklerde görev alıyor. Ayrıca Azure Speech ile kişisel ses oluşturma da mümkün olurken, bunun için sorumlu AI onay süreci uygulaması bulunuyor.

MAI-Image-2 ve Metinden Görsel Üretimi

MAI-Image-2, metin komutlarından kaliteli, fotogerçekçi görseller üretiyor. Gelişmiş metin yerleştirme ve karmaşık sahneleri yönetme yeteneğine sahip model, tasarımcılar, fotoğrafçılar ve görsel anlatıcıların geri bildirimleri ile geliştirildi.

Arena.ai sıralamasında üçüncü sıraya yükselen MAI-Image-2, tasarım fikirleri, pazarlama materyalleri ve ürün görselleştirmelerinde etkin şekilde kullanılıyor. Microsoft’un Copilot, Bing Image Creator ve PowerPoint gibi uygulamalarında da bu model etkin.

Kullanım ve Fiyatlandırma

MAI modellerine erişim sadece Microsoft Foundry üzerinden sağlanıyor. Ayrıca Azure Speech ile ses modelleri entegrasyonu yapılabiliyor. Deneyimler için MAI Playground ve uygulama geliştirme API’leri mevcut.

MAI-Transcribe-1: Saatlik 0,36 dolar
MAI-Voice-1: 1 milyon karakter için 22 dolar
MAI-Image-2: Metin girişi için 1 milyon token başına 5 dolar; görsel çıktısı için 1 milyon token başına 33 dolar

Geliştiriciler, Playground’da modelleri deneyebilir ve üretime LinkedIn Foundry üzerinden geçebilir. Ayrıca ses klonlama gibi özellikler için Microsoft’un sorumlu AI kurallarına uyum gerekiyor.

Etiketler