Microsoft Foundry’de MAI-Transcribe-1, MAI-Voice-1 ve MAI-Image-2 Modelleri Kullanıma Açıldı

Microsoft, yapay zeka geliştirme platformu Microsoft Foundry aracılığıyla üç yeni AI modeli: MAI-Transcribe-1, MAI-Voice-1 ve MAI-Image-2’yi kamuya açtı. Bu modeller, uygulama geliştiricilere AI altyapısı, araçlar ve ölçeklenebilir sistem inşa etme imkanı sağlıyor. Kullandığı ürünler arasında Copilot, Bing, PowerPoint ve Azure Speech yer alıyor ve artık yalnızca Foundry aracılığıyla geliştiricilerin erişimine sunuluyor.
MAI Model Ailesi
MAI ailesi, ses, konuşma ve görüntü iş akışlarını desteklemek üzere üç modelli bir sistem oluşturuyor. Bunlar:
- MAI-Transcribe-1: Ses kaydını metne dönüştürme modeli.
- MAI-Voice-1: Metni doğal ve hızlı ses biçimine dönüştüren model.
- MAI-Image-2: Metin girdisine dayanarak görsel oluşturan model.
Bu modeller, gerçek zamanlı transkripsiyon, ses etkileşimleri ve görsel üretim uygulamaları için entegre bir ekosistem sağlıyor. Tüm modeller şu anda Microsoft Foundry’de genel ön izleme aşamasında.
MAI-Transcribe-1 Özellikleri
MAI-Transcribe-1, özellikle kurumsal ses tanıma iş yüklerine uygun. 25 farklı dili destekliyor ve farklı aksanları ile gerçek ortam seslerini işleyebiliyor. Model, benzerlerine kıyasla GPU maliyetini yarı yarıya düşürüyor. Bu sayede büyük ölçekli sistemlerde uygun maliyetle verimli kullanım sağlıyor.
Gerçek zamanlı transkripsiyon, çağrı merkezi analizleri, ses giriş sistemleri ve ses işleme zincirlerinde kullanılıyor. Ayrıca Microsoft Copilot’un ses modu ve dikte yeteneklerinde de görev yapıyor.
MAI-Voice-1 ile Hızlı ve Doğal Ses Üretimi
MAI-Voice-1, doğal ve ifadeli ses üretimine odaklanıyor. Tek bir GPU üzerinde 60 saniyeye kadar ses, 1 saniyeden kısa zamanda oluşturulabiliyor. Bu özellik, ses tabanlı uygulamalarda hızlı geri dönüş sağlıyor.
Konuşma ajanları, sesli asistanlar ve sesli içerik üretimi başlıca kullanım alanları arasında. Microsoft ekosisteminde Copilot’un ses deneyimleri ve podcast benzeri içeriklerde görev alıyor. Ayrıca Azure Speech ile kişisel ses oluşturma da mümkün olurken, bunun için sorumlu AI onay süreci uygulaması bulunuyor.
MAI-Image-2 ve Metinden Görsel Üretimi
MAI-Image-2, metin komutlarından kaliteli, fotogerçekçi görseller üretiyor. Gelişmiş metin yerleştirme ve karmaşık sahneleri yönetme yeteneğine sahip model, tasarımcılar, fotoğrafçılar ve görsel anlatıcıların geri bildirimleri ile geliştirildi.
Arena.ai sıralamasında üçüncü sıraya yükselen MAI-Image-2, tasarım fikirleri, pazarlama materyalleri ve ürün görselleştirmelerinde etkin şekilde kullanılıyor. Microsoft’un Copilot, Bing Image Creator ve PowerPoint gibi uygulamalarında da bu model etkin.
Kullanım ve Fiyatlandırma
MAI modellerine erişim sadece Microsoft Foundry üzerinden sağlanıyor. Ayrıca Azure Speech ile ses modelleri entegrasyonu yapılabiliyor. Deneyimler için MAI Playground ve uygulama geliştirme API’leri mevcut.
- MAI-Transcribe-1: Saatlik 0,36 dolar
- MAI-Voice-1: 1 milyon karakter için 22 dolar
- MAI-Image-2: Metin girişi için 1 milyon token başına 5 dolar; görsel çıktısı için 1 milyon token başına 33 dolar
Geliştiriciler, Playground’da modelleri deneyebilir ve üretime LinkedIn Foundry üzerinden geçebilir. Ayrıca ses klonlama gibi özellikler için Microsoft’un sorumlu AI kurallarına uyum gerekiyor.
