Metinden konuşmaya teknolojisi tamamen yeni değil, her ne kadar dezavantajı, çoğu zaman teknolojinin mevcut yinelemesinin çok gerçekçi olmamasına rağmen. Bu, metinden konuşmaya gerçek insan konuşmalarını simüle etmeyi umuyorsanız, bunun yapılması oldukça zor bir görev olabilir.
Bununla birlikte, bu konuda oldukça fazla çaba sarfedildi ve daha yakın zamanda Microsoft‘un benzer bir şeyle ellerine girmeye çalıştığı görülüyor.
Temel fark, Microsoft’un modelinin aslında daha az eğitim gerektirmesiydi. Bu AI, 200 ses örneğine dayanarak gerçekçi ses çıkaran bir konuşma yaratabilecekleri Çinli araştırmacılar ile geliştirildi.
Bu, tanıdık olmayanlar için beynimizdeki nöronları taklit etmek için tasarlanmış derin sinir ağları olan Transformatörlere güvenerek gerçekleştirildi. Transformatörleri kullanarak bilgiyi daha verimli işlemesine yardımcı olur.
Şimdiye dek, sonuçlara dayanarak, yeni modelin kelime anlaşılabilirliği açısından %99,84 puan aldığı görülmesine rağmen GitHub’da yayınlanan örnekler üzerinden kendiniz için duyabileceğiniz biraz robotik olduğu söyleniyor.