Mistral AI kurumsal kullanım için tasarlanmış Voxtral TTS metinden sese dönüştürme modelini piyasaya sürdü. Paris merkezli yapay zeka girişimi model ağırlıklarını açık olarak paylaşıyor. Bu alandaki her büyük rakip tescilli API öncelikli bir iş modeli yürütürken Mistral tam model ağırlıklarını yayınlıyor. Kurumsal şirketler modeli indirerek kendi sunucularında çalıştırabiliyor. Tek bir ses karesini dahi üçüncü bir tarafa göndermemesi gerekiyor. Mistral yapay zekanın geleceğinin en iyi ses veren modeli geliştiren tarafından değil şirketlere bu konuda en fazla kontrolü sağlayan tarafından şekillendirileceğine bahsediyor.
Voxtral TTS 3,4 milyar parametreye sahip. Sektör standardından yaklaşık üç kat daha küçük. Model tipik bir giriş için 90 milisaniyelik bir ilk ses üretme süresi elde ediyor. Konuşmayı gerçek zamanlı hızın yaklaşık altı katı hızında üretiyor. Nicelleştirildiğinde yaklaşık üç gigabayt RAM gerektiriyor. Herhangi bir dizüstü bilgisayar veya akıllı telefonda çalışabiliyor. Hatta eski donanımlarda bile gerçek zamanlı olarak çalışabiliyor. Model İngilizce Fransızca Almanca İspanyolca Felemenkçe Portekizce İtalyanca Hintçe ve Arapça olmak üzere dokuz dili destekliyor.
Kalite ve kişiselleştirme

Mistral tarafından yapılan insan değerlendirmelerinde Voxtral TTS ElevenLabs Flash v2.5'e karşı yüzde 62,8'lik bir dinleyici tercih oranı elde etti. Ses özelleştirme görevlerinde yüzde 69,9'luk bir tercih oranı elde etti. Model yalnızca beş saniyelik referans ses kaydıyla özel bir sese uyum sağlayabiliyor. Sıfır denemeyle diller arası ses uyarlaması gösterebiliyor. Modele Fransız aksanlı ses verilse ve Almanca komut yazılsa model doğal aksanı ve ses özellikleriyle birlikte Almanca konuşma üretebiliyor. Sınır ötesi faaliyet gösteren işletmeler için bu özellik konuşmacının kimliğini koruyan çeviri olanağı sağlıyor.
Mistral'in neden sesli yapay zeka pazarına girdiğini anlamak için şirketin son bir yıldır inşa ettiği geniş stratejik mimariyi anlamanız gerekiyor. CEO Arthur Mensch şirketin bu yıl yıllık yinelenen gelirde 1 milyar doları aşma yolunda olduğunu söyledi. Mistral'in yıllık gelir oranı tek bir yıl içinde 20 milyon dolardan 400 milyon dolarının üzerine çıktı. Voxtral TTS bu tezin son ifadesidir. Ses kayıtları sadece kelimeleri değil duyguları kimliği ve niyeti de yakalar.
Veri egemenliği ve kurumsal kontrol
Finansal hizmetler sağlık hizmetleri ve kamu sektörü için ses verilerini üçüncü taraf bir API'ye göndermek uyumluluk açısından risk oluşturuyor. Mistral açık ağırlık yaklaşımı bu endişeleri ele alıyor. Veri egemenliği argümanı özellikle Avrupa'da güçlü yankı uyandırıyor. AB dijital hizmetlerinin yüzde 80'inden fazlasını yabancı sağlayıcılardan temin ediyor. Mistral güvenilir bir alternatif sunabilecek ölçek ve teknik kapasiteye sahip tek Avrupalı öncü yapay zeka geliştiricisi. Sesli asistanlar Mistral'in tüm yapay zeka altyapısının tam olarak yerine oturduğu kurumsal kullanım örneğidir.
Stock Voxtral TTS'den sonra dil ve lehçe desteğini genişletmeyi planlıyor. Kültürel nüanslara dikkat etmeyi hedefliyor. Daha iddialı yaklaşım metinden konuşma üretimle kalmayıp insan sesli iletişiminin tüm yelpazesini anlayan uçtan uca bir ses modeli geliştirmek. Doğal konuşan incelikli dinleyen duygusal zekayla yanıt veren bir yapay zeka vizyonu her büyük yapay zeka laboratuvarının ulaşmaya çalıştığı sınırdır.