Microsoft VibeVoice-ASR Uzun Ses Kayıtlarında Yüksek Doğruluk Sağlıyor
Microsoft, uzun süredir üzerinde çalıştığı VibeVoice projesini geliştirmeyi sürdürüyor. Yeni model VibeVoice-ASR, uzun ses kayıtlarını bağlam kaybı olmadan işleyebilme özelliğiyle dikkat çekiyor. Geleneksel sistemlerin aksine, VibeVoice-ASR ses dosyalarını küçük parçalara bölmeden, tek bağlam penceresinde analiz edebiliyor. Bu yöntem, özellikle podcast, mahkeme kayıtları veya uzun görüşme kayıtlarında konuşmacı geçişi ve duygusal tonlamaları koruma konusunda yüksek doğruluk sunuyor.

VibeVoice-ASR, artık Azure AI Foundry (eski adıyla Azure AI Studio) platformunda erişime açılmış durumda. Bu gelişme, profesyonel yayıncılar ve geliştiriciler için modelin doğrudan kullanılabilir olmasını sağlıyor. Ayrıca VibeVoice, Hugging Face Transformers kütüphanesine entegre edilerek küresel geliştirici topluluğu tarafından daha geniş bir şekilde kullanılabilir hale geldi.
VibeVoice-Realtime ile Canlı Çeviri Performansı Artıyor
VibeVoice-Realtime sürümü, canlı ve eş zamanlı çeviri uygulamaları için gecikme süresini 300 milisaniyeye kadar düşürdü. Bu sayede insan tepki süresine oldukça yakın bir performans elde edildi. Dört farklı ses kanalını eş zamanlı ayrıştırabilen model, özellikle toplantı, canlı yayın, simültane çeviri ve altyazı sistemlerinde verimliliği artırıyor.
Uzmanlara göre VibeVoice, sesli asistanlar ve toplantı özetleme araçları gibi birçok uygulamada yeni standartlar oluşturabilir. Microsoft’un bu teknolojisi, yapay zekânın sadece ne söylendiğini değil, nasıl ve kim tarafından söylendiğini de yüksek doğrulukla analiz etmesini sağlıyor.



