"Microsoft dévoile VibeVoice, un modèle amélioré de synthèse vocale capable de générer des podcasts pour 32K personnes en quelques minutes!"
Share
Microsoft vient de lancer une version plus grande de son modèle de texte à la parole VibeVoice avec 10B de paramètres. Disponible sous licence MIT, il génère des podcasts multi-locuteurs (allant jusqu'à 45 minutes) en quelques minutes. Il prend en charge jusqu'à 32K de contexte.