A Microsoft anunciou a expansão das vozes neurais TTS no Azure, sua plataforma de inteligência artificial, disponíveis com a Francisca, nova voz em português do Brasil. Segundo a empresa, a solução apresenta a mesma prosódia (emprego correto da acentuação tônica das palavras) natural humana das outras vozes criadas em outros idiomas.
A voz de Francisca agora é suportada no novo Microsoft Edge, disponibilizando vozes naturais a qualquer hora e em qualquer lugar, explicou a empresa. Com um poderoso modelo base, criado utilizando um grande volume de amostras de fala, a Microsoft conseguiu criar a voz da Francisca a partir de menos dados de treinamento do que seria necessário.
O modelo de base TTS neural aprende diferentes estilos de fala de vários alto-falantes e, por meio do aprendizado por transferência, pode facilmente adaptar seu estilo ao tipo de alto-falante desejado, de acordo com a Microsoft.
Como outras vozes neurais, a Francisca pode gerar ondas de fala realistas para uma determinada entrada de texto, combinando os padrões de transição de emoção e entonação na linguagem falada.
Além da capacidade de sintetizar a fala, os desenvolvedores também podem adaptar a voz para diferentes cenários com diversos estilos de voz usando o TTS neural. Por exemplo, a nova voz pt-BR também pode falar com um tom “alegre”. O estilo “alegre” pode ser usado para expressar uma emoção positiva e feliz. Segundo a Microsoft, isso é particularmente útil em cenários de bot de bate-papo.
Para avaliar a naturalidade de Francisca, a Microsoft realizou estudos de MOS (Mean Opinion Score). Em um teste de crowdsourcing com mais de 60 falantes nativos, foram examinados 30 áudios produzidos por Francisca no estilo neutro e outros 30 no estilo alegre.
As impressões gerais foram classificadas em uma escala Likert de 1 a 5, com naturalidade nas variações de ritmo, variações de afinação, tensões, pausas e inteligibilidade. A fala humana e a voz pt-BR de outro provedor de serviços em nuvem (empresa X) foram usadas como benchmarks. Os resultados mostraram um feedback muito positivo sobre a Francisca nos estilos neutro (4,44) e alegre (4,38).
A Microsoft contou que o Text to Speech possui mais de 75 vozes padrão em mais de 45 idiomas e localidades, além de uma crescente lista de vozes neurais. Saiba mais sobre como você pode utilizar.