escuro
Francisco é a voz neural da Microsoft em português

Francisca é a voz neural da Microsoft em português

Voz de Francisca é suportada no novo Microsoft Edge. Solução tem a prosódia natural humana das vozes criadas em outros idiomas

A Microsoft anunciou a expansão das vozes neurais TTS no Azure, sua plataforma de inteligência artificial, disponíveis com a Francisca, nova voz em português do Brasil. Segundo a empresa, a solução apresenta a mesma prosódia (emprego correto da acentuação tônica das palavras) natural humana das outras vozes criadas em outros idiomas.

A voz de Francisca agora é suportada no novo Microsoft Edge, disponibilizando vozes naturais a qualquer hora e em qualquer lugar, explicou a empresa. Com um poderoso modelo base, criado utilizando um grande volume de amostras de fala, a Microsoft conseguiu criar a voz da Francisca a partir de menos dados de treinamento do que seria necessário.

O modelo de base TTS neural aprende diferentes estilos de fala de vários alto-falantes e, por meio do aprendizado por transferência, pode facilmente adaptar seu estilo ao tipo de alto-falante desejado, de acordo com a Microsoft.

Como outras vozes neurais, a Francisca pode gerar ondas de fala realistas para uma determinada entrada de texto, combinando os padrões de transição de emoção e entonação na linguagem falada.

Além da capacidade de sintetizar a fala, os desenvolvedores também podem adaptar a voz para diferentes cenários com diversos estilos de voz usando o TTS neural. Por exemplo, a nova voz pt-BR também pode falar com um tom “alegre”. O estilo “alegre” pode ser usado para expressar uma emoção positiva e feliz. Segundo a Microsoft, isso é particularmente útil em cenários de bot de bate-papo.

Para avaliar a naturalidade de Francisca, a Microsoft realizou estudos de MOS (Mean Opinion Score). Em um teste de crowdsourcing com mais de 60 falantes nativos, foram examinados 30 áudios produzidos por Francisca no estilo neutro e outros 30 no estilo alegre.

As impressões gerais foram classificadas em uma escala Likert de 1 a 5, com naturalidade nas variações de ritmo, variações de afinação, tensões, pausas e inteligibilidade. A fala humana e a voz pt-BR de outro provedor de serviços em nuvem (empresa X) foram usadas como benchmarks. Os resultados mostraram um feedback muito positivo sobre a Francisca nos estilos neutro (4,44) e alegre (4,38).

A Microsoft contou que o Text to Speech possui mais de 75 vozes padrão em mais de 45 idiomas e localidades, além de uma crescente lista de vozes neurais. Saiba mais sobre como você pode utilizar.

Total
6
Shares
Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts Relacionados
Total
6
Share