As vozes monótonas e sintetizadas dos assistentes virtuais parecem estar com os dias contados. A NVIDIA desenvolveu uma nova inteligência artificial (IA) que reproduz uma voz extremamente realista.
Usando a combinação de IA e gravações de referência humana, a “voz eletrônica” soa quase idêntica a de uma pessoa real. Durante o evento Interspeech 2021, a marca publicou um vídeo (em inglês) sobre o processo para criar a “voz natural”.
O vídeo mostra os recentes avanços do setor dedicado à pesquisa em tecnologias de voz da NVIDIA. Nesse projeto, os pesquisadores usaram uma versão do software open source NeMo otimizado para rodar nas placas de vídeo da marca.
Os especialistas equiparam a fala à música, apresentando ritmos, tons e timbres complexos que não são simples de replicar. Contudo, as novas ferramentas estão ajudando a reduzir as complexidades.
Com o machine learning, a IA é alimentada de duas formas. Primeiro, é usado um modelo de conversão de texto em fala em um discurso ditado por um humano. Depois, o software consegue pegar trechos da passagem e convertê-la em uma voz feminina.
O segundo método é a conversão direta de voz. A ferramenta usa um arquivo de áudio de uma pessoa falando e converte a voz em uma inteligência artificial, combinando padrões e entonações.
Nova IA da Nvidia poderá ser aplicada em projetos de acessibilidade.Fonte: Nvidia/Divulgação
IA narradora da próxima série da NVIDIA
Mostrando o alto nível da descoberta, a IA da Nvidia será a narradora da série de vídeos I Am A.I. (Eu sou uma IA, em tradução livre). O projeto mostrará a influência e os impactos do machine learning em vários setores.
A marca também quer provar que a nova tecnologia tem potencial para ir muito além. Por exemplo, a ferramenta pode ajudar pessoas com deficiências vocais ou colaborar para que os usuários realizem tradução entre idiomas usando a própria voz.
Source link