Dicas

Voicebox: A IA Mais Versátil para Geração de Fala da Meta

Publicado por:

A Meta anunciou hoje uma inovação na IA generativa por fala. Eles desenvolveram o Voicebox, um modelo de IA de última geração capaz de realizar tarefas com a voz humana, como edição, amostragem e estilização. E que não foram especificamente treinadas por meio de aprendizado contextual.

O Voicebox pode produzir clipes de áudio de alta qualidade e editar áudio pré-gravado – como remover buzinas de carros ou o latido de um cachorro – preservando o conteúdo e o estilo do áudio. O modelo também é multilíngue e pode produzir falas em seis idiomas.

Olá a todos: a voz do narrador principal é a de Mark Zuckenberg, o CEO da Meta. Imagina poder falar com a voz dele…

Pra onde vamos com a IA generativa como o Voicebox?

No futuro, modelos de IA generativos versáteis, como o Voicebox, poderiam fornecer vozes naturais para assistentes virtuais e personagens de jogo no metaverso. Eles poderiam permitir que pessoas com deficiência visual ouçam mensagens escritas de amigos, lidas por IA em suas vozes. Ou fornecer novas ferramentas para criadores em diversos campos artísticos a editarem facilmente faixas de áudio para vídeos e muito mais.

Leia também: Mercedes-Benz está levando o controle de voz para dentro do carro a um novo nível com o ChatGPT

Em Ótimo Estar

A versatilidade do Voicebox possibilita uma variedade de tarefas, incluindo:

Síntese de texto para fala em contexto

Usando uma amostra de áudio com apenas dois segundos de duração, o Voicebox pode combinar o estilo do áudio e usá-lo para geração de texto para fala.

Voicebox faz edição de fala e redução de ruído

o Voicebox pode recriar uma parte de fala interrompida por ruído ou substituir palavras ditas incorretamente sem precisar gravar todo o discurso novamente. Por exemplo, você pode identificar um segmento de um discurso interrompido pelo latido de um cachorro, recortá-lo e instruir o Voicebox a regenerar aquele segmento – como uma borracha para edição de áudio.

Transferência de estilo entre idiomas

Ao fornecer uma amostra da fala de alguém, e um trecho de texto em inglês, francês, alemão, espanhol, polonês ou português, o Voicebox pode produzir uma leitura do texto em qualquer um desses idiomas. Mesmo quando a fala da amostra e o texto estão em idiomas diferentes. Essa capacidade poderá ser usada no futuro para ajudar as pessoas a se comunicarem de maneira natural e autêntica. Mesmo que não falem os mesmos idiomas.

Amostragem de fala diversificada

Tendo aprendido a partir de dados diversos, o Voicebox pode gerar voz que é mais representativa de como as pessoas falam no mundo real. E, também, nos seis idiomas mencionados acima.

Ótimo Estar continuará a cobrir as ferramentas de IA generativas ligadas a voz

O Voicebox é um avanço importante na pesquisa de IA generativa. Esperamos continuar a ver novas inovações nesta área, e continuaremos a cobrir as explorações no campo do áudio e voz. E, claro, ver como outros pesquisadores desenvolverão esses trabalhos daqui para frente.

Por fim, leia também: Usa o WhatsApp e prefere receber textos em vez de áudio? Venha comigo!

Modificada pela última vez em 23/06/2023 00:24

Rodrigo Goldstein

Formado em comunicação social, com especialização em cinema pela UFF, Rodrigo trabalhou nas áreas de artes plásticas, publicidade, arquitetura e engenharia ambiental. Tem formação em pós graduação na Alemanha em mídias eletrônicas.

Deixe o seu comentário ou sugestâo

O nosso site usa cookies

Ler mais