A empresa Meta está avançando no campo da inteligência artificial, com diferentes iniciativas. Após o lançamento do modelo LLaMA, que recebeu a atenção de toda a comunidade Open Source, e o desenvolvimento do MusicGen, uma ferramenta geradora de música, a empresa agora apresenta um novo projeto inovador e até perigoso: o Voicebox.
E eu não estou exagerando ou usando um tom alarmista quando uso o termo “perigoso”. A própria Meta afirma que não vai deixar o Voicebox público por considerar a plataforma temerária para usos específicos.
E neste artigo, vou explicar todas as principais características do Voicebox, mostrando de forma mais clara porque ela é considerada perigosa para a humanidade.
Apresentando o Voicebox
O Voicebox é o primeiro modelo de Inteligência Artificial conversacional que é capaz de executar tarefas a partir do comando de voz sem treinamento específico, prometendo resultados excepcionais, que superam outros modelos existentes no mercado.
Uma das características mais impressionantes do Voicebox é a sua capacidade de converter texto em múltiplas vozes. Diferentemente de outros sistemas, ele dispensa o treinamento prévio de aprendizado da voz a ser reproduzida. Basta escrever uma frase que se deseja transformar em voz, e o sistema criará vozes sintetizadas em diferentes estilos, entre os quais poderemos escolher para a leitura do texto.
Além disso, o Voicebox possui uma funcionalidade mais “tradicional”, permitindo duplicar a voz de qualquer pessoa para que ela pronuncie qualquer frase. Basta adicionar um pequeno trecho de áudio, como o próprio da pessoa com apenas dois segundos de amostra da fala, juntamente com o texto desejado, e o modelo será capaz de gerar a frase com a voz do trecho de áudio.
Outra característica interessante do Voicebox é a sua capacidade de lidar com diferentes idiomas. É possível utilizar um texto escrito em qualquer idioma, acompanhado de um trecho de áudio no idioma nativo do usuário.
O Voicebox fará com que a frase seja “dita” no idioma escolhido, como se fosse a língua nativa do usuário. Essa funcionalidade é especialmente útil para superar barreiras linguísticas em diversos cenários.
Essa IA também tem a habilidade de detectar e eliminar ruídos de fundo indesejados, como o latido de um cachorro durante uma gravação de vídeo em que não se deseja que o ruído atrapalhe a fala.
Por que o Voicebox preocupa?
Os engenheiros da Meta treinaram o Voicebox com cerca de 50.000 horas de áudio de audiolivros em inglês e mais 60.000 horas de audiolivros em outros idiomas (incluindo o português de Portugal). Essa ampla variedade de treinamento resulta em vozes que soam como se estivessem lendo um livro, com entonação e sotaque perfeitos.
A Meta planeja evoluir o modelo para ter uma entonação mais informal, semelhante a uma conversação. Embora a empresa não tenha especificado quais audiolivros foram usados, um porta-voz afirmou que os conteúdos eram de domínio público.
Diante de tamanho potencial, o uso do Voicebox já gera preocupações nos especialistas em tecnologia.
Como acontece com muitas tecnologias de geração de voz, o Voicebox pode ser explorado para criar deepfakes, o que levou a Meta a tomar uma decisão importante: ao contrário do LLaMA, que é de código aberto e compartilhado com a comunidade acadêmica, a empresa optou por não disponibilizar o código dessa nova ferramenta de IA.
A Meta justifica que, devido aos possíveis usos inadequados, prefere continuar pesquisando a IA de forma responsável. No entanto, o estudo por trás do Voicebox foi compartilhado para manter a transparência em relação aos avanços nesse campo.