Inteligência Artificial supera seres humanos na leitura labial

Dois novos estudos mostram que uma máquina pode entender o que você está dizendo sem ouvir um som.

A leitura labial é notoriamente difícil, dependendo tanto do contexto e do conhecimento da linguagem, quanto das pistas visuais. Mas os pesquisadores estão mostrando que o aprendizado de máquina pode ser usado para discernir a fala de clipes de vídeo silenciosos até com mais eficácia do que os leitores profissionais de lábios.

Em um projeto, uma equipe do Departamento de Ciência da Computação da Universidade de Oxford desenvolveu um novo sistema de inteligência artificial chamado LipNet. Como Quartz informou, seu sistema foi construído em um conjunto de dados conhecido como GRID, que é composto de clipes bem iluminados, da face de pessoas lendo sentenças de três segundos. Cada sentença é baseada em uma sequência de palavras que seguem o mesmo padrão.

A equipe usou esse conjunto de dados para treinar uma rede neural, semelhante ao tipo geralmente usado para realizar o reconhecimento de fala. Nesse caso, no entanto, a rede neural identifica variações na forma da boca ao longo do tempo, aprendendo a vincular essas informações a uma explicação do que está sendo dito. A AI não analisa as imagens em trechos, mas considera a fala toda, permitindo que ela compreenda o contexto da frase que está sendo analisada. Isso é importante, porque há menos formas de boca do que sons produzidos pela voz humana.

Quando testado, o sistema conseguiu identificar 93,4% das palavras corretamente. Voluntários de leitura de lábios (humanos) solicitados a realizar as mesmas tarefas identificaram apenas 52,3% das palavras corretamente.

Mas, como relata a New Scientist, outra equipe do Departamento de Engenharia Científica de Oxford, que vem trabalhando com o Google DeepMind, resolveu uma tarefa bem mais difícil. Em vez de usar um conjunto de dados limpo e consistente, como o GRID, ele usa uma série de 100.000 videoclipes tirados da televisão da BBC. Esses vídeos têm uma gama de idiomas muito mais ampla, com muito mais variações de iluminação e posições de cabeça.

Usando uma abordagem semelhante, a equipe da Oxford e da DeepMind conseguiu criar uma AI capaz de identificar corretamente 46,8% de todas as palavras. Isso também é muito melhor do que os humanos, que registraram apenas 12,4% das palavras sem erros. Existem muitas razões pelas quais a precisão é menor, desde a iluminação e orientação até a maior complexidade da linguagem.

Diferenças à parte, ambos os experimentos mostram que a IA supera em muito os seres humanos na leitura dos lábios, e não é difícil imaginar aplicações potenciais para tal software. No futuro, o Skype poderia preencher as lacunas quando um chamador estivesse em um ambiente barulhento, digamos, ou as pessoas com dificuldades auditivas pudessem segurar o smartphone para “ouvir” o que alguém está dizendo.

(Mais sobre o assunto: Quartz, New Scientist, Oxford Machine Learning Reading Group, arXiv, “The Challenges and Threats of Automated Lip Reading”)

Este artigo é uma tradução de AI Has Beaten Humans at Lip-reading escrito por Jamie Condliffe.

Pesquisar este blog

Edson Pacholok - Ciência da Computação