La IA reconstruye rostros a través de la voz.

Instituto FOC

hace 6 años

Speech2Face es una herramienta creada por el laboratorio de Ciencias Informáticas e Inteligencia Artificial del MIT (MIT CSAIL) cuya función es determinar la edad, el género y la etnia de una persona mediante el habla.

La intención de sus creadores no es la reconstrucción perfecta de un rostro sino la asociación de características físicas con la voz. El objetivo es saber hasta qué punto es posible saber cómo es físicamente una persona a partir de su voz.

Speech2Face consiste en una red neuronal de aprendizaje entrenada mediante una base de datos abierta AVSpeech. Ésta la componen más de 100.000 fragmentos de voz de seis segundos. Además de esa base de datos, han hecho uso de VoxCeleb, la cual contiene millones de vídeos, de unas 7.000 personas famosas, publicados en Internet.

La imagen final es una persona de frente con un gesto neutro. El modelo de estudio va aprendiendo de la base de datos correlaciónales de audio y sonido entre las personas y sus caras. Se centra en edad, género y etnia pero también en otros factores como las medidas y proporciones craneofaciales. Todo este trabajo va supervisado.

Resultados:

Se ha alcanzado un 94% de precisión en la determinación del género.
Resultados buenos en etnias blancas y asiáticas pero no tanto en la negra o india (puede deberse a su menor presencia en las bases de datos).
Los mejores resultados de los atributos craneofaciales se han encontrado en la nariz y en la boca, llegando así a la conclusión de que la estructura de la nariz determina el habla.

Si quieres obtener más información sobre este proyecto echa un vistazo a la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR) 2019.

Comparte esto: