Warning: "continue" targeting switch is equivalent to "break". Did you mean to use "continue 2"? in /furanet/sites/piloto.foc.es/web/htdocs/wp-content/plugins/gravityforms/common.php on line 1121

Warning: "continue" targeting switch is equivalent to "break". Did you mean to use "continue 2"? in /furanet/sites/piloto.foc.es/web/htdocs/wp-content/plugins/gravityforms/common.php on line 1158

Warning: "continue" targeting switch is equivalent to "break". Did you mean to use "continue 2"? in /furanet/sites/piloto.foc.es/web/htdocs/wp-content/plugins/gravityforms/common.php on line 1162

Warning: "continue" targeting switch is equivalent to "break". Did you mean to use "continue 2"? in /furanet/sites/piloto.foc.es/web/htdocs/wp-content/plugins/gravityforms/common.php on line 1184

Warning: "continue" targeting switch is equivalent to "break". Did you mean to use "continue 2"? in /furanet/sites/piloto.foc.es/web/htdocs/wp-content/plugins/gravityforms/common.php on line 2853

Warning: "continue" targeting switch is equivalent to "break". Did you mean to use "continue 2"? in /furanet/sites/piloto.foc.es/web/htdocs/wp-content/plugins/gravityforms/common.php on line 2860

Warning: "continue" targeting switch is equivalent to "break". Did you mean to use "continue 2"? in /furanet/sites/piloto.foc.es/web/htdocs/wp-content/plugins/gravityforms/common.php on line 2873
La IA reconstruye rostros a través de la voz. | Instituto FOC - FP Informática Online
Instituto FOC – FP Informática Online

La IA reconstruye rostros a través de la voz.

Speech2Face es una herramienta creada por el laboratorio de Ciencias Informáticas e Inteligencia Artificial del MIT (MIT CSAIL) cuya función es determinar la edad, el género y la etnia de una persona mediante el habla.

La intención de sus creadores no es la reconstrucción perfecta de un rostro sino la asociación de características físicas con la voz. El objetivo es saber hasta qué punto es posible saber cómo es físicamente una persona a partir de su voz.

Speech2Face consiste en una red neuronal de aprendizaje entrenada mediante una base de datos abierta AVSpeech. Ésta la componen más de 100.000 fragmentos de voz de seis segundos. Además de esa base de datos, han hecho uso de VoxCeleb, la cual contiene millones de vídeos, de unas 7.000 personas famosas, publicados en Internet.

La imagen final es una persona de frente con un gesto neutro. El modelo de estudio va aprendiendo de la base de datos correlaciónales de audio y sonido entre las personas y sus caras. Se centra en edad, género y etnia pero también en otros factores como las medidas y proporciones craneofaciales. Todo este trabajo va supervisado.

Resultados:

Si quieres obtener más información sobre este proyecto echa un vistazo a la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR) 2019.