AVATAR
(CAptura de MoVimiento
Avanzada en EnTornos
Animados Foto-Realisticos)

Participantes:
EPTRON, S.A 
Unitat de Gráfics i Visió (UIB)

Introducción.

De todos es conocido que los avances acontecidos en los últimos años en el campo de los gráficos computerizados ha sido espectacular. El vertiginoso aumento de las prestaciones de los dispositivos hardware, la intensa reducción del precio de dichos elementos y la aparición de novedosas herramientas software en el ámbito del modelado 3D han permitido que las prestaciones gráficas que anteriormente solo estaban disponibles para las estaciones de trabajo de alta gama o incluso los superordenadores especializados, estén hoy en día al alcance de cualquier usuario doméstico. Cada día es mas habitual encontrar en entornos domésticos los elementos necesarios para ejecutar lo que hace solo unos pocos años serían consideradas impresionantes aplicaciones gráficas tales como innovadores mundos virtuales, impactantes juegos, o complicados programas de simulación. Hoy en día, la producción de aplicaciones gráficas de alta calidad, bien en el ámbito del sector multimedia, broadcast o producción de vídeo juegos es mas eficiente y prometedor que nunca desde el punto de vista económico.
El desarrollo de animaciones por ordenador, por el contrario, no se han desarrollado al mismo ritmo que el resto de aplicaciones gráficas hasta la aparición de una nueva generación de herramientas basadas en técnicas de captura de movimiento (en lo sucesivo MOCAP). La animación por métodos manuales, donde cada movimiento debe ser programado de forma específica por un operador humano es tremendamente costosa y requiere largos tiempos de desarrollo. Los resultados dependen de la habilidad del animador gráfico en cuestión y las animaciones creadas con frecuencia adolecen de falta de naturalidad.
Las técnicas de captura de movimiento (MOCAP) reducen de forma significativa el esfuerzo necesario para producir animaciones tridimensionales complejas. El tiempo de desarrollo se convierte en una fracción del necesario mediante las técnicas convencionales y los resultados poseen mucha mayor naturalidad.Hasta el momento se han desarrollado varias técnicas MOCAP con el objetivo de conseguir captura de movimientos faciales. Las técnicas mas novedosas y probablemente mas atractivas están basadas en métodos ópticos. En este caso se utiliza una cámara de vídeo en miniatura que se acopla a una especie de casco lo que permite adquirir imágenes de un actor que lleva unos marcadores reflectantes especiales sobre el rostro.
Mediante técnicas de visión artificial, se detecta la posición de cada marcador en la cara del actor y se asocia este movimiento con unos puntos de referencia en un modelo 3D sintético disponible previamente. Cuando los marcadores físicos en la cara del actor se mueven, el sistema de visión artificial detecta el movimiento que a su vez es convertido en un movimiento proporcional del marcador en el modelo sintético. Puesto que las imágenes son tomadas a alta velocidad mediante HW especializado, el movimiento sintético obtenido reproduce con una alta fiabilidad el movimiento real del actor, con lo que es posible realizar animaciones tridimensionales de alta calidad en un tiempo récord.
Sin embargo, a pesar de que los beneficios de la tecnología son claros, tiene algunos inconvenientes que hasta el momento ha hecho imposible utilizarla en aplicaciones masivas para el mercado domestico. Las aproximaciones actuales requieren complicados procedimientos de manejo, un elevado coste del sistema y una situación poco confortable para el usuario del equipo.
El mercado al que tradicionalmente han estado dirigidas las técnicas MOCAP se refiere a aplicaciones profesionales en el ámbito del modelado 3D, pero es posible que en un futuro inmediato, las ventajas mas importantes de las técnicas MOCAP puedan obtenerse gracias a la posibilidad de construir Interfaces de usuario innovadores basados en personajes animados con aspecto cuasi-real que pueden proporcionar nuevos métodos de interacción hombre maquina o incluso sesiones de comunicación entre distintos usuarios que puedan sustituir a los métodos tradicionales tales como la videoconferencia.
Uno de los grandes problemas de las técnicas MOCAP que ha retrasado su popularización en el mercado es la falta de estandarización. En este momento cada fabricante de un sistema de captura de movimiento dispone de su propio formato que es incompatible con todos los demás. Esto evidentemente provoca situaciones no deseadas y un aumento significativo del precio final del servicio.
Sin embargo esta situación puede cambiar drásticamente con la aparición del nuevo estándar de comunicaciones MPEG4. MPEG4 no es solo una evolución de los anteriores estándares MPEG2 y MPEG3 si no que supone una importante extensión del ámbito de actuación del estándar que permite considerarlo como un autentico estándar multimedia que engloba el manejo de la mayoría de las fuentes de datos de este sector, incluyendo por supuesto MOCAP.
En este sentido, cualquier aplicación compatible con MPEG4 será en principio compatible con un amplio abanico de productos comerciales de todos los ámbitos: browsers, paquetes de modelado 3D, juegos, etc.
Pero volvamos al objetivo principal de la presente propuesta de proyecto. Hace tiempo que se sabe que el método de comunicación por excelencia entre los seres humanos está basado tanto en el sonido como en la gesticulación facial e incluso la propia actitud corporal de los protagonistas de la conversación. Los gestos, la mirada, las reacciones reflejas, en una palabra la expresividad es crucial para el intercambio de ideas en multitud de actividades humanas.
No se puede concebir de forma natural una conferencia impartida por un científico respetado, un discurso político o incluso un debate importante sin las expresiones faciales que acompañan al discurso hablado. Sin embargo cada día es mas difícil satisfacer el incesante incremento de la necesidad de llevar a cabo este tipo de actividades sin la presencia física de los protagonistas. La mayoría de las veces no es posible atender todos los compromisos necesarios o simplemente al sujeto en cuestión no le apetecen las molestias que suponen un traslado a un lugar remoto con el único fin de dar una conferencia o hacer una presentación que a veces dura tan solo unos pocos minutos. No hay que subestimar tampoco el coste asociado a este tipo de desplazamientos. En todos estos casos, la única alternativa válida es la Tele-presencia.
Las tecnologías actualmente disponibles basadas sistemas de videoconferencia de baja velocidad no son siquiera un mal sustituto de la presencia física. Por otra parte los sistemas de videoconferencia profesionales, tienen un precio prohibitivo, y rara vez se dispone de la infraestructura de comunicaciones necesaria para hacerlos funcionar en condiciones adecuadas.
Sin embargo, la convergencia de las técnicas MOCAP, visión artificial tridimensional y las técnicas de animación de personajes 3D hacen posible el diseño de nuevas aproximaciones al problema descrito con grandes posibilidades de éxito. En este sentido, es posible llevar a cabo sesiones de Tele-presencia de alta calidad utilizando personajes 3D animados en tiempo real mediante la transmisión de datos MOCAP obtenidos desde un lugar remoto. Esta aproximación resuelve como veremos posteriormente la mayoría de las dificultades encontradas en los métodos tradicionales, bien sean de alta o de baja gama.
Por otra parte, la combinación de las técnicas MOCAP con las nuevas tecnologías de comunicación recientemente aparecidas, tales como MPEG4, hacen posibles nuevas opciones no contempladas anteriormente. Esto es especialmente interesante en el ámbito de aplicaciones basadas en la infraestructura de Internet que a pesar de las mejoras alcanzadas en los pasados años, se encuentra muy lejos de proporcionar los requisitos mínimos requeridos por los sistemas de videoconferencia tradicionales.
Las técnicas propuestas en este proyecto, por el contrario, se basan en la tecnología disponible actualmente y pueden aprovechar al máximo la ventaja que suponen los reducidos requisitos de ancho de banda necesarios para hacer funcionar la aplicación.
Una de las limitaciones de los sistemas MOCAP actuales es el uso exclusivo de personajes animados sintéticos, que son muy apreciados en determinado tipo de aplicaciones, pero que no pueden cubrir el caso de usuarios que deseen utilizar personajes de aspecto real. Este ultimo criterio puede ser fundamental para el uso de la tecnología en aplicaciones tan interesantes como la Tele-presencia o los chat-rooms.
Otro de los grandes objetivos del proyecto es pues el desarrollo de una herramienta comercial capaz de obtener modelos faciales 3D foto-realistas (digitalización 3D) a partir de un par de fotografías tomadas con ángulos ligeramente distintos. No es necesario mencionar el interés de poseer una herramienta que permita a cualquier usuario domestico construir un modelo 3D que refleje fielmente su aspecto real sin necesidad de que disponga de sofisticados elementos hardware.
Puesto que en definitiva, se trata de un modelo 3D computerizado, es posible manipular dicho modelo de múltiples formas, girarlo, aumentar su tamaño, observar detalles desde cualquier ángulo, incorporarlo a otros escenarios 3D, etc. Las aplicaciones de dicha herramienta son infinitas: customización de vídeo juegos, producción de películas, televisión, aplicaciones educativas a distancia, etc.
Se puede utilizar, por su puesto, en combinación con el sistema de captura de movimiento anteriormente citado, de manera que los datos de captura de movimiento son utilizados para animar dicho modelo foto-realista. Esto último se puede hacer en tiempo real o bien en diferido. Por otra parte es posible aplicar datos de captura de movimiento ya disponibles a cualquier tipo de modelo que se desee. Esto permite realizar aplicaciones tales como presentaciones de empresa, interfaces para kioscos interactivos, espectáculos en vivo para televisión o parques de atracciones, etc.
Hay por lo tanto una necesidad clara para el desarrollo de un sistema de captura de movimiento facial con aspecto foto-realista que pueda ser usado por usuarios no especializados en escenarios no controlados. Se requiere pues un importante esfuerzo de investigación y desarrollo para desarrollar nuevas técnicas de visión artificial y nuevos esquemas de comunicaciones que solucionando las limitaciones de los sistemas actuales, permitan acometer las aplicaciones demandadas por el mercado.
Como aplicación piloto o demostrador, se ha elegido la implementación de un sistema de Tele-conferencia basado el nuevo estándar MPEG4. Aparte del innegable interés que suscita la adquisición de conocimientos y experiencia que requiere dicho estándar de comunicaciones, el nuevo sistema de Tele-conferencia supone un novedoso producto con amplia aplicación en el mercado domestico y con ventajas especialmente significativas en el campo de las aplicaciones basadas en redes Internet de baja velocidad (es decir la mayoría de las redes disponibles hoy en día).

Podemos decir como conclusión que la integración de las tecnologías antes mencionadas posee unas amplias posibilidades de aplicación en múltiples sectores. Uno de los mas interesantes desde el punto de vista tecnológico es la aplicación de Tele-conferencia propuesta, pero hay una gran cantidad de aplicaciones potenciales que serán desarrolladas en un futuro próximo: En este momento y tras contactos preliminares, ya hay empresas como Telefónica o Madritel interesadas en incorporar el sistema propuesto a sus servicios de valor añadido. Es de destacar por último que la presente propuesta de proyecto se inscribe dentro de los objetivos marcados en el plan nacional de I+D y en el V programa marco de la Unión Europea, abarcado temas de interés relevante tales como: estándares de telecomunicaciones, Visión Artificial, multimedia, servicios de valor añadido en Internet y televisión por cable, modelado gráfico 3D, etc. Para mas detalles consultar la pagina del coordinador. Dr. Francisco J. Perales e-mail: paco.perales@uib.es