AVATAR
(CAptura de MoVimiento
Avanzada en EnTornos
Animados Foto-Realisticos)
Introducción.
De todos es conocido que los avances acontecidos en los
últimos años en el campo de los gráficos computerizados
ha sido espectacular. El vertiginoso aumento de las prestaciones de los
dispositivos hardware, la intensa reducción del precio de dichos
elementos y la aparición de novedosas herramientas software en el
ámbito del modelado 3D han permitido que las prestaciones gráficas
que anteriormente solo estaban disponibles para las estaciones de trabajo
de alta gama o incluso los superordenadores especializados, estén
hoy en día al alcance de cualquier usuario doméstico. Cada
día es mas habitual encontrar en entornos domésticos los
elementos necesarios para ejecutar lo que hace solo unos pocos años
serían consideradas impresionantes aplicaciones gráficas
tales como innovadores mundos virtuales, impactantes juegos, o complicados
programas de simulación. Hoy en día, la producción
de aplicaciones gráficas de alta calidad, bien en el ámbito
del sector multimedia, broadcast o producción de vídeo juegos
es mas eficiente y prometedor que nunca desde el punto de vista económico.
El desarrollo de animaciones por ordenador, por el contrario,
no se han desarrollado al mismo ritmo que el resto de aplicaciones gráficas
hasta la aparición de una nueva generación de herramientas
basadas en técnicas de captura de movimiento (en lo sucesivo MOCAP).
La animación por métodos manuales, donde cada movimiento
debe ser programado de forma específica por un operador humano es
tremendamente costosa y requiere largos tiempos de desarrollo. Los resultados
dependen de la habilidad del animador gráfico en cuestión
y las animaciones creadas con frecuencia adolecen de falta de naturalidad.
Las técnicas de captura de movimiento (MOCAP)
reducen de forma significativa el esfuerzo necesario para producir animaciones
tridimensionales complejas. El tiempo de desarrollo se convierte en una
fracción del necesario mediante las técnicas convencionales
y los resultados poseen mucha mayor naturalidad.Hasta el momento se han
desarrollado varias técnicas MOCAP con el objetivo de conseguir
captura de movimientos faciales. Las técnicas mas novedosas y probablemente
mas atractivas están basadas en métodos ópticos. En
este caso se utiliza una cámara de vídeo en miniatura que
se acopla a una especie de casco lo que permite adquirir imágenes
de un actor que lleva unos marcadores reflectantes especiales sobre el
rostro.
Mediante técnicas de visión artificial,
se detecta la posición de cada marcador en la cara del actor y se
asocia este movimiento con unos puntos de referencia en un modelo 3D sintético
disponible previamente. Cuando los marcadores físicos en la cara
del actor se mueven, el sistema de visión artificial detecta el
movimiento que a su vez es convertido en un movimiento proporcional del
marcador en el modelo sintético. Puesto que las imágenes
son tomadas a alta velocidad mediante HW especializado, el movimiento sintético
obtenido reproduce con una alta fiabilidad el movimiento real del actor,
con lo que es posible realizar animaciones tridimensionales de alta calidad
en un tiempo récord.
Sin embargo, a pesar de que los beneficios de la tecnología
son claros, tiene algunos inconvenientes que hasta el momento ha hecho
imposible utilizarla en aplicaciones masivas para el mercado domestico.
Las aproximaciones actuales requieren complicados procedimientos de manejo,
un elevado coste del sistema y una situación poco confortable para
el usuario del equipo.
El mercado al que tradicionalmente han estado dirigidas
las técnicas MOCAP se refiere a aplicaciones profesionales en el
ámbito del modelado 3D, pero es posible que en un futuro inmediato,
las ventajas mas importantes de las técnicas MOCAP puedan obtenerse
gracias a la posibilidad de construir Interfaces de usuario innovadores
basados en personajes animados con aspecto cuasi-real que pueden proporcionar
nuevos métodos de interacción hombre maquina o incluso sesiones
de comunicación entre distintos usuarios que puedan sustituir a
los métodos tradicionales tales como la videoconferencia.
Uno de los grandes problemas de las técnicas MOCAP
que ha retrasado su popularización en el mercado es la falta de
estandarización. En este momento cada fabricante de un sistema de
captura de movimiento dispone de su propio formato que es incompatible
con todos los demás. Esto evidentemente provoca situaciones no deseadas
y un aumento significativo del precio final del servicio.
Sin embargo esta situación puede cambiar drásticamente
con la aparición del nuevo estándar de comunicaciones MPEG4.
MPEG4 no es solo una evolución de los anteriores estándares
MPEG2 y MPEG3 si no que supone una importante extensión del ámbito
de actuación del estándar que permite considerarlo como un
autentico estándar multimedia que engloba el manejo de la mayoría
de las fuentes de datos de este sector, incluyendo por supuesto MOCAP.
En este sentido, cualquier aplicación compatible
con MPEG4 será en principio compatible con un amplio abanico de
productos comerciales de todos los ámbitos: browsers, paquetes de
modelado 3D, juegos, etc.
Pero volvamos al objetivo principal de la presente propuesta
de proyecto. Hace tiempo que se sabe que el método de comunicación
por excelencia entre los seres humanos está basado tanto en el sonido
como en la gesticulación facial e incluso la propia actitud corporal
de los protagonistas de la conversación. Los gestos, la mirada,
las reacciones reflejas, en una palabra la expresividad es crucial para
el intercambio de ideas en multitud de actividades humanas.
No se puede concebir de forma natural una conferencia
impartida por un científico respetado, un discurso político
o incluso un debate importante sin las expresiones faciales que acompañan
al discurso hablado. Sin embargo cada día es mas difícil
satisfacer el incesante incremento de la necesidad de llevar a cabo este
tipo de actividades sin la presencia física de los protagonistas.
La mayoría de las veces no es posible atender todos los compromisos
necesarios o simplemente al sujeto en cuestión no le apetecen las
molestias que suponen un traslado a un lugar remoto con el único
fin de dar una conferencia o hacer una presentación que a veces
dura tan solo unos pocos minutos. No hay que subestimar tampoco el coste
asociado a este tipo de desplazamientos. En todos estos casos, la única
alternativa válida es la Tele-presencia.
Las tecnologías actualmente disponibles basadas
sistemas de videoconferencia de baja velocidad no son siquiera un mal sustituto
de la presencia física. Por otra parte los sistemas de videoconferencia
profesionales, tienen un precio prohibitivo, y rara vez se dispone de la
infraestructura de comunicaciones necesaria para hacerlos funcionar en
condiciones adecuadas.
Sin embargo, la convergencia de las técnicas MOCAP,
visión artificial tridimensional y las técnicas de animación
de personajes 3D hacen posible el diseño de nuevas aproximaciones
al problema descrito con grandes posibilidades de éxito. En este
sentido, es posible llevar a cabo sesiones de Tele-presencia de alta calidad
utilizando personajes 3D animados en tiempo real mediante la transmisión
de datos MOCAP obtenidos desde un lugar remoto. Esta aproximación
resuelve como veremos posteriormente la mayoría de las dificultades
encontradas en los métodos tradicionales, bien sean de alta o de
baja gama.
Por otra parte, la combinación de las técnicas
MOCAP con las nuevas tecnologías de comunicación recientemente
aparecidas, tales como MPEG4, hacen posibles nuevas opciones no contempladas
anteriormente. Esto es especialmente interesante en el ámbito de
aplicaciones basadas en la infraestructura de Internet que a pesar de las
mejoras alcanzadas en los pasados años, se encuentra muy lejos de
proporcionar los requisitos mínimos requeridos por los sistemas
de videoconferencia tradicionales.
Las técnicas propuestas en este proyecto, por
el contrario, se basan en la tecnología disponible actualmente y
pueden aprovechar al máximo la ventaja que suponen los reducidos
requisitos de ancho de banda necesarios para hacer funcionar la aplicación.
Una de las limitaciones de los sistemas MOCAP actuales
es el uso exclusivo de personajes animados sintéticos, que son muy
apreciados en determinado tipo de aplicaciones, pero que no pueden cubrir
el caso de usuarios que deseen utilizar personajes de aspecto real. Este
ultimo criterio puede ser fundamental para el uso de la tecnología
en aplicaciones tan interesantes como la Tele-presencia o los chat-rooms.
Otro de los grandes objetivos del proyecto es pues el
desarrollo de una herramienta comercial capaz de obtener modelos faciales
3D foto-realistas (digitalización 3D) a partir de un par de fotografías
tomadas con ángulos ligeramente distintos. No es necesario mencionar
el interés de poseer una herramienta que permita a cualquier usuario
domestico construir un modelo 3D que refleje fielmente su aspecto real
sin necesidad de que disponga de sofisticados elementos hardware.
Puesto que en definitiva, se trata de un modelo 3D computerizado,
es posible manipular dicho modelo de múltiples formas, girarlo,
aumentar su tamaño, observar detalles desde cualquier ángulo,
incorporarlo a otros escenarios 3D, etc. Las aplicaciones de dicha herramienta
son infinitas: customización de vídeo juegos, producción
de películas, televisión, aplicaciones educativas a distancia,
etc.
Se puede utilizar, por su puesto, en combinación
con el sistema de captura de movimiento anteriormente citado, de manera
que los datos de captura de movimiento son utilizados para animar dicho
modelo foto-realista. Esto último se puede hacer en tiempo real
o bien en diferido. Por otra parte es posible aplicar datos de captura
de movimiento ya disponibles a cualquier tipo de modelo que se desee. Esto
permite realizar aplicaciones tales como presentaciones de empresa, interfaces
para kioscos interactivos, espectáculos en vivo para televisión
o parques de atracciones, etc.
Hay por lo tanto una necesidad clara para el desarrollo
de un sistema de captura de movimiento facial con aspecto foto-realista
que pueda ser usado por usuarios no especializados en escenarios no controlados.
Se requiere pues un importante esfuerzo de investigación y desarrollo
para desarrollar nuevas técnicas de visión artificial y nuevos
esquemas de comunicaciones que solucionando las limitaciones de los sistemas
actuales, permitan acometer las aplicaciones demandadas por el mercado.
Como aplicación piloto o demostrador, se ha elegido
la implementación de un sistema de Tele-conferencia basado el nuevo
estándar MPEG4. Aparte del innegable interés que suscita
la adquisición de conocimientos y experiencia que requiere dicho
estándar de comunicaciones, el nuevo sistema de Tele-conferencia
supone un novedoso producto con amplia aplicación en el mercado
domestico y con ventajas especialmente significativas en el campo de las
aplicaciones basadas en redes Internet de baja velocidad (es decir la mayoría
de las redes disponibles hoy en día).