jueves, 14 de octubre de 2010

Sistema que clasifica imágenes con base a elementos que contiene

sistema que clasifica imágenes

Actualmente, las computadoras buscan y clasifican las imágenes basadas en el nombre del archivo o el folder o en características como fecha y tamaño. Esto funciona si el nombre del archivo refleja su contenido, pero no es de mucha ayuda cuando el nombre es abstracto o no tiene relación  alguna con la imagen.


Por este motivo, compañías involucradas en el negocio de los motores de busqueda como Google y Microsoft, están extremadamente interesadas en brindarle a las computadoras la capacidad de interpretar automaticamente el contenido de imágenes y videos. Una técnica desarrollada en la Universidad de Granada, aparentemente hace esto, lo que hace posible clasificar imágenes de forma automática basado en que individuos u objetos específicos están presentes en las imágenes.
Una de las dificultades enfrentadas por los investigadores cuando estaban iniciando el desarrollo de un sistema para reconocer una persona  es que en la mayoría de las imágenes la persona está solo parcialmente visible. Por eso, a pesar de que ya existen detectores de cuerpo completo exitosos que ya están disponibles, el equipo decidió desarrollar un detector de para la parte superior del cuerpo la cual fue diseñada para detectar la región entre la parte alta de la cabeza y la zona media del torso por medio de un punto de vista casi frontal. De acuerdo a los investigadores, este detector casi frontal funciona adecuadamente para puntos de vista de hasta 30 grados a partir del punto de vista recto frontal , y también detecta puntos de vista desde atras.


Sin embargo, ser capaz de reconocer una persona dentro de una fotografía, con costos se acerca a la utilidad de ser capaz de decir que está haciendo durante un número de fotografías.  Para conseguir esto, los investigadores buscaron detectar la pose del cuerpo en 2D para cada persona en cada fotograma de video. Una vez más, debido a que en la televisión y en las películas las personas por lo general son visibles de la cintura para arriba, el equipo se concentró en seis partes: la cabeza, torso, antebrazos y brazos.


Debido a que querían hacer la menor cantidad de supuestos posibles, el método del equipo no pone restricciones a la vestimenta, ubicación/escala, cámaras en movimiento/de fondo o la pose del brazo. De hecho, el único supuesto que efectúa actualmente el sistema es que las personas aparecen en posición vertical, es decir que la orientación de la cabeza y el torso es casi vertical.


El sistema primero detecta la parte superior del cuerpo en la imagen, lo cual sirve para determinar la locación aproximada y la escala de la persona y donde la cabeza y el torso deberían estar. Esto le permite al sistema restringir el área de busqueda la cual es analizada a mayor profundidad empleando modelos de colores para estimar la apariencia de la persona automaticamente de las subregiones de la ventana de detección que puedan contener a la persona. Estas subregiones son usadas entonces para iniciar un algoritmo de segmentación y el área de busqueda de partes corporales es reducida progresivamente, lo que eventualmente resultaen la estimación de la pose en 2D.


La habilidad de estimar una pose 2D le permite al sistema recuperar imágenes que contienen una pose partícular desde una base de datos de videos en lo qu los investigadores llaman una busqueda de poses.


Por medio de esta técnica, el sistema es capaz de clasificar automaticamente escenas de video donde las personas aparecen en una pose específica. Así mismo permite detectar en las secuencias de video acciones humanas como caminar, saltar, agacharse, etc.


SHARE THIS

Author:

0 comentarios: