Los investigadores de visión artificial de CMU utilizan el movimiento para descubrir objetos en vídeos.
Investigadores del Robotics Institute de la Carnegie Mellon University (CMU) han demostrado que los sistemas de visión artificial pueden detectar más fácilmente objetos en movimiento (como un automóvil conduciendo por la calle o una persona caminando en un cruce de peatones) que objetos estacionarios.
Martial Hebert, decano de la School of Computer Science de CMU y professor del Robotics Institute, y el estudiante de doctorado en robótica Zhipeng Bao, colaboraron en el proyecto del Toyota Research Institute, que patrocinó el trabajo. La investigación podría ayudar a las computadoras y los robots a detectar mejor automáticamente los objetos en los vídeos.
Sistemas de visión artificial para comprender escenas del mundo real
El reconocimiento de objetos es fundamental para comprender escenas del mundo real, por lo que desarrollar métodos guiados por movimiento para descubrir objetos podría mejorar la conducción autónoma. También podría resultar útil para la robótica minorista, la manipulación robótica y los robots en el hogar.
Trabajando con colegas de Toyota, la Universidad de California en Berkeley y la Universidad de Illinois Urbana-Champaign, los investigadores de CMU desarrollaron un marco llamado MoTok que permite a la computadora identificar por sí sola las características de las cosas que ve en movimiento. Luego, MoTok utiliza estas características para reconstruir el objeto, lo que permite al ordenador descubrir el objeto de una manera que le permite encontrarlo nuevamente.
Desde entonces, los investigadores han ampliado el trabajo para que el ordenador pueda representar estas características de una manera simplificada y virtualizada. Este desarrollo permite que el ordenador identifique mejor características de alto nivel, lo que le permite categorizar objetos en lugar de simplemente identificar un objeto en particular.
Avances en aprendizaje automático
Visualizar objetos es algo natural para las personas; de hecho, es tan natural que la visión es difícil de introspeccionar.
“No tenemos conciencia de cómo lo hacemos”, dijo Hebert.
Los avances en el aprendizaje automático han ayudado a mejorar la capacidad de los ordenadores para reconocer objetos, aunque de una manera muy diferente a la de los humanos. Sin embargo, esos métodos requieren decenas de miles de horas de vídeo que contengan objetos etiquetados. Es laborioso, costoso y propenso a errores fuera del laboratorio.
“Obviamente, eso no se puede escalar”, dijo Hebert.
Lo que se necesita es un método generalizado que permita a los programas informáticos descubrir objetos en vídeos por sí solos, sin necesidad de etiquetas ni supervisión. Como demuestra MoTok, utilizar el movimiento para guiar el descubrimiento de objetos es una forma de lograr este objetivo.
“Los objetos que se mueven son fáciles de diferenciar de los fondos estáticos”, dijo Bao, quien completó la investigación mientras realizaba una pasantía en el Toyota Research Institute. “El movimiento también puede ayudar a definir un objeto que tiene múltiples partes móviles. La puerta de un automóvil puede abrirse y cerrarse, y las ruedas pueden girar, pero todas las partes que se mueven juntas a medida que el automóvil viaja por una calle pueden ayudar a los programas de ordenador a comprender mejor el concepto de automóvil”.
Leído en: