¿Qué atrae nuestra atención visual?
Los seres humanos constantemente perciben y reaccionan ante los estímulos del mundo visual. Una región de una escena puede atraer la atención mientras extensas regiones son completamente ignoradas. La escena puede provocar emociones placenteras o sentimientos de repulsión, de forma implícita. Puede dejar un recuerdo duradero en el observador, o puede no ser recordada nunca más. Parece razonable plantear la hipótesis de que algunas de estas reacciones, por ejemplo la atención que damos a los estímulos visuales y la manera en que estos estímulos nos hacen sentir, pueden tener mecanismos perceptuales en común.
Esta tesis presenta nuestro intento de evaluar esta hipótesis, adaptando un modelo estadodelarte de la percepción visual en los humanos, y adaptando esta versión modificada a diferentes tareas visuales. Específicamente, investigamos dos aspectos diferentes sobre cómo un observador experiencia una imagen natural: (i) dónde miramos o, concretamente, qué nos atrae la atención, y (ii) qué nos gusta, e.g., si una imagen es estéticamente agradable, o no.
Estas dos experiencias son objeto de crecientes esfuerzos de la investigación en visión por computador. La habilidad de predecir la atención visual tiene muchas aplicaciones, desde el reconocimiento de objetos a el marketing. La predicción de la calidad estética también ha visto aumentada su importancia, sobre todo para la organización y navegación del contenido visual online, cuyo volumen se encuentra constantemente en expansión.
Tanto la atención visual como la estética visual pueden ser modeladas como consecuencia de múltiples mecanismos en interacción, algunos involuntarios (bottomup), y otros guiados por tareas (topdown). En este trabajo nos concentramos en una perspectiva involuntaria, bottomup, usando mecanismos visuales y características de bajo nivel, ya que es aquí donde los vínculos entre estética y atención son más evidentes, o fácilmente analizables. Primero investigamos la atención visual bottomup, que normalmente se denomina “saliency”.
Planteamos la hipótesis de que las regiones en una imagen que atraen o no la atención pueden ser predichas como las regiones donde color y contraste está acentuado o suprimido por el sistema visual humano. Demostramos esta hipótesis usando un modelo de percepción de color de bajo nivel y adaptándolo a un modelo de estimación de la atención. El modelo propuesto mejora el estadodelarte en la tarea de predecir qué partes de la imagen atraen más la atención.
A continuación, investigamos el problema del análisis estético visual. Contemplamos la hipótesis que información de bajo nivel en nuestro modelo de atención puede también ser usada para predecir estética visual, capturando características locales de la imagen como contraste, agrupaciones o aislamiento, que están relacionadas con la leyes universales de la estética. Demostramos que estas características visuales extraídas de nuestro modelo de atención, consiguen obtener resultados del estadodelarte, en cuanto a clasificación de calidad estética.
Una contribución prometedora de esta tesis es demostrar que diversas experiencias de la visión -percepción de color a bajo nivel, atención visual, y estimación de la estética visual- pueden ser satisfactoriamente modeladas usando un marco de trabajo unificado. Esto sugiere una arquitectura similar en el sistema visual humano de bajo nivel, tanto para percepción de color y atención visual, y añade evidencias sobre la hipótesis que la apreciación estética está influenciada, en parte, por mecanismos bottomup.
Referencias
"Predicting Saliency and Aesthetics in Images: A Bottom-up Perspective", tesi doctoral de Naila Murray dirigida per Xavier Otazu Porter i Maria Vanrell Martorell.