Busqueda por Contenido Visual: TREC 2003 y la Web Chilena
Transcripción
Busqueda por Contenido Visual: TREC 2003 y la Web Chilena
Busqueda por Contenido Visual: TREC 2003 y la Web Chilena Alejandro Jaimes, Javier Ruiz-del-Solar, R. Verschae, Dinko Yaksic, Ricardo BaezaYates, Emilio Davis, Carlos Castillo CIW, DIE UNIVERSIDAD DE CHILE Contenido l Introduccion l TREC 2003 l La Web Chilena l Conclusiones y Trabajo Futuro 1 Introduccion l Grandes cantidades diarias de video e imagenes l Limitaciones de tiempo y otros recursos l Objetivo es permitir busqueda eficiente, por contenido visual, en grandes archivos de imagenes y video Busqueda por Contenido Lo que aparece en la imagen… 2 Busqueda por Contenido Lo que aparece en la imagen… Trabajo Anterior l Deteccion de objetos l Clasificacion de escenas – Caras, cielo, edificios, vegetacion, etc. – Recinto cerrado (indoor), aire libre (outdoor), cuidad, paisaje, etc. l Video l Muldimodal – Deteccion de escenas (scene cut detection) – Audio, texto, etc. 3 Cambio de Escena Busqueda por Contenido U. Chile l TREC 2003 l Web de Chile 4 TREC 2003: Objetivos l Desarrollar proyecto de busqueda multimedia en la universidad l Formar alianzas de trabajo con lideres en el area l Crear librerias de software para continuar este y otros proyectos relacionados l Avanzar en investigacion TREC 2003 (National Institute for Standards & Technology) l Objetivos generales – Promover progreso en busqueda por contenido mediante un foro de participacion abierta l Participantes – U. Chile, Columbia U., IBM Watson, IBM Almaden, CMU, EUROCOM, NUS, etc, l Tareas – Deteccion, busqueda, cambio de escena, segmentacion por temas l Datos – Aprox. 130 horas de video (noticas de CNN, ABC y C-SPAN) 5 TREC 2003 l Deteccion – Outdoors, Building, Road, Vegetation, Animal, Female speech, Car/truck/bus, Aircraft, Non-studio setting, Sporting event, Weather news, Zoom in, Physical violence – News subject face, News subject monologue, People Person x (Madeline Albright) l Busqueda de “temas” – Interactiva (varias iteraciones) – Automatica (un solo “query”) TREC 2003: Busqueda de Temas 6 TREC 2003 TREC 2003: Fases l I. Anotacion l II. Deteccion l II. Busqueda 7 TREC 2003: Ejemplo Anotacion – Ver www.alphaworks.ibm.com (VideoAnnex) TREC 2003- Anotacion l Objetivos – Colaborar con mas de 20 grupos internacionales de investigacion para dividir la tarea l Tareas – Anotar manualmente 9 videos l Resultados (anotacion preliminar) – 18,450 anotaciones (20 videos) – Mas frecuentes: texto, persona, cara, texto escena, cielo, vegetacion, edificio, auto, arbol, etc. 8 TREC 2003- Deteccion l Objetivos – Construir una libreria de detectores genericos (texto, persona, cara, texto escena, cielo, vegetacion, edificio, auto, arbol, etc.) – Construir detectores especificos (deteccion y reconocimiento de caras) – Clasificadores de escenas (presentador, close-up, etc.) l Tareas – Extraer rasgos (color, textura, forma) – Entrenar clasificadores – Combinar detectores TREC 2003- Deteccion Generica l Rasgos – – – – – – – – l Area (1) Radio de aspecto (alto/ancho) (1) Centro de imagen (c/r a imagen original si es subimagen) (2) Promedio de colores de pixeles en HSV (3) Color dominante de pixeles cuantizados en HSV (3) Cantidad de colores de percentil de presencia mayor a 2% (1) Histogramas de bordes (4) Textura Usar bloques 9 TREC 2003- Deteccion de Caras l Arquitectura general … Análisis Multi-Resolución Imagen de Entrada Imágenes a Múltiples Escalas Ventanas a Procesar Cara H(x) Clasificador Pre -Procesamiento … Extractor de Ventanas Procesamiento de Detecciones Sobrepuestas No-Cara TREC 2003- Deteccion de caras l Detector Cascada … Analisis Multiresolution Imagen de Entrada Filtro 1 Ventana de No-Cara Extractor de Ventanas Imagenes a Multiples Escalas Filtro 2 Ventana de No-Cara … Filtro 21 … Ventanas a Procesar Procesamiento de Detecciones Sobrepuestas Ventana de No-Cara 10 TREC 2003- Deteccion de caras l Detector Hibrido Analisis Multiresolution Imagen de Entrada … … Extractor de Ventanas Imagenes a Multiples Escalas Filtro 1 Ventanas a Procesar Ventana de No-Cara Filtro 4 … Ventana de Filtro 2 Ventana de No-Cara Filtro 3 Ventana de No-Cara No-Cara PreProcesamiento Filtro 21 Ventana de No-Cara Procesamiento de Detecciones Sobrepuestas Detector de Caras Wavelet TREC 2003- Deteccion de caras l Filtro piel 11 TREC 2003- Deteccion de caras l Arquitectura Final Analisis Multiresolution Imagen de Entrada … Imagenes a Multiples Escalas Filtro 4 … Filtro 1 Ventana de No-Cara Filtro 3 Ventana de No-Cara … Extractor de Ventanas Filtro Piel Ventanas a Procesar Ventana de No-Cara … Ventana de No-Cara PreProcesamiento Filtro 21 Ventana de No-Cara Procesamiento de Detecciones Sobrepuestas Detector de Caras Wavelet TREC 2003- Deteccion de caras l Resultados (Sin piel) Cascada (0.5 Seg.) Wavelet (30 Seg.) Híbrido (2 Seg.) 12 TREC 2003- Deteccion de caras l Resultados (Con y sin piel) TREC 2003- Niveles Adicionales 13 Arquitectura de Interfaz Categorías: Forma de organizar las imágenes Elementos: Subdirectorios o imágenes asociadas a la categoría (keyframes) Arquitectura de Interfaz l Lógico Categorías l .. . .. . Subdirectorios Imágenes Imágenes similares según rasgo Físico Video/ Grupo/ ... Directorios Principales .. . Video1/ Video2/ Video3/ ... Subdirectorios .. . Enlaces a Imágenes Base de Datos Enlaces a Imágenes = Selección = Búsqueda 14 Arquitectura de Interfaz l Características – Facil de usar (tipo “browser”) – Facil crear nueveas categorias (nuevos directorios Þ nuevas categorías) – Escalable en cantidad de imágenes – Escalable en cantidad de rasgos por imagen Búsqueda de Rasgos Similares l Se busca las imágenes con mínima distancia euclidiana para el rasgo de la imagen seleccionada 1 Rasgo(s)* Imagen* Rasgo(s) seleccionado(s) en imagen Servidor Web Imagen ... Rasgo Tabla de Rasgos Base de Datos Ubicación Imágenes Similares 2 3 Imágenes Similares Sistema de Archivos Se retorna las primeras N imágenes x, que satisfacen: Min[ (Rasgo1(x)-Rasgo1*)2 + (Rasgo2(x)-Rasgo2*)2 +...) ], tal que x ¹ Imagen* 15 Web de Chile l Objetivos – Hacer un estudio, usando erramientas de busqueda por contenido, sobre las imagenes en el web de Chile l Tareas – Obtener un gran numero de imagenes de la web chilena – Obtener estadisticas sobre las imagenes obtenidas – Detectar caras automaticamente – Extraer rasgos visuales y agrupar las imagenes Web de Chile: obtencion de imagenes l Dominios – Solo dominios .cl (exluyen https) l Paginas – 15 niveles para paginas estaticas – 6 niveles para paginas dinamicas – Exluidas paginas marcadas “no-indexables” l Seleccion – Todas las imagenes (.jpg, .bmp, .gif., etc.) – Excluidas .gif 16 Web de Chile l Ejemplos (IR VIEW) Web de Chile l Resultados Caras 17 Web de Chile (WEKA) l Resultados rasgos (mostrar weka) Web de Chile l Estadisticas Web (aprox., 2002) – No. Paginas 2 millones – Sitios: 38,307 – Dominios: 34,867 l Estadisticas 2003 – No. paginas bajadas: 800,000 – No. links: 1´700,000 18 Web de Chile: estadisticas preliminares l l l l l Diponible incialmente: 8.1 millones de links a imagenes 76 % gif 20 % jpg 0,69 % png 0,12 % jpe 0.04 % bmp 3% no disponibles/malos l Se seleccioaron jpg, pgn, bmg, jpeg l Se eliminaron linkeadas con php l Se eliminaron repetidas (Obvias) l Aleatoreamente l Caras detectadas: 16,306 (sin piel); 15,000 (con piel) l l – – – – 1.7 millones de links a imagenes 1.4 millones 600.000 100,000 quedearon 72,000 Conclusiones l Inicio de una libreria para la extraccion de rasgos visuales en imagenes l Interfaz flexible para visualizar colecciones de imagenes l Mejoramiento de detector de caras l Inicio primer estudio sobre imagenes en la web chilena 19 Trabajo Futuro: TREC 2003 l Deteccion – News subject face, News subject monologue, People Person x (Madeline Albright) – Vegetation, Aircraft, Outdoors, Building, Road, Animal, car/truck/bus, Non-studio setting – Female speech, Sporting event, Weather news, Zoom in, Physical violence l Busqueda – Automatica (un solo “query”) – Interactiva (varias iteraciones) Trabajo Futuro: Web de Chile l Aplicar detectores a imagenes de la web l Agrupar imagenes de acuerdo a rasgos l Obtener nuevas estadisticas de acuerdo a detectores l Integrar con informacion textual 20