Busqueda por Contenido Visual: TREC 2003 y la Web Chilena

Transcripción

Busqueda por Contenido Visual: TREC 2003 y la Web Chilena
Busqueda por Contenido Visual: TREC
2003 y la Web Chilena
Alejandro Jaimes, Javier Ruiz-del-Solar, R.
Verschae, Dinko Yaksic, Ricardo BaezaYates, Emilio Davis, Carlos Castillo
CIW, DIE
UNIVERSIDAD DE CHILE
Contenido
l
Introduccion
l
TREC 2003
l
La Web Chilena
l
Conclusiones y Trabajo Futuro
1
Introduccion
l
Grandes cantidades diarias de video e imagenes
l
Limitaciones de tiempo y otros recursos
l
Objetivo es permitir busqueda eficiente, por
contenido visual, en grandes archivos de imagenes
y video
Busqueda por Contenido
Lo que aparece en la imagen…
2
Busqueda por Contenido
Lo que aparece en la imagen…
Trabajo Anterior
l
Deteccion de objetos
l
Clasificacion de escenas
– Caras, cielo, edificios, vegetacion, etc.
– Recinto cerrado (indoor), aire libre (outdoor), cuidad, paisaje,
etc.
l
Video
l
Muldimodal
– Deteccion de escenas (scene cut detection)
– Audio, texto, etc.
3
Cambio de Escena
Busqueda por Contenido U. Chile
l
TREC 2003
l
Web de Chile
4
TREC 2003: Objetivos
l
Desarrollar proyecto de busqueda multimedia en la
universidad
l
Formar alianzas de trabajo con lideres en el area
l
Crear librerias de software para continuar este y
otros proyectos relacionados
l
Avanzar en investigacion
TREC 2003 (National Institute for Standards & Technology)
l
Objetivos generales
– Promover progreso en busqueda por contenido mediante un
foro de participacion abierta
l
Participantes
– U. Chile, Columbia U., IBM Watson, IBM Almaden, CMU,
EUROCOM, NUS, etc,
l
Tareas
– Deteccion, busqueda, cambio de escena, segmentacion por
temas
l
Datos
– Aprox. 130 horas de video (noticas de CNN, ABC y C-SPAN)
5
TREC 2003
l
Deteccion
– Outdoors, Building, Road, Vegetation, Animal, Female
speech, Car/truck/bus, Aircraft, Non-studio setting,
Sporting event, Weather news, Zoom in, Physical violence
– News subject face, News subject monologue, People
Person x (Madeline Albright)
l
Busqueda de “temas”
– Interactiva (varias iteraciones)
– Automatica (un solo “query”)
TREC 2003: Busqueda de Temas
6
TREC 2003
TREC 2003: Fases
l
I. Anotacion
l
II. Deteccion
l
II. Busqueda
7
TREC 2003: Ejemplo Anotacion
– Ver
www.alphaworks.ibm.com
(VideoAnnex)
TREC 2003- Anotacion
l
Objetivos
– Colaborar con mas de 20 grupos internacionales de
investigacion para dividir la tarea
l
Tareas
– Anotar manualmente 9 videos
l
Resultados (anotacion preliminar)
– 18,450 anotaciones (20 videos)
– Mas frecuentes: texto, persona, cara, texto escena, cielo,
vegetacion, edificio, auto, arbol, etc.
8
TREC 2003- Deteccion
l
Objetivos
– Construir una libreria de detectores genericos (texto,
persona, cara, texto escena, cielo, vegetacion, edificio, auto,
arbol, etc.)
– Construir detectores especificos (deteccion y reconocimiento
de caras)
– Clasificadores de escenas (presentador, close-up, etc.)
l
Tareas
– Extraer rasgos (color, textura, forma)
– Entrenar clasificadores
– Combinar detectores
TREC 2003- Deteccion Generica
l
Rasgos
–
–
–
–
–
–
–
–
l
Area (1)
Radio de aspecto (alto/ancho) (1)
Centro de imagen (c/r a imagen original si es subimagen) (2)
Promedio de colores de pixeles en HSV (3)
Color dominante de pixeles cuantizados en HSV (3)
Cantidad de colores de percentil de presencia mayor a 2% (1)
Histogramas de bordes (4)
Textura
Usar bloques
9
TREC 2003- Deteccion de Caras
l
Arquitectura general
…
Análisis
Multi-Resolución
Imagen de Entrada
Imágenes a Múltiples
Escalas
Ventanas a Procesar
Cara
H(x)
Clasificador
Pre -Procesamiento
…
Extractor de
Ventanas
Procesamiento
de Detecciones
Sobrepuestas
No-Cara
TREC 2003- Deteccion de caras
l
Detector Cascada
…
Analisis
Multiresolution
Imagen de Entrada
Filtro 1
Ventana de
No-Cara
Extractor
de Ventanas
Imagenes a Multiples
Escalas
Filtro 2
Ventana de
No-Cara
…
Filtro 21
…
Ventanas a Procesar
Procesamiento
de Detecciones
Sobrepuestas
Ventana de
No-Cara
10
TREC 2003- Deteccion de caras
l
Detector Hibrido
Analisis
Multiresolution
Imagen de Entrada
…
…
Extractor de
Ventanas
Imagenes a Multiples
Escalas
Filtro 1
Ventanas a Procesar
Ventana de
No-Cara
Filtro 4
…
Ventana de
Filtro 2
Ventana de
No-Cara
Filtro 3
Ventana de
No-Cara
No-Cara
PreProcesamiento
Filtro 21
Ventana de
No-Cara
Procesamiento
de Detecciones
Sobrepuestas
Detector de
Caras
Wavelet
TREC 2003- Deteccion de caras
l
Filtro piel
11
TREC 2003- Deteccion de caras
l
Arquitectura Final
Analisis
Multiresolution
Imagen de Entrada
…
Imagenes a Multiples
Escalas
Filtro 4
…
Filtro 1
Ventana de
No-Cara
Filtro 3
Ventana de
No-Cara
…
Extractor
de
Ventanas
Filtro Piel
Ventanas a Procesar
Ventana de
No-Cara
…
Ventana de
No-Cara
PreProcesamiento
Filtro 21
Ventana de
No-Cara
Procesamiento
de Detecciones
Sobrepuestas
Detector de
Caras
Wavelet
TREC 2003- Deteccion de caras
l
Resultados (Sin piel)
Cascada (0.5 Seg.)
Wavelet (30 Seg.)
Híbrido (2 Seg.)
12
TREC 2003- Deteccion de caras
l
Resultados (Con y sin piel)
TREC 2003- Niveles Adicionales
13
Arquitectura de Interfaz
Categorías:
Forma de organizar
las imágenes
Elementos:
Subdirectorios o
imágenes asociadas
a la categoría
(keyframes)
Arquitectura de Interfaz
l
Lógico
Categorías
l
..
.
..
.
Subdirectorios
Imágenes
Imágenes similares
según rasgo
Físico
Video/
Grupo/
...
Directorios
Principales
..
.
Video1/
Video2/
Video3/
...
Subdirectorios
..
.
Enlaces a
Imágenes
Base de
Datos
Enlaces a
Imágenes
= Selección
= Búsqueda
14
Arquitectura de Interfaz
l
Características
– Facil de usar (tipo “browser”)
– Facil crear nueveas categorias (nuevos
directorios Þ nuevas categorías)
– Escalable en cantidad de imágenes
– Escalable en cantidad de rasgos por imagen
Búsqueda de Rasgos Similares
l
Se busca las imágenes con mínima distancia euclidiana
para el rasgo de la imagen seleccionada
1
Rasgo(s)*
Imagen*
Rasgo(s) seleccionado(s)
en imagen
Servidor Web
Imagen ... Rasgo
Tabla de Rasgos
Base de Datos
Ubicación
Imágenes
Similares
2
3
Imágenes
Similares
Sistema de
Archivos
Se retorna las primeras N imágenes x, que satisfacen:
Min[ (Rasgo1(x)-Rasgo1*)2 + (Rasgo2(x)-Rasgo2*)2 +...) ], tal que x ¹ Imagen*
15
Web de Chile
l
Objetivos
– Hacer un estudio, usando erramientas de busqueda por
contenido, sobre las imagenes en el web de Chile
l
Tareas
– Obtener un gran numero de imagenes de la web chilena
– Obtener estadisticas sobre las imagenes obtenidas
– Detectar caras automaticamente
– Extraer rasgos visuales y agrupar las imagenes
Web de Chile: obtencion de imagenes
l
Dominios
– Solo dominios .cl (exluyen https)
l
Paginas
– 15 niveles para paginas estaticas
– 6 niveles para paginas dinamicas
– Exluidas paginas marcadas “no-indexables”
l
Seleccion
– Todas las imagenes (.jpg, .bmp, .gif., etc.)
– Excluidas .gif
16
Web de Chile
l
Ejemplos (IR VIEW)
Web de Chile
l
Resultados Caras
17
Web de Chile (WEKA)
l
Resultados rasgos
(mostrar weka)
Web de Chile
l
Estadisticas Web (aprox., 2002)
– No. Paginas 2 millones
– Sitios: 38,307
– Dominios: 34,867
l
Estadisticas 2003
– No. paginas bajadas: 800,000
– No. links: 1´700,000
18
Web de Chile: estadisticas preliminares
l
l
l
l
l
Diponible incialmente: 8.1 millones de links a imagenes
76 % gif
20 % jpg
0,69 % png
0,12 % jpe
0.04 % bmp
3% no disponibles/malos
l
Se seleccioaron jpg, pgn, bmg, jpeg
l
Se eliminaron linkeadas con php
l
Se eliminaron repetidas (Obvias)
l
Aleatoreamente
l
Caras detectadas: 16,306 (sin piel); 15,000 (con piel)
l
l
–
–
–
–
1.7 millones de links a imagenes
1.4 millones
600.000
100,000 quedearon 72,000
Conclusiones
l
Inicio de una libreria para la extraccion de
rasgos visuales en imagenes
l
Interfaz flexible para visualizar colecciones
de imagenes
l
Mejoramiento de detector de caras
l
Inicio primer estudio sobre imagenes en la
web chilena
19
Trabajo Futuro: TREC 2003
l
Deteccion
– News subject face, News subject monologue, People Person x
(Madeline Albright)
– Vegetation, Aircraft, Outdoors, Building, Road, Animal,
car/truck/bus, Non-studio setting
– Female speech, Sporting event, Weather news, Zoom in,
Physical violence
l
Busqueda
– Automatica (un solo “query”)
– Interactiva (varias iteraciones)
Trabajo Futuro: Web de Chile
l
Aplicar detectores a imagenes de la web
l
Agrupar imagenes de acuerdo a rasgos
l
Obtener nuevas estadisticas de acuerdo a
detectores
l
Integrar con informacion textual
20

Documentos relacionados