Corpus MAVIR

Transcripción

Corpus MAVIR
Corpus MAVIR
El corpus MAVIR es una colección de grabaciones de sonido y vídeo con sus
correspondientes transcripciones de habla oral, procesadas informáticamente. Su
elaboración se dirige a la investigación en procesamiento de lenguaje natural y
tecnologías de habla, pero también puede ser un recurso valioso para la investigación
lingüística en el registro oral formal y para estudios contrastivos de la oralidad en
español e inglés.
Las grabaciones proceden de las conferencias y charlas especializadas sobre tecnologías
de la lengua celebradas en el marco del consorcio MAVIR, una red de investigación
co-financiada por la Comunidad de Madrid formada por un equipo multidisciplinar de
científicos, técnicos, lingüistas y documentalistas.
La composición del corpus se divide en 4 textos en inglés y 9 en español, con un total de
10 horas y 38 minutos y más de 100 000 palabras transcritas.
Corpus
mavir01: Challenges for Information Extraction, 1 h 07' 39", 9113 palabras
mavir02: Proceso de innovación de tecnologías de acceso a la información: ¿Cómo llegar al
mercado?, 1h 14' 32", 13432 palabras
mavir03: España y los buscadores: un mercado potencial, 38' 11", 6681 palabras
mavir04: Aplicaciones en dominios médico y cultural. 57' 22", 9310 palabras
mavir05: On-demand Information Extraction, 36' 08'', 4461 palabras
mavir06: Buscador General Panhispánico, 29' 09'', 4332 palabras
mavir07: Tecnología de la Web Semántica, 21' 47'', 3831 palabras
mavir08: Premio MAVIR, 18' 55'', 3356 palabras
mavir09: Buenas prácticas en presencia web para grupos de investigación, 1h 10' 03'',
11179 palabras
mavir10: Multimedia Retrieval and Evaluation, 1h 27' 24", 15659 palabras
mavir11: Premio Mavir 2008, 20' 20", 3130 palabras
mavir12: Beyond Text-based Multimedia Retrieval, 1h 07' 40", 11168 palabras
mavir13: Buscando cangrejos en Flickr, 43' 38", 7837 palabras
Cómo citar:
Antonio Moreno Sandoval, Leonardo Campillos Llanos. 2012.
"MAVIR: a corpus of spontaneous formal speech in Spanish and English".
En D. Torre Toledano, A. Ortega, A. Teixeira, J. González Rodríguez, L. Hernández Gómez,
R. San Segundo Hernández, y D. Ramos Castro (eds.)
Actas de IberSPEECH 2012. VII Jornadas en Tecnología del Habla. Madrid, 21-23 de
noviembre de 2012. Springer.
ISBN: 84-616-1535-2.
Licencia de investigación
El Corpus MAVIR está disponible de forma gratuita. Sin embargo, es necesario aceptar
el acuerdo de licencia para uso no comercial y remitírnoslo. Información sobre el
contenido se puede encontrar aquí. El corpus no está disponible para intereses
comerciales.
1. Descargue del acuerdo de licencia (SOLO con fines de investigación).
2. Remítala firmada a la dirección de contacto (abajo).
Dirección de contacto:
Antonio Moreno Sandoval
Laboratorio de Lingüística Informática
Dept. de Lingüística
Universidad Autónoma de Madrid
E-28049 Madrid, España
e-mail: [email protected]
El Corpus MAVIR utilizado para la Evaluación ALBAYZIN 2012 está disponible de
forma gratuita. Sin embargo, es necesario aceptar el acuerdo de licencia para uso no
comercial y remitírnoslo. El corpus no está disponible para intereses comerciales.
1.- Descargue del acuerdo de licencia (SOLO con fines de investigación).
2.- Remítala firmada a la dirección de contacto (abajo).
Dirección de contacto:
Doroteo Torre Toledano
AVTS
Dept. de Tecnología Electrónica y de las Comunicaciones
Universidad Autónoma de Madrid
E-28049 Madrid, España
e-mail: [email protected]
PARTICIPANTES CORPUS MAVIR
Dirección:
•Antonio Moreno Sandoval
•Leonardo Campillos (coordinación)
Informáticos:
•José Mª. Guirao Miras
•Susana López Hervás
Anotadores y revisores de la anotación fonológica y morfosintáctica:
•Olga León Zurdo
•Elena Velasco
•Oleksiy Halato
Transcriptores y revisores:
•Sergio Calvo Páez
•Leonardo Campillos Llanos
•Marta Garrote Salazar
•Sara Garrote Salazar
•Ana González Ledesma
•Alicia González Martínez
•Mª. Cristina Tovar Pérez
•Ana Valverde Mateos
Anotadores y revisores para la evaluación ALBAYZIN 2012:
•Sonia Addelhamid
•Leonardo Campillos Llanos
•Olga León Zurdo
•Javier Patiño Talavera
•Cristina Pérez Martín
•Diana Ramiro
•Pablo San Román Castro
Vídeos
Los vídeos se encuentran en:
http://cartago.lllf.uam.es/mavir/index.pl

Documentos relacionados