Corpus MAVIR
Transcripción
Corpus MAVIR
Corpus MAVIR El corpus MAVIR es una colección de grabaciones de sonido y vídeo con sus correspondientes transcripciones de habla oral, procesadas informáticamente. Su elaboración se dirige a la investigación en procesamiento de lenguaje natural y tecnologías de habla, pero también puede ser un recurso valioso para la investigación lingüística en el registro oral formal y para estudios contrastivos de la oralidad en español e inglés. Las grabaciones proceden de las conferencias y charlas especializadas sobre tecnologías de la lengua celebradas en el marco del consorcio MAVIR, una red de investigación co-financiada por la Comunidad de Madrid formada por un equipo multidisciplinar de científicos, técnicos, lingüistas y documentalistas. La composición del corpus se divide en 4 textos en inglés y 9 en español, con un total de 10 horas y 38 minutos y más de 100 000 palabras transcritas. Corpus mavir01: Challenges for Information Extraction, 1 h 07' 39", 9113 palabras mavir02: Proceso de innovación de tecnologías de acceso a la información: ¿Cómo llegar al mercado?, 1h 14' 32", 13432 palabras mavir03: España y los buscadores: un mercado potencial, 38' 11", 6681 palabras mavir04: Aplicaciones en dominios médico y cultural. 57' 22", 9310 palabras mavir05: On-demand Information Extraction, 36' 08'', 4461 palabras mavir06: Buscador General Panhispánico, 29' 09'', 4332 palabras mavir07: Tecnología de la Web Semántica, 21' 47'', 3831 palabras mavir08: Premio MAVIR, 18' 55'', 3356 palabras mavir09: Buenas prácticas en presencia web para grupos de investigación, 1h 10' 03'', 11179 palabras mavir10: Multimedia Retrieval and Evaluation, 1h 27' 24", 15659 palabras mavir11: Premio Mavir 2008, 20' 20", 3130 palabras mavir12: Beyond Text-based Multimedia Retrieval, 1h 07' 40", 11168 palabras mavir13: Buscando cangrejos en Flickr, 43' 38", 7837 palabras Cómo citar: Antonio Moreno Sandoval, Leonardo Campillos Llanos. 2012. "MAVIR: a corpus of spontaneous formal speech in Spanish and English". En D. Torre Toledano, A. Ortega, A. Teixeira, J. González Rodríguez, L. Hernández Gómez, R. San Segundo Hernández, y D. Ramos Castro (eds.) Actas de IberSPEECH 2012. VII Jornadas en Tecnología del Habla. Madrid, 21-23 de noviembre de 2012. Springer. ISBN: 84-616-1535-2. Licencia de investigación El Corpus MAVIR está disponible de forma gratuita. Sin embargo, es necesario aceptar el acuerdo de licencia para uso no comercial y remitírnoslo. Información sobre el contenido se puede encontrar aquí. El corpus no está disponible para intereses comerciales. 1. Descargue del acuerdo de licencia (SOLO con fines de investigación). 2. Remítala firmada a la dirección de contacto (abajo). Dirección de contacto: Antonio Moreno Sandoval Laboratorio de Lingüística Informática Dept. de Lingüística Universidad Autónoma de Madrid E-28049 Madrid, España e-mail: [email protected] El Corpus MAVIR utilizado para la Evaluación ALBAYZIN 2012 está disponible de forma gratuita. Sin embargo, es necesario aceptar el acuerdo de licencia para uso no comercial y remitírnoslo. El corpus no está disponible para intereses comerciales. 1.- Descargue del acuerdo de licencia (SOLO con fines de investigación). 2.- Remítala firmada a la dirección de contacto (abajo). Dirección de contacto: Doroteo Torre Toledano AVTS Dept. de Tecnología Electrónica y de las Comunicaciones Universidad Autónoma de Madrid E-28049 Madrid, España e-mail: [email protected] PARTICIPANTES CORPUS MAVIR Dirección: •Antonio Moreno Sandoval •Leonardo Campillos (coordinación) Informáticos: •José Mª. Guirao Miras •Susana López Hervás Anotadores y revisores de la anotación fonológica y morfosintáctica: •Olga León Zurdo •Elena Velasco •Oleksiy Halato Transcriptores y revisores: •Sergio Calvo Páez •Leonardo Campillos Llanos •Marta Garrote Salazar •Sara Garrote Salazar •Ana González Ledesma •Alicia González Martínez •Mª. Cristina Tovar Pérez •Ana Valverde Mateos Anotadores y revisores para la evaluación ALBAYZIN 2012: •Sonia Addelhamid •Leonardo Campillos Llanos •Olga León Zurdo •Javier Patiño Talavera •Cristina Pérez Martín •Diana Ramiro •Pablo San Román Castro Vídeos Los vídeos se encuentran en: http://cartago.lllf.uam.es/mavir/index.pl