Introducción - Grupo de Procesamiento del Habla
Transcripción
Introducción - Grupo de Procesamiento del Habla
Introducción a las Tecnologías del Habla Profesor: Agustín Gravano 2o cuatrimestre 2014 Departamento de Computación – FCEyN – UBA Procesamiento del Habla Objetivo: Construir sistemas informáticos capaces de manipular efectivamente el lenguaje oral. 2 Objetivos de la Materia Estudiar las bases necesarias para construir sistemas muy simples de procesamiento del habla. Reconocimiento automático. Síntesis del habla. Detectores de características del hablante. Presentar superficialmente diversos temas avanzados de procesamiento del habla. 3 Reconocimiento Automático Habla → Secuencia de palabras ¿Qué es el habla? frecuencia Onda Espectrograma 4 Reconocimiento Automático s a p o m a n t a 5 Reconocimiento Automático 6 Reconocimiento Automático Pre-procesamiento de la entrada: Filtro de ruidos. Segmentación en hablantes. Post-procesamiento Puntuación, mayúsculas, formato de números. setenta y siete → 77; siglo dieciséis → siglo XVI Comprensión de la salida: del lenguaje natural: “Quiero un pasaje de Rosario a Mendoza para el veinte de noviembre a las seis de la tarde.” de:Rosario a:Mendoza fecha:20/11/09 hora:18:00 7 Síntesis del Habla Secuencia de palabras → Habla Hora oficial: 113 [113.wav] cero horas una hora dos horas ... veintitrés horas cero minutos un minuto dos minutos ... cincuenta y nueve minutos cero segundos diez segundos veinte segundos ... cincuenta segundos 24 60 6 x x = 8640 8 Síntesis del Habla Dífonos -s sa s ap a po p o- o 9 Síntesis del Habla Base de datos de dífonos. Parámetros acústicos de cada dífono. Ejemplo de síntesis hola mundo → -o ol la am mu un nd do o-o ol la am -o ol la am ol la la mu un nd do o- un nd do o- un nd do o- nd o- Secuencia que minimiza penalidades. 10 Síntesis del Habla Demos AT&T: http://www.research.att.com/~ttsweb/tts Nuance: http://www.nuance.com/.../tts-demo/spanish/ Cepstral: http://www.cepstral.com/en/demos Ejemplo: TP1 (AT&T) [caballo.wav] (de años anteriores) [tp1-*.wav] 11 Síntesis del Habla Otros enfoques Síntesis articulatoria. Simulación del tracto vocal y de los procesos articulatorios. Síntesis por formantes. Síntesis basada en HMMs. [uba_secyt-hsmm*.wav] 12 Síntesis del Habla Pre-procesamiento Normalización 110 → ciento diez / uno uno cero DGI → de ge i; AFIP → afip Palabras fuera de vocabulario; extranjeras. Monroe, Wilde. Generación de la entrada: de lenguaje natural: Rosario-Mendoza 2014/11/29 18:00, ASIENTOS=[]. “No quedan pasajes de Rosario a Mendoza para el veinte de noviembre a las dieciocho horas.” 13 Sistemas de Diálogo Reconocimiento, comprensión, generación, síntesis. Demo: Sistema de diálogo Let’s Go! (Carnegie Mellon Univ.) http://www.speech.cs.cmu.edu/letsgo/ [letsgo.wav] S: Thank you for calling the CMU Let's Go! Bus Information System. […] What can I do for you? U: I would like to go to the airport tomorrow morning. S: To the airport. When do you want to arrive? U: I'd like to arrive at 10:30. S: Arriving at around 10:30 AM. Where do you want to leave from? U: I'd like to leave from Carnegie Mellon. S: From Carnegie Mellon. There is a 28X leaving Forbes Avenue […] 14 Prosodia del Habla Tono de voz. Frecuencia fundamental (f0). Medido en Hertz (Hz). Intensidad. Volumen, energía, amplitud de onda. Medida en decibeles (dB). Velocidad. Palabras/seg, sílabas/seg, fonemas/seg. Calidad de la voz. Susurro, voz tensa, voz rasposa, etc. 15 Prosodia del Habla Mucha información más allá de las palabras. ¿Cómo Afirmación vs. pregunta vs. exclamación. “hace frío [. ? ! ]” Énfasis, contraste. varía la prosodia? “no dije Corea del Sur, dije Corea del Norte” Estructuración del discurso. “por otra parte…”. 16 Prosodia del Habla Importante para: - Que habla sintetizada suene “natural”. - Desambiguar output de reconocimiento: “no renuncié por el sueldo” “vamos al cine o al teatro” “cuando” 17 Procesamiento del Habla Reconocimiento automático. Síntesis del habla. Sistemas de diálogo hablado. Traducción automática. Identificación del hablante. Interfaces de usuario (PC, auto, celular). Indexación de bases de datos de audio (YouTube). Detección y generación de emociones. 18 Procesamiento del Habla Interfaces para personas con capacidades especiales. Stephen Hawking Manipulación de voces (cambio de identidad). vocalid.org - TED Talk de Rupal Patel Procesamiento Hatsune Miku “Habla” automático de la música. de animales (delfines, ballenas, pájaros). Laboratorio de Sistemas Dinámicos (DF) Adquisición del lenguaje. … 19 Temas del programa Acústica, fonética y prosodia. Procesamiento digital de señales. Modelización acústica, lingüística y prosódica del habla. Sistemas de texto-a-habla (TTS). Sistemas de reconocimiento automático del habla (ASR). Sistemas de diálogo hablado. Evaluación de sistemas de procesamiento del habla. Temas avanzados: reconocimiento de información del hablante (id, edad, sexo); TP2: Reconocimiento automático del sexo del hablante. procesamiento del habla afectiva (emociones, mentiras); reconocimiento del idioma o dialecto; traducción automática y generación automática de resúmenes; y otros. 20 Varios Horario de cursada: miércoles 13-17h, labo Turing. Puntaje para Computación: 3 puntos para Lic y Doc. Correlativas: Algoritmos y Estructuras de Datos 1; Probabilidad y Estadística (o similares). Modo de evaluación: 2 parciales. 2 trabajos prácticos en grupos de 2. La materia se aprueba si se aprueba cada una de las instancias de evaluación (P1, P2, TP1 y TP2). La materia se promociona si (P1+P2+TP1+TP2)/4 ≥ 8. Mails: gravano@dc ; ith-alu@dc http://habla.dc.uba.ar/gravano/ith/ 21 Bibliografía Jurafsky & Martin, “Speech and Language Processing”, (2nd ed.). Prentice Hall. 2009. En Biblioteca Central. Johnson, “Acoustic & Auditory Phonetics”, (2nd ed.). Blackwell. 2003. En Biblioteca Central. Benesty, Mohan Sondhi & Huang (Eds.), “Springer Handbook of Speech Processing”. Springer-Verlag, 2008. Versión electrónica disponible desde de la red de la UBA (ver web de la materia) 22 Prerrequisitos Linux manejo de archivos (ls, cd, pwd, cp, mv, rm, mkdir, rmdir, ...); permisos (chmod, chown, chgrp); procesamiento de archivos de texto (cat, grep, less, sed, awk, cut); man. http://www.linux.org/forums/beginner-tutorials.53/ Python 2.7.x expresiones, variables, funciones, listas, listas por comprensión, estructuras de control (if, for, while), iteradores, lectura/escritura de archivos, cómo importar módulos. https://docs.python.org/2/tutorial/ 23 Para hacer ahora... 1) Buscar el nombre de usuario (“ithNN”) en la planilla. Es para usar en Linux, no en Windows. 2) Recordar el nombre de usuario!!! 3)Ingresar y cambiar el password AHORA. Ingresar con usuario y contraseña (ver el pizarrón). Abrir una Terminal. Ingresar “passwd”, ENTER. Seguir las instrucciones. 4)(opcional) Tutorial Linux. http://www.linux.org/forums/beginner-tutorials.53/ 5)(opcional) Tutorial Python. https://docs.python.org/2/tutorial/ 24