Introducción - Grupo de Procesamiento del Habla

Transcripción

Introducción - Grupo de Procesamiento del Habla
Introducción a las
Tecnologías del Habla
Profesor: Agustín Gravano
2o cuatrimestre 2014
Departamento de Computación – FCEyN – UBA
Procesamiento del Habla
Objetivo: Construir sistemas informáticos
capaces de manipular efectivamente el
lenguaje oral.
2
Objetivos de la Materia

Estudiar las bases necesarias para construir
sistemas muy simples de procesamiento del
habla.




Reconocimiento automático.
Síntesis del habla.
Detectores de características del hablante.
Presentar superficialmente diversos temas
avanzados de procesamiento del habla.
3
Reconocimiento Automático
Habla
→ Secuencia de palabras
¿Qué es el habla?
frecuencia
Onda
Espectrograma
4
Reconocimiento Automático
s
a
p
o
m
a n
t a
5
Reconocimiento Automático
6
Reconocimiento Automático
Pre-procesamiento


de la entrada:
Filtro de ruidos.
Segmentación en hablantes.
Post-procesamiento

Puntuación, mayúsculas, formato de números.
 setenta y siete → 77; siglo dieciséis → siglo XVI
Comprensión

de la salida:
del lenguaje natural:
“Quiero un pasaje de Rosario a Mendoza para el veinte
de noviembre a las seis de la tarde.”
de:Rosario a:Mendoza fecha:20/11/09 hora:18:00
7
Síntesis del Habla
Secuencia de palabras → Habla
Hora oficial: 113 [113.wav]
cero horas
una hora
dos horas
...
veintitrés horas
cero minutos
un minuto
dos minutos
...
cincuenta y nueve
minutos
cero segundos
diez segundos
veinte segundos
...
cincuenta
segundos
24
60
6
x
x
=
8640
8
Síntesis del Habla
Dífonos
-s
sa
s
ap
a
po
p
o-
o
9
Síntesis del Habla
Base

de datos de dífonos.
Parámetros acústicos de cada dífono.
Ejemplo

de síntesis
hola mundo → -o ol la am mu un nd do o-o
ol
la
am
-o
ol
la
am
ol
la
la
mu
un
nd
do
o-
un
nd
do
o-
un
nd
do
o-
nd
o-
Secuencia que minimiza penalidades.
10
Síntesis del Habla
Demos



AT&T: http://www.research.att.com/~ttsweb/tts
Nuance: http://www.nuance.com/.../tts-demo/spanish/
Cepstral: http://www.cepstral.com/en/demos
Ejemplo:

TP1

(AT&T)
[caballo.wav]
(de años anteriores)
[tp1-*.wav]
11
Síntesis del Habla
Otros enfoques
Síntesis

articulatoria.
Simulación del tracto vocal y de
los procesos articulatorios.
Síntesis
por formantes.
Síntesis
basada en HMMs.

[uba_secyt-hsmm*.wav]
12
Síntesis del Habla
Pre-procesamiento

Normalización



110 → ciento diez / uno uno cero
DGI → de ge i; AFIP → afip
Palabras fuera de vocabulario; extranjeras.

Monroe, Wilde.
Generación

de la entrada:
de lenguaje natural:
Rosario-Mendoza 2014/11/29 18:00, ASIENTOS=[].
“No quedan pasajes de Rosario a Mendoza para el
veinte de noviembre a las dieciocho horas.”
13
Sistemas de Diálogo
Reconocimiento,
comprensión, generación, síntesis.
Demo:
Sistema de diálogo Let’s Go! (Carnegie Mellon Univ.)
http://www.speech.cs.cmu.edu/letsgo/
[letsgo.wav]
S: Thank you for calling the CMU Let's Go! Bus Information System.
[…] What can I do for you?
U: I would like to go to the airport tomorrow morning.
S: To the airport. When do you want to arrive?
U: I'd like to arrive at 10:30.
S: Arriving at around 10:30 AM. Where do you want to leave from?
U: I'd like to leave from Carnegie Mellon.
S: From Carnegie Mellon. There is a 28X leaving Forbes Avenue […]
14
Prosodia del Habla
Tono

de voz.
Frecuencia fundamental (f0). Medido en Hertz (Hz).
Intensidad.

Volumen, energía, amplitud de onda. Medida en decibeles (dB).
Velocidad.

Palabras/seg, sílabas/seg, fonemas/seg.
Calidad

de la voz.
Susurro, voz tensa, voz rasposa, etc.
15
Prosodia del Habla
Mucha
información más allá de las palabras.
¿Cómo

Afirmación vs. pregunta vs. exclamación.


“hace frío [. ? ! ]”
Énfasis, contraste.


varía la prosodia?
“no dije Corea del Sur, dije Corea del Norte”
Estructuración del discurso.

“por otra parte…”.
16
Prosodia del Habla
Importante para:
- Que habla sintetizada suene “natural”.
- Desambiguar output de reconocimiento:



“no renuncié por el sueldo”
“vamos al cine o al teatro”
“cuando”
17
Procesamiento del Habla
Reconocimiento
automático.
Síntesis del habla.
Sistemas de diálogo hablado.
Traducción automática.
Identificación del hablante.
Interfaces de usuario (PC, auto, celular).
Indexación de bases de datos de audio (YouTube).
Detección y generación de emociones.
18
Procesamiento del Habla
Interfaces

para personas con capacidades especiales.
Stephen Hawking
Manipulación

de voces (cambio de identidad).
vocalid.org - TED Talk de Rupal Patel
Procesamiento

Hatsune Miku
“Habla”

automático de la música.
de animales (delfines, ballenas, pájaros).
Laboratorio de Sistemas Dinámicos (DF)
Adquisición
del lenguaje.
…
19
Temas del programa








Acústica, fonética y prosodia.
Procesamiento digital de señales.
Modelización acústica, lingüística y prosódica del habla.
Sistemas de texto-a-habla (TTS).
Sistemas de reconocimiento automático del habla (ASR).
Sistemas de diálogo hablado.
Evaluación de sistemas de procesamiento del habla.
Temas avanzados:
 reconocimiento de información del hablante (id, edad, sexo);





TP2: Reconocimiento automático del sexo del hablante.
procesamiento del habla afectiva (emociones, mentiras);
reconocimiento del idioma o dialecto;
traducción automática y generación automática de resúmenes;
y otros.
20
Varios

Horario de cursada: miércoles 13-17h, labo Turing.

Puntaje para Computación: 3 puntos para Lic y Doc.

Correlativas: Algoritmos y Estructuras de Datos 1;
Probabilidad y Estadística (o similares).

Modo de evaluación:




2 parciales.
2 trabajos prácticos en grupos de 2.
La materia se aprueba si se aprueba cada una de las
instancias de evaluación (P1, P2, TP1 y TP2).
La materia se promociona si (P1+P2+TP1+TP2)/4 ≥ 8.

Mails: gravano@dc ; ith-alu@dc

http://habla.dc.uba.ar/gravano/ith/
21
Bibliografía

Jurafsky & Martin, “Speech and Language Processing”,
(2nd ed.). Prentice Hall. 2009. En Biblioteca Central.

Johnson, “Acoustic & Auditory Phonetics”,
(2nd ed.). Blackwell. 2003. En Biblioteca Central.

Benesty, Mohan Sondhi & Huang (Eds.), “Springer
Handbook of Speech Processing”. Springer-Verlag,
2008. Versión electrónica disponible desde de la red
de la UBA (ver web de la materia)
22
Prerrequisitos

Linux



manejo de archivos (ls, cd, pwd, cp, mv, rm, mkdir,
rmdir, ...); permisos (chmod, chown, chgrp);
procesamiento de archivos de texto (cat, grep, less,
sed, awk, cut); man.
http://www.linux.org/forums/beginner-tutorials.53/
Python 2.7.x


expresiones, variables, funciones, listas, listas por
comprensión, estructuras de control (if, for, while),
iteradores, lectura/escritura de archivos, cómo
importar módulos.
https://docs.python.org/2/tutorial/
23
Para hacer ahora...
1) Buscar el nombre de usuario (“ithNN”) en la planilla.

Es para usar en Linux, no en Windows.
2) Recordar el nombre de usuario!!!
3)Ingresar y cambiar el password AHORA.



Ingresar con usuario y contraseña (ver el pizarrón).
Abrir una Terminal.
Ingresar “passwd”, ENTER. Seguir las instrucciones.
4)(opcional) Tutorial Linux.

http://www.linux.org/forums/beginner-tutorials.53/
5)(opcional) Tutorial Python.

https://docs.python.org/2/tutorial/
24

Documentos relacionados