Perspectiva histórica

Transcripción

Conversión de texto en habla
Tecnologías de la Información y Comunicaciones
en Redes Móviles
2005/2006
Eduardo Lleida [email protected]
Eva Navas [email protected]
Tecnologías del habla
Índice
Introducción
Estructura de un sistema CTH
Modelado prosódico. Habla emocional
Técnicas de síntesis de voz
Bases de datos para CTH
Evaluación
Aplicaciones
Lenguajes de marcado para CTH
1779 - Prof. Christian Kratzenstein:
explica las diferencias fisiológicas entre 5 vocales
largas
construye resonadores acústicos similares al tracto
vocal, activados por lengüetas vibrantes

(Schroeder, 1993)
1791 – Wolfgang von Kempelen:
Máquina Mecánico-acústica
Podía producir sonidos aislados y
algunas combinaciones
Máquina de von Kempelen
En el museo Deutsches Museum (von
Meisterwerken der Naturwissenschaft
und Technik) de Munich
1835 – Wheatstone

Perfeccionamiento de la máquina de von Kempelen
1936 – Reloj parlante
Almacenamiento fotográfico en 4 discos de cristal

2 discos para los minutos
1 para las horas
1 para los segundos
Otras palabras distribuidas
entre los 4 discos
Todos los discos eran
siempre necesarios
Ajuste de los amplificadores del reloj parlante
1838 – Willis:
Encuentra la relación entre la geometría del tracto
vocal y un sonido vocálico concreto
Descubre que el tipo de vocal depende sólo de la
longitud y no del diámetro del tubo

Hasta 1960 se siguió probando con sistemas
mecánicos o semi-eléctricos
1922 – Stewart

Primer sintetizador eléctrico: sólo producía vocales
1939 – Homer Dudley
VODER: Voice Operating Demonstrator
1951 – Franklin Cooper
Pattern Playback
Laboratorios Haskins
Capaz de leer espectrogramas
These days a chicken leg is a rare dish
It’s easy to tell the depth of a well
Four hours of steady work face us
1953 – Walter Laurence
PAT Parametric Artificial Talker
Tres resonadores eléctricos en paralelo
Señal de entrada: ruido o zumbido
Se convertían patrones pintados en 6 funciones que
controlaban:
Frecuencia de los tres formantes
Amplitud de los segmentos sonoros
Amplitud del ruido
Frecuencia fundamental
What did you say before that?
1953 – Gunner Fant
Primer sintetizador de formantes en cascada
OVE I Orator Verbis Electris
Potenciómetros manuales controlaban la
amplitud y frecuencia fundamental del la fuente
sonora
Sólo producían sonidos
similares a los vocálicos
Control de F1 y F2

How are you? I love you!
1962 – Fant y Martony
OVE II con partes separadas para modelar la función de
transferencia del tracto vocal para:
Vocales, nasales y oclusivas
Posibles excitaciones:
Sonora, ruido de aspiración y ruido de fricación
Continuación con OVE III y GLOVE en el KTH
OVE II
PAT
Welcome to the
Stockholm Speech
Communication
Seminar
1972 – John Holmes
Sintetizador
de formantes
en paralelo
Comparación de espectrogramas de la señal natural y
sintética
I enjoy the simple life
He makes just what he wants
1958 – George Rosen
DAVO (Dynamic Analog of the VOcal tract). Primer
sintetizador articulatorio
Los valores de las capacitancias e inductancias en se
determinan según el área del tracto vocal en ese punto
Abcde…
1968 – Noriko Umeda
Primer CTH para inglés
Basado en el modelo articulatorio
Incluía análisis sintáctico

1976 – Kurzweil

Ayuda a la lectura con escáner
1980 – Speak’n’Spell
Usa LPC
Basado en el chip TMS-5220

Votrax primer circuito integrado para síntesis
Sintetizador de formantes en cascada y filtros
pasobajo
1978 Richard Gagnon lo usa en su sintetizador
1979 – Allen, Hunnicut y Klatt
MITalk CTH
1981 – Klatt
Klattalk con una nueva fuente sonora
Sistemas como Prose 2000 (1982) y DECtalk
(1983) están basados en MITalk y Klattalk
1982 – Street Electronics

Echo sintetizador de difonemas
Aumento de la capacidad de los procesadores:

Síntesis basada en corpus
Festival
L&H
ATLAS
AhoLab
Síntesis basada en HMM
Donovan
FestVox
Más ejemplos
Diferentes técnicas
http://www.ims.uni-stuttgart.de/~moehler/synthspeech/
On-line
http://cslu.cse.ogi.edu/demos/ttsdemos.htm
http://actor.loquendo.com/actordemo/
http://www.nuance.com/realspeak/demo/
http://demo.acapela-group.com/
http://www.research.ibm.com/tts/coredemo.shtml#
http://www-gth.die.upm.es/research/synthesis/synth-form-concat.html
Emociones
http://emosamples.syntheticspeech.de/
Bibliografía
S. Narayanan, A. Alwan “Text to speech synthesis: new paradigms and

advances”, Pearson Education Inc., 2004
T. Dutoit “An Introduction to Text to Speech Synthesis”, Kluwer
Academic, 1997
J. Allen, S. Hunnicut, D. Katt, “From Text To Speech, The MITTALK
System”, Cambridge University Press, 1987
D. O’Shaughnessy “Speech Communications Human and Machine”,
IEEE Press, 2000
D. Klatt "Review of Text-to-Speech Conversion for English", Journal of
the Acoustic Society of America 82(3) pp. 737-793, 1987
Smithsonian Speech Synthesis History Project (SSSHP)
http://www.mindspring.com/~ssshp/ssshp_cd/ss_home.htm
Trabajos
Uso de los modelos de Markov en CTH
Algoritmo de marcado a periodo de pitch a partir
de la señal del laringógrafo
Segmentación automática de una base de datos
emocional a nivel de fonema
Diseño de un corpus para síntesis basada en
selección de unidades