Perspectiva histórica

Transcripción

Perspectiva histórica
Conversión de texto en habla
Tecnologías de la Información y Comunicaciones
en Redes Móviles
2005/2006
Eduardo Lleida [email protected]
Eva Navas [email protected]
Tecnologías del habla
Índice
„ Introducción
„ Estructura de un sistema CTH
„ Modelado prosódico. Habla emocional
„ Técnicas de síntesis de voz
„ Bases de datos para CTH
„ Evaluación
„ Aplicaciones
„ Perspectiva histórica
„ Lenguajes de marcado para CTH
Tecnologías del habla
Perspectiva histórica
„ 1779 - Prof. Christian Kratzenstein:
explica las diferencias fisiológicas entre 5 vocales
largas
„ construye resonadores acústicos similares al tracto
vocal, activados por lengüetas vibrantes
„
(Schroeder, 1993)
Tecnologías del habla
Perspectiva histórica
„ 1791 – Wolfgang von Kempelen:
„ Máquina Mecánico-acústica
„ Podía producir sonidos aislados y
algunas combinaciones
Tecnologías del habla
Perspectiva histórica
Máquina de von Kempelen
En el museo Deutsches Museum (von
Meisterwerken der Naturwissenschaft
und Technik) de Munich
Tecnologías del habla
Perspectiva histórica
„ 1835 – Wheatstone
„
Perfeccionamiento de la máquina de von Kempelen
Tecnologías del habla
Perspectiva histórica
„ 1936 – Reloj parlante
„ Almacenamiento fotográfico en 4 discos de cristal
„
„
„
2 discos para los minutos
1 para las horas
1 para los segundos
„ Otras palabras distribuidas
entre los 4 discos
„ Todos los discos eran
siempre necesarios
Tecnologías del habla
Perspectiva histórica
„ Ajuste de los amplificadores del reloj parlante
Tecnologías del habla
Perspectiva histórica
„ 1838 – Willis:
Encuentra la relación entre la geometría del tracto
vocal y un sonido vocálico concreto
„ Descubre que el tipo de vocal depende sólo de la
longitud y no del diámetro del tubo
„
„ Hasta 1960 se siguió probando con sistemas
mecánicos o semi-eléctricos
„ 1922 – Stewart
„
Primer sintetizador eléctrico: sólo producía vocales
Tecnologías del habla
Perspectiva histórica
„ 1939 – Homer Dudley
„ VODER: Voice Operating Demonstrator
Tecnologías del habla
Perspectiva histórica
„ 1951 – Franklin Cooper
„ Pattern Playback
„ Laboratorios Haskins
„ Capaz de leer espectrogramas
These days a chicken leg is a rare dish
It’s easy to tell the depth of a well
Four hours of steady work face us
Tecnologías del habla
Perspectiva histórica
„ 1953 – Walter Laurence
„ PAT Parametric Artificial Talker
„ Tres resonadores eléctricos en paralelo
„ Señal de entrada: ruido o zumbido
„ Se convertían patrones pintados en 6 funciones que
controlaban:
„ Frecuencia de los tres formantes
„ Amplitud de los segmentos sonoros
„ Amplitud del ruido
„ Frecuencia fundamental
What did you say before that?
Tecnologías del habla
Perspectiva histórica
„ 1953 – Gunner Fant
Primer sintetizador de formantes en cascada
„ OVE I Orator Verbis Electris
„ Potenciómetros manuales controlaban la
amplitud y frecuencia fundamental del la fuente
sonora
„ Sólo producían sonidos
similares a los vocálicos
„ Control de F1 y F2
„
How are you? I love you!
Tecnologías del habla
Perspectiva histórica
„ 1962 – Fant y Martony
„ OVE II con partes separadas para modelar la función de
transferencia del tracto vocal para:
„ Vocales, nasales y oclusivas
„ Posibles excitaciones:
„ Sonora, ruido de aspiración y ruido de fricación
„ Continuación con OVE III y GLOVE en el KTH
OVE II
PAT
Welcome to the
Stockholm Speech
Communication
Seminar
Tecnologías del habla
Perspectiva histórica
„ 1972 – John Holmes
„ Sintetizador
de formantes
en paralelo
Tecnologías del habla
Perspectiva histórica
„ Comparación de espectrogramas de la señal natural y
sintética
I enjoy the simple life
He makes just what he wants
Tecnologías del habla
Perspectiva histórica
„ 1958 – George Rosen
„ DAVO (Dynamic Analog of the VOcal tract). Primer
sintetizador articulatorio
„ Los valores de las capacitancias e inductancias en se
determinan según el área del tracto vocal en ese punto
Abcde…
Tecnologías del habla
Perspectiva histórica
„ 1968 – Noriko Umeda
Primer CTH para inglés
„ Basado en el modelo articulatorio
„ Incluía análisis sintáctico
„
„ 1976 – Kurzweil
„
Ayuda a la lectura con escáner
„ 1980 – Speak’n’Spell
Usa LPC
„ Basado en el chip TMS-5220
„
Tecnologías del habla
Perspectiva histórica
„ Votrax primer circuito integrado para síntesis
„ Sintetizador de formantes en cascada y filtros
pasobajo
„ 1978 Richard Gagnon lo usa en su sintetizador
„ 1979 – Allen, Hunnicut y Klatt
„ MITalk CTH
„ 1981 – Klatt
„ Klattalk con una nueva fuente sonora
„ Sistemas como Prose 2000 (1982) y DECtalk
(1983) están basados en MITalk y Klattalk
„ 1982 – Street Electronics
„
Echo sintetizador de difonemas
Tecnologías del habla
Perspectiva histórica
„ Aumento de la capacidad de los procesadores:
„
Síntesis basada en corpus
Festival
L&H
ATLAS
AhoLab
„ Síntesis basada en HMM
Donovan
FestVox
Tecnologías del habla
Tecnologías del habla
Más ejemplos
„ Diferentes técnicas
http://www.ims.uni-stuttgart.de/~moehler/synthspeech/
„ On-line
http://cslu.cse.ogi.edu/demos/ttsdemos.htm
http://actor.loquendo.com/actordemo/
http://www.nuance.com/realspeak/demo/
http://demo.acapela-group.com/
http://www.research.ibm.com/tts/coredemo.shtml#
http://www-gth.die.upm.es/research/synthesis/synth-form-concat.html
„ Emociones
http://emosamples.syntheticspeech.de/
Tecnologías del habla
Bibliografía
„ S. Narayanan, A. Alwan “Text to speech synthesis: new paradigms and
„
„
„
„
„
advances”, Pearson Education Inc., 2004
T. Dutoit “An Introduction to Text to Speech Synthesis”, Kluwer
Academic, 1997
J. Allen, S. Hunnicut, D. Katt, “From Text To Speech, The MITTALK
System”, Cambridge University Press, 1987
D. O’Shaughnessy “Speech Communications Human and Machine”,
IEEE Press, 2000
D. Klatt "Review of Text-to-Speech Conversion for English", Journal of
the Acoustic Society of America 82(3) pp. 737-793, 1987
Smithsonian Speech Synthesis History Project (SSSHP)
http://www.mindspring.com/~ssshp/ssshp_cd/ss_home.htm
Tecnologías del habla
Trabajos
„ Uso de los modelos de Markov en CTH
„ Algoritmo de marcado a periodo de pitch a partir
de la señal del laringógrafo
„ Segmentación automática de una base de datos
emocional a nivel de fonema
„ Diseño de un corpus para síntesis basada en
selección de unidades
Tecnologías del habla