Perspectiva histórica
Transcripción
Perspectiva histórica
Conversión de texto en habla Tecnologías de la Información y Comunicaciones en Redes Móviles 2005/2006 Eduardo Lleida [email protected] Eva Navas [email protected] Tecnologías del habla Índice Introducción Estructura de un sistema CTH Modelado prosódico. Habla emocional Técnicas de síntesis de voz Bases de datos para CTH Evaluación Aplicaciones Perspectiva histórica Lenguajes de marcado para CTH Tecnologías del habla Perspectiva histórica 1779 - Prof. Christian Kratzenstein: explica las diferencias fisiológicas entre 5 vocales largas construye resonadores acústicos similares al tracto vocal, activados por lengüetas vibrantes (Schroeder, 1993) Tecnologías del habla Perspectiva histórica 1791 – Wolfgang von Kempelen: Máquina Mecánico-acústica Podía producir sonidos aislados y algunas combinaciones Tecnologías del habla Perspectiva histórica Máquina de von Kempelen En el museo Deutsches Museum (von Meisterwerken der Naturwissenschaft und Technik) de Munich Tecnologías del habla Perspectiva histórica 1835 – Wheatstone Perfeccionamiento de la máquina de von Kempelen Tecnologías del habla Perspectiva histórica 1936 – Reloj parlante Almacenamiento fotográfico en 4 discos de cristal 2 discos para los minutos 1 para las horas 1 para los segundos Otras palabras distribuidas entre los 4 discos Todos los discos eran siempre necesarios Tecnologías del habla Perspectiva histórica Ajuste de los amplificadores del reloj parlante Tecnologías del habla Perspectiva histórica 1838 – Willis: Encuentra la relación entre la geometría del tracto vocal y un sonido vocálico concreto Descubre que el tipo de vocal depende sólo de la longitud y no del diámetro del tubo Hasta 1960 se siguió probando con sistemas mecánicos o semi-eléctricos 1922 – Stewart Primer sintetizador eléctrico: sólo producía vocales Tecnologías del habla Perspectiva histórica 1939 – Homer Dudley VODER: Voice Operating Demonstrator Tecnologías del habla Perspectiva histórica 1951 – Franklin Cooper Pattern Playback Laboratorios Haskins Capaz de leer espectrogramas These days a chicken leg is a rare dish It’s easy to tell the depth of a well Four hours of steady work face us Tecnologías del habla Perspectiva histórica 1953 – Walter Laurence PAT Parametric Artificial Talker Tres resonadores eléctricos en paralelo Señal de entrada: ruido o zumbido Se convertían patrones pintados en 6 funciones que controlaban: Frecuencia de los tres formantes Amplitud de los segmentos sonoros Amplitud del ruido Frecuencia fundamental What did you say before that? Tecnologías del habla Perspectiva histórica 1953 – Gunner Fant Primer sintetizador de formantes en cascada OVE I Orator Verbis Electris Potenciómetros manuales controlaban la amplitud y frecuencia fundamental del la fuente sonora Sólo producían sonidos similares a los vocálicos Control de F1 y F2 How are you? I love you! Tecnologías del habla Perspectiva histórica 1962 – Fant y Martony OVE II con partes separadas para modelar la función de transferencia del tracto vocal para: Vocales, nasales y oclusivas Posibles excitaciones: Sonora, ruido de aspiración y ruido de fricación Continuación con OVE III y GLOVE en el KTH OVE II PAT Welcome to the Stockholm Speech Communication Seminar Tecnologías del habla Perspectiva histórica 1972 – John Holmes Sintetizador de formantes en paralelo Tecnologías del habla Perspectiva histórica Comparación de espectrogramas de la señal natural y sintética I enjoy the simple life He makes just what he wants Tecnologías del habla Perspectiva histórica 1958 – George Rosen DAVO (Dynamic Analog of the VOcal tract). Primer sintetizador articulatorio Los valores de las capacitancias e inductancias en se determinan según el área del tracto vocal en ese punto Abcde… Tecnologías del habla Perspectiva histórica 1968 – Noriko Umeda Primer CTH para inglés Basado en el modelo articulatorio Incluía análisis sintáctico 1976 – Kurzweil Ayuda a la lectura con escáner 1980 – Speak’n’Spell Usa LPC Basado en el chip TMS-5220 Tecnologías del habla Perspectiva histórica Votrax primer circuito integrado para síntesis Sintetizador de formantes en cascada y filtros pasobajo 1978 Richard Gagnon lo usa en su sintetizador 1979 – Allen, Hunnicut y Klatt MITalk CTH 1981 – Klatt Klattalk con una nueva fuente sonora Sistemas como Prose 2000 (1982) y DECtalk (1983) están basados en MITalk y Klattalk 1982 – Street Electronics Echo sintetizador de difonemas Tecnologías del habla Perspectiva histórica Aumento de la capacidad de los procesadores: Síntesis basada en corpus Festival L&H ATLAS AhoLab Síntesis basada en HMM Donovan FestVox Tecnologías del habla Tecnologías del habla Más ejemplos Diferentes técnicas http://www.ims.uni-stuttgart.de/~moehler/synthspeech/ On-line http://cslu.cse.ogi.edu/demos/ttsdemos.htm http://actor.loquendo.com/actordemo/ http://www.nuance.com/realspeak/demo/ http://demo.acapela-group.com/ http://www.research.ibm.com/tts/coredemo.shtml# http://www-gth.die.upm.es/research/synthesis/synth-form-concat.html Emociones http://emosamples.syntheticspeech.de/ Tecnologías del habla Bibliografía S. Narayanan, A. Alwan “Text to speech synthesis: new paradigms and advances”, Pearson Education Inc., 2004 T. Dutoit “An Introduction to Text to Speech Synthesis”, Kluwer Academic, 1997 J. Allen, S. Hunnicut, D. Katt, “From Text To Speech, The MITTALK System”, Cambridge University Press, 1987 D. O’Shaughnessy “Speech Communications Human and Machine”, IEEE Press, 2000 D. Klatt "Review of Text-to-Speech Conversion for English", Journal of the Acoustic Society of America 82(3) pp. 737-793, 1987 Smithsonian Speech Synthesis History Project (SSSHP) http://www.mindspring.com/~ssshp/ssshp_cd/ss_home.htm Tecnologías del habla Trabajos Uso de los modelos de Markov en CTH Algoritmo de marcado a periodo de pitch a partir de la señal del laringógrafo Segmentación automática de una base de datos emocional a nivel de fonema Diseño de un corpus para síntesis basada en selección de unidades Tecnologías del habla