La conversión de texto en habla - Grupo de Fonética

Transcripción

La conversión de texto en habla - Grupo de Fonética
Las etapas en la conversión de texto en habla
1/23
La conversión de texto en habla
Del texto…
…al habla
GTP-UPC
La conversión de texto en habla
text-to-speech, TTS
• Un sistema de conversión de texto en habla
(CTH) transforma cualquier texto escrito en
su realización sonora
• La estructura de un conversor suele ser
modular
• Cada módulo se ocupa de un aspecto de la
transformación de la cadena de caracteres
inicial hasta llegar a la señal sonora
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Esquema general de un
conversor de texto en habla
Pre-procesado y normalización
Análisis lingüístico
Asignación de prosodia
Transcripción fonética
Selección de unidades
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión
de texto en habla
Procesamiento previo del texto
Transcripción fonética automática
Análisis lingüístico
Asignación de elementos prosódicos
Conversión en parámetros acústicos
Conversión en parámetros acústicos
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
2/23
Las etapas en la conversión
de texto en habla
Procesamiento previo del texto
Procesamiento previo del texto
Transcripción fonética automática
Análisis lingüístico
Asignación de elementos prosódicos
Conversión en parámetros acústicos
• El módulo de procesamiento previo
del texto realiza las mismas
operaciones que un hablante leyendo
en voz alta
• El objetivo es preparar el texto para
la transcripción fonética automática
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Procesamiento previo del texto
• Elementos que se convierten en texto
'deletreado'
•
•
•
•
•
•
•
•
•
Abreviaturas (Sr. D., Exmo., pts...)
Siglas (UE, ONU...)
Cifras y ordinales (3, 1º, 2ª...)
Fechas (13.06.1959)
Horas (15.30h...)
Medidas (m., cm., Km....)
Números romanos (Pedro IV...)
Letras aisladas
Símbolos especiales ($...)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Procesamiento previo del texto
Problemas en el preprocesado del
texto
• Siglas y acrónimos
OTAN [otan] *[oteaene]
PP [pepe] *[pp]
PSOE [pesoe] *[peeseoe] *?[psoe]
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
3/23
Procesamiento previo del texto
Problemas en el preprocesado del texto
• Abreviaturas
VO *[bo] versión original
CV “caballos” - “curriculum vitae”
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Procesamiento previo del texto
Problemas en el preprocesado del texto
• Números de teléfono
93581686: * Noventa y tres millones
quinientos ochenta y uno mil seis cientos
ochenta y seis
• Horas
4.15: *cuatro punto quince
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Procesamiento previo del texto
Problemas en el preprocesado del texto
• Concordancia en expresiones numéricas
* trescientos sesenta y cinco líneas
* quinientos pesetas
• Formas apocopadas
100 casos: cien casos
10%: diez por ciento
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Procesamiento previo del texto
Problemas en el preprocesado del texto
• Códigos postales
28002 Madrid: *veintiocho mil dos
Madrid
• Fechas
13-11-98: *trece once noventa y ocho
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
4/23
Procesamiento previo del texto
Problemas en el preprocesado del texto
• Lectura del correo electrónico
• Errores mecanográficos
• Errores ortográficos
• Falta de signos de puntuación
• Lectura de SMS
• “Abreviaturas” nuevas
stoy n ksa 2# y slgo xa MAD tq
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Módulo de preprocesamiento del texto
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
• Módulo normalizador
• Selecciona la frase como
unidad de trabajo
• Normaliza la forma de
escritura sin perder
información relevante
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Módulo normalizador
Módulo de preprocesamiento del texto
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
Texto: El Sr. José Luis López tiene 201 viñas.
NORMALIZADOR
Frase normalizada: el Sr. josé luis lópez tiene 201
viñas.
Formato: mm abr Mm Mm Mm mm mm mm sig
Códigos: mm: palabra en minúscula, Mm: palabra con
inicial mayúscula, abr: abreviatura, sig: signo
ortográfico
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
• Módulo de preproceso
• Expande abreviaturas,
números, etc.
• Incluye la silabificación y la
acentuación
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
5/23
Módulo de preproceso
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
Frase normalizada: el Sr. josé luis lópez tiene 201
viñas.
Formato: mm abr Mm Mm Mm mm mm mm sig
PREPROCESO
Palabras: el se#or jos’
jos’e luis l’
l’opez tiene doscientas una
vi#as.
Palab_silab: el se. #or jo. s’
s’e luis l’
l’o. pez ti’
ti’e.ne dos.
ci’
ci’en. tas ‘u. na v’
v’i. #as.
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Transcripción fonética automática
Objetivos
• Creación de una cadena de unidades fonéticas fonemas o alófonos- a partir del texto escrito
preprocesado
• “Un sistema de transcripción fonética
automática es un algoritmo que transforma un
texto de entrada representado en caracteres
grafemáticos en una representación expresada
mediante símbolos fonéticos”
Ríos (1993:381)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión
de texto en habla
Procesamiento previo del texto
Transcripción fonética automática
Análisis lingüístico
Asignación de elementos prosódicos
Conversión en parámetros acústicos
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Transcripción fonética automática
• Implica una decisión sobre el inventario
de alófonos que condiciona el inventario
de unidades de síntesis
• Decisiones ortológicas
• Decisión sobre el “estándar”
• Decisión sobre variedad geográfica
• Decisión sobre registro
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
6/23
La transcripción fonética automática
• Estrategias para la transcripción
• Diccionario ayudado por un analizador en
lenguas con una correspondencia muy
irregular entre grafía y sonido
• Reglas complementadas por un diccionario
de excepciones en lenguas con una
correspondencia regular entre sonido y
grafía
Tipos de reglas de transcripción
RÍOS, A. (1993) "La información lingüística en la transcripción fonética automática del español",
Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 381-387.
http://www.sepln.org/revistaSEPLN/revista/13/13-Pag381.pdf
•
•
•
•
Reglas de fonemización
Reglas de transcripción grafía-fonema
Reglas de silabificación
Reglas de ajuste silábico aplicadas a
extranjerismos para adaptar su estructura
silábica a la fonotaxis del español
• Reglas de acentuación
• Reglas de fonetización
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Características de las reglas de transcripción
RÍOS, A. (1993) "La información lingüística en la transcripción fonética automática del español",
Boletín de la Sociedad Española para el Procesamiento del Lenguaje Natural 13: 381-387.
http://www.sepln.org/revistaSEPLN/revista/13/13-Pag381.pdf
• Reglas dependientes del contexto
• Reglas de substitución de un signo en otro
• p.ej.: regla de transcripción del grafema <g>
como [x] ante <e,i>
• Reglas de elisión de un elemento
• p.ej.: elisión de <u> en el dígrafo <gu> ante las
vocales <e,i>
• Reglas de inserción de un elemento
• p. ej.: regla de inserción de [k] después del
grafema <x>
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Problemas de la transcripción fonética
automática
• Nombres propios y palabras extranjeras
<#g> <#j> [dZ] [Z] [j] (George, jeans, Jordi, Jaume)
<#w> [w] [gw] (whisky)
<ph> [f] (Humphrey)
<sh> [S] [tS] (show, squash)
<sch> [S] (Schiller)
<tg> [dZ] (Sitges)
<#sC> [#esC] (stop, squash)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
7/23
Problemas de la transcripción fonética
automática
• Nombres propios de persona en español
Esther <th>: [t]
Lourdes <ou>: [u]
Feijoo <oo>: [o]
Desacentuación del primer elemento de los
nombres compuestos (implica detectar el
nombre compuesto)
Forma de las reglas de conversión de grafía a representación fonética
dependientes del contexto
SUBIRATS, C. - LLISTERRI, J. - POCH, D. (1988) "El diccionario electrónico del español con un conversor de texto a voz", in MARTÍN VIDE, C. (Ed.)
Lenguajes naturales y Lenguajes Formales III.1. Actas del III Congreso de Lenguajes Naturales y Lenguajes Formales. Sitges, Barcelona, 28 de septiembre 2 de octubre 1987. Barcelona: Promociones y Publicaciones Universitarias. pp. 341-356.
http://liceu.uab.es/~joaquim/publicacions/Subirats_Llisterri_Poch_88_Diccionario_Conversor.pdf
<c> --> [k] / #_ [a], [o], [u]
casa, cosa, cuna
<c> --> [T] / # _ [e], [i]
cena, cine
<c> --> [k] / V _ [a], [o], [u]
oca, acoso, acuna
<c> --> [T] / V _ [e], [i]
hace, fácil
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Forma de las reglas de conversión de grafía a representación fonética
dependientes del contexto
SUBIRATS, C. - LLISTERRI, J. - POCH, D. (1988) "El diccionario electrónico del español con un conversor de texto a voz", in MARTÍN VIDE, C. (Ed.)
Lenguajes naturales y Lenguajes Formales III.1. Actas del III Congreso de Lenguajes Naturales y Lenguajes Formales. Sitges, Barcelona, 28 de septiembre 2 de octubre 1987. Barcelona: Promociones y Publicaciones Universitarias. pp. 341-356.
http://liceu.uab.es/~joaquim/publicacions/Subirats_Llisterri_Poch_88_Diccionario_Conversor.pdf
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Módulo conversor grafema-alófono
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
• Transforma una secuencia de
grafías en una secuencia de
alófonos
<c> --> [k] / # (c) V_# C
acción, actor
<c> --> [k] / # _ [l], [r]V
tecla, crío
<c> --> [k] / _ #
coñac, vivac
<c> --> [tS] / _h
techo
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
8/23
Módulo conversor grafema-alófono
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
Palab_silab: el se. #or jo. s’e luis l’o. pez
ti’e.ne dos. ci’en. tas ‘u. na v’i. #as.
CONVERSOR GRAFEMA-ALÓFONO
Alófonos: el se. N~or xo. s’e luis l’o. peT
[sil] tj’e.ne Dos. Tj’en. tas ‘u. na B’i. N~as
[sil]
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Asignación de acento
• Determina las sílabas tónicas y las sílabas
átonas de la cadena de alófonos
• Requiere información sobre palabras que son
siempre átonas y reglas de acentuación para las
palabras que no llevan acento gráfico
• Puede realizarse como parte del preprocesado
de texto una vez se ha llevado a cabo la división
silábica
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
División silábica o silabificación
• Divide la cadena de alófonos en
sílabas
• Puede realizarse como parte del
preprocesado del texto,
partiendo de la representación
ortográfica
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión
de texto en habla
Procesamiento previo del texto
Transcripción fonética automática
Análisis lingüístico
Asignación de elementos prosódicos
Conversión en parámetros acústicos
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
9/23
Análisis lingüístico
Análisis lingüístico
• Necesidad del análisis lingüístico en la
conversión de texto a habla
• Transcripción fonética
• Predicción de la representación fonética a
partir de reglas morfológicas /
morfofonológicas que implican el
reconocimiento de morfemas en lenguas
con una correspondencia irregular entre
grafías y alófonos
• Necesidad del análisis lingüístico en la
conversión de texto a habla
• Asignación de elementos prosódicos
• La localización de las pausas no marcadas
ortográficamente, la asignación de acento y
la determinación de las unidades melódicas
requieren un análisis sintáctico
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Análisis morfológico
• Objetivos
• Segmentación del texto en
morfemas
• Asignación de etiquetas
correspondientes a las partes de la
oración a las palabras (POS
tagging)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Conversión de texto en habla para el inglés en el sistema MITalk
ALLEN, J. - HUNNICUTT, M. S. - KLATT, D. H. (with R. C. ARMSTRONG and D. PISONI)
(1987) From Text to Speech: The MITalk System. Cambridge: Cambridge University Press
• Módulo DECOMP para la segmentación
del texto de entrada en morfemas
• Diccionario de morfemas
• Gramática que predice las combinaciones
posibles e imposibles de morfemas
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
10/23
Módulo categorizador
Módulo categorizador
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
• Asigna categorías gramaticales a
las palabras
Palabras: el se#or jos’e luis l’opez tiene doscientas una
vi#as.
Palab_silab: el se. #or jo. s’e luis l’o. pez ti’e.ne dos.
ci’en. tas ‘u. na v’i. #as.
CATEGORIZADOR
Categorías: ART N NP NP NP V NUM NUM N SIG
Códigos: ART: artículo, N: nombre, NP: nombre propio,
V: verbo, NUM: número, SIG: signo ortográfico
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Análisis sintáctico
• Para una asignación de elementos prosódicos
que tenga como resultado una síntesis con un
alto grado de naturalidad es necesario un
análisis sintáctico, semántico y pragmático del
texto
• Segmentación del texto en unidades sintácticas
• Asignación de una estructura de constituyentes
(parsing)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Módulo de análisis sintáctico
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
Palabras: el se#or jos’e luis l’opez tiene
doscientas una vi#as.
Categorías: ART N NP NP NP V NUM
NUM N SIG
ESTRUCTURADOR
Árbol sintáctico
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
11/23
Las etapas en la conversión
de texto en habla
Procesamiento previo del texto
Transcripción fonética automática
Análisis lingüístico
Asignación de elementos prosódicos
Conversión en parámetros acústicos
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión
de texto en habla
Asignación de duración
Asignación de intensidad
Asignación de pausas
Asignación de curva melódica
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Asignación de elementos prosódicos
Objetivos
Conjunto de reglas que especifican
• Duración de los segmentos
• Intensidad de los segmentos / del
enunciado
• Contorno melódico del enunciado
• Colocación y duración de las pausas
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión
de texto en habla
Asignación de duración
Asignación de intensidad
Asignación de pausas
Asignación de curva melódica
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
12/23
Factores que determinan la duración
segmental
Asignación de duración segmental
• Requiere un modelo de duración
segmental que considere
• Duración intrínseca de cada
segmento
• Modificaciones contextuales
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
•
•
•
•
•
•
Acento
Consonante que sigue al segmento
Vocal que sigue al segmento
Pausa después del segmento
Posición del segmento en el enunciado
Longitud de la palabra en la que se encuentra
el segmento
• Velocidad de elocución
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Modelo de duración segmental para el inglés
Modelo de duración segmental para el inglés
KLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English
Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication
Research. New York: Academic Press. pp. 287-300
KLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English
Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication
Research. New York: Academic Press. pp. 287-300
DUR = [(INDUR-MINDUR)*PRCNT]/100+MINDUR
• Elementos que determinan el porcentaje de reducción
de los segmentos
• Inserción de pausas
• Alargamiento al final de una frase
• Acortamiento de sílabas que no se encuentran al
final de una palabra
• Alargamiento debido al énfasis
• Modificación de la duración en función del contexto
postvocálico de las consonantes
• INDUR: duración intrínseca del segmento (en
ms.) calculada a partir de un corpus en el que
los segmentos se analizan en frases marco
• MINDUR: duración mínima del segmento si
está acentuado
• PRCNT: porcentaje de reducción de la
duración del segmento, determinado por regla
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
13/23
Modelo de duración segmental para el inglés
Modelo de duración segmental para el inglés
KLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English
Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication
Research. New York: Academic Press. pp. 287-300
KLATT, D. H. (1979) "Synthesis by Rule of Segmental Durations in English
Sentences", in B. LINDBLOM - S. OHMAN (Eds.) Frontiers of Speech Communication
Research. New York: Academic Press. pp. 287-300
• Acortamiento de sílabas pertenecientes
a palabras polisilábicas
• Acortamiento de consonantes en
posición no inicial de palabra
• Acortamiento de segmentos no
acentuados
• Acortamiento de los segmentos
pertenecientes a grupos consonánticos
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión
de texto en habla
Asignación de duración
Asignación de intensidad
Asignación de pausas
Asignación de curva melódica
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
• Alargamiento de vocales debido a la
presencia de una oclusiva sorda
• Acortamiento de sílabas que no se
encuentran al final de una frase
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Asignación de intensidad segmental
• Determina la intensidad de cada
segmento en función de las variables
que afectan a este parámetro
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
14/23
Modelo de intensidad vocálica para el español y el catalán
BLECUA FALGUERAS, B. - ACÍN, V. (1995) "Propuesta de un modelo de intensidad vocálica del castellano y el
catalán aplicable a un sistema de conversión de texto a habla", Procesamiento del Lenguaje Natural, Revista nº 17:
257-271. http://www.sepln.org/revistaSEPLN/revista/17/17-Pag257.pdf
• Basado en el análisis de intensidad vocálica en
un corpus de frases leídas
• Modelo en árbol que introduce una serie de
factores que modifican la intensidad vocálica
• Posición prepausal o no prepausal
• Aparición de la vocal en sílaba tónica o átona
• Posición inicial, medial o final de la vocal en el
enunciado
• Aparición de la vocal en un enunciado corto o largo
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Objetivos de la asignación de pausas
• Inserción de las pausas marcadas
ortográficamente en el texto
• Inserción las pausas no marcadas
ortográficamente en el texto
• Determinación de la duración de la
pausa
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión
de texto en habla
Asignación de duración
Asignación de intensidad
Asignación de pausas
Asignación de curva melódica
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
La contribución de las pausas
• Texto sintetizado con pausas
(Telefónica I+D, Amigo v. 2.6)
• Texto sintetizado sin pausas
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
15/23
Marcado ortográfico de pausas en un
corpus real
• 1629 pausas en total
• 1260 pausas marcadas ortográficamente
• 578 con punto; 527 con coma;
coma 17 con punto y
coma; 51 con dos puntos; 63 con signo de
interrogación; 22 con signo de admiración; 2
con puntos suspensivos
• 369 pausas no marcadas ortográficamente
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Modelo de duración y asignación de pausas para el español
PUIGVÍ, D. - JIMÉNEZ, D. - FERNÁNDEZ, J. M. (1994) "Parametrización de las pausas ortográficas en castellano. Aplicación a un
conversor de texto a habla", Actas del X Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural, Córdoba, 20-22 de
julio de 1994.
http://liceu.uab.es/publicacions/Puigvi_Jimenez_Fernandez_94_Pausas_Sintesis_Castellano.pdf
• Basado en al análisis de un corpus de lectura
• Determinación de la duración de las pausas
marcadas mediante signos de puntuación
• Factores fonéticos y sintácticos que determinan
la aparición de pausas no marcadas por signos
de puntuación
• Determinación de la duración de las pausas no
marcadas por signos de puntuación
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Módulo pausador
Módulo pausador
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
• Transforma en pausas las
palabras ortográficas
• Añade pausas no marcadas
ortográficamente
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Palabras: el se#or jos’e luis l’opez tiene doscientas una
vi#as.
Categorías: ART N NP NP NP V NUM NUM N SIG
PAUSADOR
Palabras: el se#or jos’
jos’e luis l’
l’opez [pau_v] tiene doscientas
una vi#as.
Palab_silab: el se. #or jo. s’
s’e luis l’
l’o. pez [pau_v] ti’
ti’e.ne
dos. ci’
ci’en. tas ‘u. na v’
v’i. #as.
Códigos: [pau_v]: pausa insertada ante el verbo
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
16/23
Las etapas en la conversión
de texto en habla
Asignación de duración
Asignación de intensidad
Asignación de pausas
Asignación de curva melódica
La contribución de la curva melódica
• Texto sintetizado con variaciones de
F0 (Telefónica I+D, Amigo v. 2.6)
• Texto sintetizado sin variación de F0
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Asignación de curva melódica
• En algunos sistemas la
asignación de la curva melódica
puede utilizar un análisis previo
de la estructura entonativa de los
enunciados (prosodic parsing)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Modelo de generación de patrones melódicos para el español
GARRIDO, J. M. (1996) Modelling Spanish Intonation for Text-to-Speech Applications. Ph.D. Thesis. Departament
de Filologia Espanyola, Facultat de Lletres, Universitat Autònoma de Barcelona. 2 vols.
http://liceu.uab.es/juanma/tesis.html
• Desarrollado a partir del análisis de un corpus de
textos leídos
• Modelo fonético por niveles
Nivel global I: asignación de un patrón melódico al párrafo,
situación de los puntos de reset y delimitación de grupos
melódicos
Nivel global II: asignación de patrones a cada grupo melódico
y superposición de los movimientos locales de F0 que marcan
límites sintácticos o modalidad oracional
Nivel local: superposición de los movimientos de F0 asociados
con el acento léxico
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
17/23
La estilización
(Garrido 2001)
La declinación
GARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:
propuesta de modelización", Lingüística Española Actual 23, 2: 173-209
200
180
160
F0 (Hz)
Reducción de la curva
melódica del
enunciado ‘Ramón
llegó en avión’,
pronunciado por un
locutor masculino, a
una serie de puntos de
inflexión relevantes
Línea
superior
Contorno melódico correspondiente a la oración ‘La reina del
baile bailaba la rumba de moda.’ (locutor masculino),
representado por medio de líneas de referencia. Ejemplo
extraído de Garrido et al. (1995)
140
120
100
80
60
Línea
inferior
Tiempo
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Estructura jerárquica
Árbol prosódico inicial
GARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:
propuesta de modelización", Lingüística Española Actual 23, 2: 173-209
GARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:
propuesta de modelización", Lingüística Española Actual 23, 2: 173-209
+
Descomposición en
patrones melódicos
superpuestos de la
curva melódica del
enunciado ‘Ramón
llegó en avión’,
pronunciada por un
locutor masculino
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
18/23
Nivel global
Nivel local
GARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:
propuesta de modelización", Lingüística Española Actual 23, 2: 173-209
GARRIDO, J. M. (2001) "La estructura de las curvas melódicas del español:
propuesta de modelización", Lingüística Española Actual 23, 2: 173-209
Líneas de
referencia: líneas
continuas de trazo
grueso
correspondientes a
los tres grupos
fónicos de la
oración.
Líneas de
supradeclinación:
líneas discontinuas
de distinto grosor
Curva estilizada
real: puntos unidos
mediante líneas
rectas
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Líneas de referencia:
líneas continuas
Puntos de inflexión de
la curva estilizada
real: puntos de color
claro
Puntos de inflexión de
la curva estilizada
generada por el
modelo: puntos de
color oscuro
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Modelo entonativo del conversor de texto en habla Actor (Loquendo) en español
Modelo entonativo del conversor de texto en habla Actor (Loquendo) en español
GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",
Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",
Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
• Las unidades de síntesis son fragmentos largos
de señal extraída del contexto prosódico
apropiado
• La F0 de la señal original se mantiene
inalterada
• Adecuado para “prosodia enunciativa neutra”
representada en la base de datos acústica
• Necesidad de un módulo de cálculo de F0 para
los enunciados interrogativos
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
• Estilización de la curva melódica
• Cuatro niveles tonales
• P (pico)
• V (valle)
• M (medio)
• P+ (nivel por encima de un pico)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
19/23
Modelo entonativo del conversor de texto en habla Actor (Loquendo) en español
Modelo entonativo del conversor de texto en habla Actor (Loquendo) en español
GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",
Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",
Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
• Estructura jerárquica de los patrones
melódicos
• Patrones locales
• En el ámbito del grupo acentual
• Patrones globales
• En el ámbito del grupo entonativo
• En el ámbito de la oración
• Segmentación prosódica en
• Grupo acentual
• Sílaba tónica + sílabas átonas
• Grupo tónico
• Palabra tónica + átonas que la preceden
• Marcado con etiquetas categoriales para la
asignación de pausas
• Grupo entonativo
• Suele coincidir con el grupo fónico o con límites
sintácticos
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Estilización de la curva melódica
Asignación de niveles tonales
GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",
Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",
Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
Curva melódica
del enunciado
‘¿Conoces el
contenido del
artículo de la
Constitución?’ en
la que aparecen
los puntos de
inflexión
considerados
durante el
análisis
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
P+
M
P
V
Curva melódica del
segmento ‘Sabes
cuando pasan…’
perteneciente al
enunciado '¿Sabes
cuándo pasan a
recoger los muebles
viejos este mes?' en
la que aparecen
representados los
puntos M, P+, V y P
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
20/23
Patrones locales
Patrones globales
GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",
Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",
Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
1
2
3
4
Curva melódica del
enunciado ‘El acto de la
firma transcurrió tal y
como habían pactado
ambas delegaciones la
víspera’, pronunciada
por un locutor
masculino. Las líneas
rectas representan las
‘líneas de referencia’
correspondientes a los
puntos P (superior) y V
(inferior) de la curva
melódica
Curva melódica del
enunciado
‘¿Conoces el
contenido del
artículo de la
Constitución?’ en el
que aparecen
estilizados el patrón
inicial (1), dos
intermedios (2,3) y
el patrón final (4)
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Grupos entonativos
Evaluación del modelo
GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",
Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",
Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
Curva melódica
correspondiente al
enunciado ‘El acto de la
firma transcurrió tal y
como habían pactado
ambas delegaciones la
víspera’ pronunciado
por un locutor
femenino. Sobre cada
grupo entonativo se han
dibujado las líneas de
referencia
correspondientes
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
• 24 pares formados por estímulo natural estímulo sintetizado
• 10 jueces expertos y 20 no expertos
• Evaluación del grado de semejanza entre
la curva melódica natural y la sintetizada
en una escala del 1 al 4
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
21/23
Evaluación del modelo
GARRIDO, J. M.- ORTÍN, I.- QUAZZA, S.- SALZA, P. L.- MANCINI, F. (2000) "Desarrollo de un módulo de
asignación de parámetros prosódicos para la versión en español del sistema de conversión texto-habla ACTOR®",
Procesamiento del Lenguaje Natural 26: 183-190.
http://www.sepln.org/revistaSEPLN/revista/26/garrido-alminana.pdf
Módulo de generación de parámetros prosódicos
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.
Tj’en. tas ‘u. na B’i. N~as [sil]
Categorías: ART N NP NP NP V NUM NUM N SIG
Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.
Tj’en. tas
PROSO
Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60
Entonación (Hz):
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en
habla
Procesamiento previo del texto
Transcripción fonética automática
Análisis lingüístico
Asignación de elementos prosódicos
Conversión en parámetros acústicos
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Conversión en parámetros acústicos
• Conjunto de reglas que tiene como objetivo:
• Asignar valores de parámetros acústicos a
cada segmento o a cada unidad de síntesis
• Especificar las transiciones entre segmentos
•
Los valores de los parámetros acústicos
controlan un sintetizador que produce la
onda sonora correspondiente al mensaje
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
22/23
Concatenación de unidades almacenadas
mediante síntesis paramétrica
• Creación de un diccionario de unidades de
síntesis
• Parametrización de las unidades
• Modelo del tracto vocal para la síntesis a partir
de los parámetros utilizados
Síntesis por LPC (Linear Predictive Coding)
Síntesis por formantes
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Módulos de conversión en parámetros acústicos para la
conversión de texto a habla
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
Módulo de conversión en parámetros acústicos
CASTEJÓN, F. - ESCALADA, G. - MONZÓN, L. - RODRÍGUEZ, M. A. - SANZ, P. (1994) "Un
conversor texto-voz para el español", Comunicaciones de Telefónica I+D, 5, 2: 114-131
• Módulo de síntesis
• Transforma la información de
la secuencia de unidades de
síntesis y de los parámetros
prosódicos en una onda sonora
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Módulos de un conversor de texto en habla
Alófonos: el se. N~or xo. s’e luis l’o. peT [sil] tj’e.ne Dos.
Tj’en. tas ‘u. na B’i. N~as [sil]
Duraciones (ms): 76 60 56 65 89 75 43 67 56 60 60
Entonación (Hz):
PARLA Selección de unidades de síntesis en el
inventario
Generación de tramas de síntesis
SÍNTESIS Conversión en una onda sonora mediante el
sintetizador
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Las etapas en la conversión de texto en habla
23/23
Las etapas en la conversión
de texto en habla
Procesamiento previo del texto
Transcripción fonética automática
Análisis lingüístico
Asignación de elementos prosódicos
Conversión en parámetros acústicos
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola
Joaquim Llisterri
Grup de Fonètica, Departament de Filologia Espanyola

Documentos relacionados