Modelo de producción de voz

Transcripción

Modelo de producción de voz
Modelo de producción
de la voz
Fonética y fonémica



Fonema: Unidad teórica básica para describir
cómo la voz transporta un significado
lingüístico.
Sonido: Realización práctica de un fonema
Fonémica: Estudio de las unidades
abstractas (fonemas) y sus relaciones en una
lengua
1
Fonética y fonémica

Fonética: Estudio de los sonidos
reales:




Fonética articulatoria
Fonética acústica
Fonética auditiva
Alófonos: Representan pequeñas
variaciones sobre cada fonema,
permitidas en cada lenguaje.
Sistema de producción de la voz

Órganos del sistema de
producción de la voz:




Pulmones: Fuente
Laringe: Contiene las cuerdas
vocales
Cavidad faríngea y cavidad
oral, agrupadas en el tracto
vocal
Cavidad nasal (tracto nasal)
2
Anatomía de la laringe
Las cuerdas vocales
3
Sistema de producción de la voz
Órganos:
Función:
Clasificación del sonido

Según el tipo de excitación:

Sonoros: cuando las cuerdas vocales vibran.


Sordos: Cuando las cuerdas vocales no vibran.


Ejemplos: /s/
Oclusivos: Cuando se interpone un obstáculo al
flujo del aire, que desaparece de pronto.


Ejemplos: /a/, /e/, etc.
Ejemplos: /b/, /p/, /t/
Combinaciones de los anteriores

Ejemplos: /z/ en “cebras”
4
Formantes


Son resonancias producidas en las cavidades
de los órganos de producción
Las frecuencias a las que se producen los
formantes dependen de:



Longitud total del tracto faríngeo-oral
Posición de los estrechamientos o constricciones
en el tracto
Grado de estos estrechamientos
Ejemplo: vocales
/i/
/a/
/o/
/a/ cerrada
/u/
/e/
5
Formantes

Reglas que relacionan las frecuencias de los
formantes y las características del tracto
vocal:




La frecuencia de F1 es proporcional al
estrechamiento en la mitad frontal del tracto vocal
La frecuencia de F1 se eleva al estrechar la
faringe
La frecuencia de F2 disminuye con las
constricciones producidas por la lengua
La frecuencia de todos los formantes disminuye
con la constricción formada por los labios.
Clasificación de vocales

Modo de articulación (formante 1)




Cerradas (i, u)
Medias (e, o)
Abiertas (a)
Lugar de articulación (formante 2)



Anteriores (i, e)
Centrales (a)
Posteriores (o, u)
6
Triángulo vocálico
3000
freq. 2o
formante (Hz)
2500
2000
/i/
/e/
/u/
/o/
1500
1000
500
/a/
200 300 400 500 600 700 800 9001000
freq. 1er formante (Hz)
Pronunciación de vocales
7
Semivocales y consonantes

Semivocales:


Constituido por el grupo /w/, /l/, /r/, /y/
Consonantes:



Representan sonidos producidos con un mayor grado de
constricción que las vocales.
Pueden producirse con cualquier tipo de excitación: sorda,
sonora, etc.
Se clasifican en:
 Oclusivas
 Fricativas
 Nasales
Clasificación de las consonantes

Según el modo de
articulación:





Oclusivas: (b, d, g, p, t, k)
Fricativas: (s, f, z, x, y,)
Africadas: (ch)
Nasales: (m, n, ñ)
Líquidas:
 Laterales (l, ll)
 Vibrantes (r, R)

Según el lugar de
articulación:







Bilabiales (b, p, m)
Labiodentales (f)
Linguodentales (t, d)
Linguointerdentales (z)
Linguoalveolares (s, n, l, r, R)
Linguopalatares (y, ch, ñ, ll)
Linguovelares (k, g, x)
8
Ejemplo: consonantes sonoras
/m/
/l/
/n/
/y/
/ñ/
/R/
Ejemplo: consonantes fricativas
9
Fonemas del español
Algunas curiosdades (I)
10
Algunas curiosidades (II)
La señal de voz


La señal de voz se puede ver como un
proceso estocástico no estacionario.
Características básicas:




Ancho de banda principal: 4 kHz
Pronunciación de fonemas: 4 a 20 por segundo
Tiempo mínimo de duración de un fonema: 50 ms
Tiempo de consideración de señal estacionaria
(por convenio): 20ms
11
La señal de voz
La señal de voz
12
Modelo del tracto vocal

Suponemos:



Que el sonido se propaga en el tracto en una sola
dirección. Los tejidos blandos evitan la
propagación radial.
Que las ondas sonoras son ondas planas que se
propagan desde la glotis a los labios.
Que el tracto vocal se puede modelar por una
serie de tubos acústicos de paredes duras y sin
pérdidas.
Modelo del tracto vocal
13
Modelo del tracto vocal

La función de transferencia glotal se puede modelar
como un filtro todo polos:
H(z) =
G
p
1+ # ak z"k
k=1

Podemos modelar por tanto la señal de voz como:
p
!
s[n] = G x[n] " # ak s[n " k]
k=1
%Ruido blanco y gaussiano Voz sonora
'
1
x[n] = &
Voz sorda
$" [ n # r N 0 ]
N0 r
('
!
!
Modelo del tracto vocal

Con todo lo anterior, podemos elegir el conjunto de
coeficientes ak que minimicen:
p
$
'
E = # & s[n] + # ak s[n " k])
(
n="* %
k=1
*

2
Derivando e igualando a cero, obtenemos un sistema
!
de ecuaciones
con el que es posible obtener los
parámetros ak.
14
Modelo de producción

Voz:




Aire producido en los pulmones
Si el sonido es sonoro, es modulado por las cuerdas vocales, que vibran a
la frecuencia fundamental (pitch)
Modificado por el tracto vocal
En sonidos nasales una parte del aire fluye por orificios nasales
Modelo de pulso glotal
15
Codificador LPC-10
Codificador
Análisis:
• Decisión sonoro/sordo
• Pitch (sólo sonoro)
• Potencia de señal
(Ganancia)
• Parámetros del filtro
Voz Original
Decodificador
Pitch
Tren de impulsos
Potencia de señal
V/U
G
Modelo del
tracto
Voz sintética
Ruido aleatorio
Codificador LPC-10



Utiliza tramas de 180 muestras (44.44 tramas/segundo para fs=8.000
Hz y 16 bits por muestra)
El régimen binario final es de 2,4 kbps (54 bits por trama):
El pitch se codifica con 7 bits.






La decisión sordo-sonoro se realiza con la tasa de cruces por cero y se
codifica con un solo bit.
La ganancia del modelo se codifica con 5 bits
Se calculan y transmiten 10 coeficientes de reflexión para una trama
catalogada como sonora
Los dos primeros se codifican como parámetros LAR’s con cinco bits cada
uno.
El resto se codifican linealmente
Descrito en: “Federal Standard 1015, Telecommunications: Analog to
Digital Copnversion of Radio Voice By 2400 Bit/Second Linear
Predictive Coding, National Communication System, Office Technology
and Standards, Nov. 1984
16