Codificación de Voz Índice - Departamento de Teoría de la Señal y

Transcripción

Codificación de Voz Índice - Departamento de Teoría de la Señal y
ATDS - Codificación de Voz
Codificación de Voz
Fernando Díaz de María
Departamento de Teoría de la Señal y Comunicaciones
Universidad Carlos III de Madrid
1
Índice
■
■
■
■
■
Especificaciones y Fundamentos
Estrategias de Codificación
Codificación de Forma de Onda
Vocodificación
Codificación CELP
2
Fernando Díaz de María - DTSC - UCIIIM
1
ATDS - Codificación de Voz
Especificaciones y fundamentos
3
Codificación de voz:
objetivos y requisitos
■
■
■
■
■
■
Calidad y capacidad
Retardo de codificación
Robustez
Complejidad y coste
Codificaciones en cadena y transcodificación
Transmisión de datos en la banda de voz
4
Fernando Díaz de María - DTSC - UCIIIM
2
ATDS - Codificación de Voz
Fundamentos de la codificación de voz
■
Características fundamentales de la señal de voz
–
–
–
■
Redundancia
Amplio margen dinámico
No estacionariedad
Técnicas básicas
–
–
–
Métodos variantes para eliminación de la redundancia
Cuantificación adaptativa
Enmascaramiento del ruido
5
Codificar voz consiste en ...
“Analizar la señal de voz, eliminar sus
redundancias, y codificar eficientemente la parte
no redundante de manera perceptualmente
aceptable”
6
Fernando Díaz de María - DTSC - UCIIIM
3
ATDS - Codificación de Voz
Estrategias de codificación
7
Tipos de codificadores
■
Codificadores de forma de onda:
su objetivo es preservar la forma de onda de la señal
■
Vocoders (“voice coder”):
su objetivo es preservar las características perceptualmente
relevantes de la señal de voz; para ello asumen un modelo
simplificado de producción de voz
■
Codificadores híbridos:
incorporan conceptos de los dos grupos anteriores
8
Fernando Díaz de María - DTSC - UCIIIM
4
ATDS - Codificación de Voz
Codificadores y régimen binario
9
Codificadores de forma de onda
■
■
■
■
■
Sencillos de implementar
Bajo retardo
No utilizan un modelo específico de la señal de
voz y por tanto son muy generales
Regímenes binarios en torno a 32 kb/s
Tipos:
–
–
Dominio del tiempo
Dominio de la frecuencia
10
Fernando Díaz de María - DTSC - UCIIIM
5
ATDS - Codificación de Voz
Modelo de producción de voz
11
Vocodificadores
■
■
Se basan en modelos específicos de la señal de
voz, identificando aspectos relevantes del espectro
localizado de la señal de voz
Funcionamiento:
–
–
–
■
■
Estimación de los parámetros del modelo
Codificación y transmisión de los mismos
Reconstrucción de la voz en el extremo receptor
Requieren evaluación subjetiva
Calidad de comunicaciones en el rango 2.4 - 9.6
kb/s (hoy día se utilizan sólo hasta 4.0 kb/s)
12
Fernando Díaz de María - DTSC - UCIIIM
6
ATDS - Codificación de Voz
Codificación híbrida:
análisis mediante síntesis
Modelo de producción de voz
+
Fidelidad a la forma de onda (análisis mediante síntesis)
+
Enmascaramiento del ruido
13
Bibliografía (I)
■
■
A. Gersho: “Speech Coding”; in Digital Speech
Processing. Speech Coding, Synthesis and Recognition;
pp. 73-100; A. N. Ince, Editor; Norwell, MA: Kluwer;
1991.
A. Spanias: “Speech Coding: A Tutorial Review”;
Proceedings of the IEEE, vol. 82, no. 10, pp. 1541-1582,
Oct. 1994 .
14
Fernando Díaz de María - DTSC - UCIIIM
7
ATDS - Codificación de Voz
Vocodificación
15
Introducción
■
■
Se basan en modelos específicos de la señal de voz,
identificando aspectos relevantes del espectro localizado
de la señal de voz (explotan la baja sensibilidad del oído a
la información de fase)
Funcionamiento:
–
–
–
■
■
Estimación de los parámetros del modelo
Codificación y transmisión de los mismos
Reconstrucción de la voz en el extremo receptor
Requieren evaluación subjetiva
Calidad de comunicaciones en el rango 2.4 - 9.6 kb/s (hoy
día se utilizan sólo hasta 4.0 kb/s)
16
Fernando Díaz de María - DTSC - UCIIIM
8
ATDS - Codificación de Voz
Estimación de los coeficientes del
predictor
Los coeficientes del predictor
se determinan para minimizar
la energía del error de predicción:
P
e[n] = xw[n] − ∑ck xw[n − k]
E=
k=1
∞
∑ e [n]
2
w
n =−∞
17
Solución (I)
La minimización de la energía del error conduce a:
 R1,1


 R2,1





 RP ,1

donde
Ri , j =
R1, P  c1   R0,1 
  

  

R2, P  c2   R0,2 
  

  = 

  

  

  

RP , P  c P   R0, P 
R1,2
R2,2
RP , 2
∞
∑ w [n]x [n − i]x [n − j]
2
e
w
w
n = −∞
y ci son los coeficientes del predictor
18
Fernando Díaz de María - DTSC - UCIIIM
9
ATDS - Codificación de Voz
Solución (II)
Método de la Autocorrelación
we[n] =1, ∀n

wx[n], ventana limitada en tiempo

(rectangular, Hamming, ...)

Se enventana la señal de voz
Método de la Covarianza
we[n], ventana limitada en tiempo

(rectangular, Hamming, ...)

w n =1, ∀n
 x[ ]
Se enventana el error
19
Vocoder LPC (“Linear Predictive Coding”) (I)
■
Recordemos el sistema de síntesis de un codificador
DPCM
■
■
■
Error de predicción
Filtro de síntesis
Excitación
Modelo del tracto vocal
Los coeficientes de un filtro todo-polos que modela el
tracto vocal pueden obtenerse mediante predicción lineal
20
Fernando Díaz de María - DTSC - UCIIIM
10
ATDS - Codificación de Voz
Vocoder LPC (II)
■
El primer codificador tipo LPC, que es la técnica
más importante desarrollada en los últimos 25 años
–
–
–
■
buen modelo acústico del tracto vocal
cuando falla, todavía retiene las propiedades
perceptualmente importantes
adecuada para realizaciones hardware
Ventajas: calidad aceptable, baja tasa binaria, coste
computacional moderado
■
Inconveniente: modelo excesivamente simple
21
Vocoder LPC (III)
■ Parámetros
–
–
–
–
■ Asignación
–
–
–
–
a estimar:
coeficientes del filtro
decisión sorda/sonora
“pitch”
energía
de bits
coeficientes: 6 bits/coef
“pitch”: 6 bits
energía (logaritmo): 5 bits
decisión sorda/sonora: 1 bit
72 bits cada 20-30 ms.
(2.4-4.8 kb/s)
22
Fernando Díaz de María - DTSC - UCIIIM
11
ATDS - Codificación de Voz
Bibliografía
■
■
D. O’Shaugnessy: Speech Communication, Humman and Machine;
Reading MA: Addison-Wesley; 1987
A.M. Kondoz: Digital Speech: Coding for Low Bit Rate
Communications Systems; Chichester, England: John Wiley & Sons;
1994.
23
Codificación de forma de onda en el
dominio del tiempo
24
Fernando Díaz de María - DTSC - UCIIIM
12
ATDS - Codificación de Voz
Índice
–
–
–
–
PCM
DPCM
ADPCM
APC
25
Codificación de forma de onda
en el dominio del tiempo
■
■
■
■
Sencillos de implementar
Bajo retardo
No utilizan un modelo específico de la señal de
voz y por tanto son muy generales
Regímenes binarios en torno a 32 kb/s
26
Fernando Díaz de María - DTSC - UCIIIM
13
ATDS - Codificación de Voz
“Pulse Code Modulation” (PCM)
■
■
La forma más sencilla de codificación:
Muestreo + Cuantificación
Cuantificación uniforme
–
■
12 bits/muestra (96kb/s)
Cuantificación logarítmica:
–
–
–
ley A (Europa) o ley µ (América)
8 bits/muestra (64 kb/s)
Estándar G.711 del CCITT a 64 kb/s
27
Codificación diferencial
(predictiva) en lazo cerrado: “DPCM”
28
Fernando Díaz de María - DTSC - UCIIIM
14
ATDS - Codificación de Voz
“Adaptive Differential Pulse Code
Modulation”: ADPCM
Diversidad de locutores
y variabilidad en un
mismo locutor
• Cuantificación adaptativa
• Predicción adaptativa
Estándar G.721 del CCITT a 32 kb/s:
• Adaptación backward del cuantificador y el predictor
• Predictor: 2 polos y 6 ceros
• Calidad telefónica
• Versiones posteriores (G.723) a 24 y 40 kb/s. Por debajo
de 24 kb/s la calidad se degrada rápidamente.
29
“Adaptive Predictive Coding” (APC)
■
■
Primer codificador de forma de onda que emplea
predictor largo
Trabaja trama a trama, y no muestra a muestra
–
■
■
■
retardo de codificación
Versiones en lazo cerrado y lazo abierto
Régimen binario entre 9.6 y 16 kb/s
Precursor de la codificación híbrida
30
Fernando Díaz de María - DTSC - UCIIIM
15
ATDS - Codificación de Voz
APC en lazo cerrado
31
APC en lazo abierto
32
Fernando Díaz de María - DTSC - UCIIIM
16
ATDS - Codificación de Voz
Bibliografía (II)
■
■
■
Jayant and P. Noll: Digital Coding of Waveforms.
Englewood Cliffs, NJ: Prentice Hall; 1984.
D. O’Shaugnessy: Speech Communication, Humman and
Machine; Reading MA: Addison-Wesley; 1987
L.R. Rabiner and R.W. Shafer: Digital Processing of
Speech Signals; Englewood Cliffs, NJ: Prentice Hall; 1978
33
Codificación CELP
34
Fernando Díaz de María - DTSC - UCIIIM
17
ATDS - Codificación de Voz
Índice
■
■
■
Introducción
Codificación híbrida
Codificación CELP
–
–
–
Origen
Estándares
Elementos fundamentales
■
■
■
Predictores
ponderación perceptual
selección de la excitación por síntesis
35
Introducción
■
Predecesor: la codificación APC en lazo abierto
–
–
■
el error de codificación no es igual al error de
cuantificación del residuo
la selección de la versión cuantificada del residuo lo
más próxima posible al original no es óptimo
Estrategia óptima: análisis mediante síntesis
–
se elige el residuo cuantificado que genera la señal
sintética más próxima a la voz original
36
Fernando Díaz de María - DTSC - UCIIIM
18
ATDS - Codificación de Voz
Diagrama de bloques
! Inconveniente: enorme esfuerzo computacional
- Sin interés práctico hasta que Atal propuso el codificador
multipulso en 1982
- Entre dos y tres años más tarde nace el codificador CELP
37
Codificación Híbrida
38
Fernando Díaz de María - DTSC - UCIIIM
19
ATDS - Codificación de Voz
Codificadores de
análisis mediante síntesis
■
■
La voz se divide en tramas de 20-30 ms. (que
pueden solaparse), para cada una de las cuales se
estima un predictor corto
El predictor largo se estima cada 5-10 ms.
(subtrama): retardo y coeficientes
–
–
■
lazo abierto
lazo cerrado (mediante síntesis)
La excitación óptima para cada subtrama se
determina para minimizar la diferencia
(ponderada) entre la voz codificada y la original
39
Selección de la excitación
mediante síntesis
El procedimiento de análisis implica la síntesis de la
correspondiente voz codificada
40
Fernando Díaz de María - DTSC - UCIIIM
20
ATDS - Codificación de Voz
Representación eficiente
de la excitación
41
Codificación predictiva lineal
excitada por código (CELP)
■
El codificador y el decodificador almacenan un
conjunto de C posibles excitaciones de longitud L
–
■
la excitación generada para cada subtrama queda
completamente caracterizada por su código:
(log2C)/L bit/muestra
La excitación óptima se obtiene mediante
búsqueda exhaustiva para minimizar el error
perceptual
42
Fernando Díaz de María - DTSC - UCIIIM
21
ATDS - Codificación de Voz
Codificación CELP
43
El CELP: una prueba de existencia
■
■
La codificación de 1 s. de voz consumió 125 s. de
CPU en un Cray-1
Sin embargo, la posibilidad de codificar voz con
calidad a bajas tasas impulsó la investigación en
este campo:
–
Un año después se publicaban diversos trabajos para
reducir la complejidad de la propuesta inicial
44
Fernando Díaz de María - DTSC - UCIIIM
22
ATDS - Codificación de Voz
Estándares
CELP: algoritmo preponderante de 4 a 16 kb/s:
■
■
■
■
■
“U.S. Federal Standard 1016” a 4.8 kb/s.
Estándares americanos de telefonía celular “IS-54” (7.95
kb/s.) e “IS-96” (8.5, 4, 2, 0.8 kb/s.)
Estándares japoneses de telefonía celular JDC (6.7 kb/s.) y
JDC “half-rate” (3.45 kb/s.)
Estándar europeo de telefonía celular GSM “half-rate” (5.6
kb/s.)
Estándares de la ITU-T a 16 (G.728) y 8 (G.729) kb/s
45
Bibliografía
■
■
■
■
A.M. Kondoz: Digital Speech: Coding for Low Bit Rate
Communications Systems; Chichester, England: John Wiley & Sons;
1994.
P. Kroon and B.S. Atal: “Predictive Coding of Speech Using Analysisby-Synthesis Techniques”; in Advances in Speech Signal Processing,
S. Furui and M. Sondhi, Ed.; New York, USA: Marcel Dekker; 1991.
B. Atal, V. Cuperman and A. Gersho: Advances in Speech Coding;
Boston, USA: Kluwer; 1991
P. Kroon and W.B. Kleijn: “Linear Prediction based Analysis-bySynthesis Coding”; in Speech Coding and Synthesis, W.B. Kleijn, and
K.K Paliwal, Ed.; Amsterdam: Elsevier; 1995.
46
Fernando Díaz de María - DTSC - UCIIIM
23
This document was created with Win2PDF available at http://www.daneprairie.com.
The unregistered version of Win2PDF is for evaluation or non-commercial use only.

Documentos relacionados