Codificación de Voz Índice - Departamento de Teoría de la Señal y
Transcripción
Codificación de Voz Índice - Departamento de Teoría de la Señal y
ATDS - Codificación de Voz Codificación de Voz Fernando Díaz de María Departamento de Teoría de la Señal y Comunicaciones Universidad Carlos III de Madrid 1 Índice ■ ■ ■ ■ ■ Especificaciones y Fundamentos Estrategias de Codificación Codificación de Forma de Onda Vocodificación Codificación CELP 2 Fernando Díaz de María - DTSC - UCIIIM 1 ATDS - Codificación de Voz Especificaciones y fundamentos 3 Codificación de voz: objetivos y requisitos ■ ■ ■ ■ ■ ■ Calidad y capacidad Retardo de codificación Robustez Complejidad y coste Codificaciones en cadena y transcodificación Transmisión de datos en la banda de voz 4 Fernando Díaz de María - DTSC - UCIIIM 2 ATDS - Codificación de Voz Fundamentos de la codificación de voz ■ Características fundamentales de la señal de voz – – – ■ Redundancia Amplio margen dinámico No estacionariedad Técnicas básicas – – – Métodos variantes para eliminación de la redundancia Cuantificación adaptativa Enmascaramiento del ruido 5 Codificar voz consiste en ... “Analizar la señal de voz, eliminar sus redundancias, y codificar eficientemente la parte no redundante de manera perceptualmente aceptable” 6 Fernando Díaz de María - DTSC - UCIIIM 3 ATDS - Codificación de Voz Estrategias de codificación 7 Tipos de codificadores ■ Codificadores de forma de onda: su objetivo es preservar la forma de onda de la señal ■ Vocoders (“voice coder”): su objetivo es preservar las características perceptualmente relevantes de la señal de voz; para ello asumen un modelo simplificado de producción de voz ■ Codificadores híbridos: incorporan conceptos de los dos grupos anteriores 8 Fernando Díaz de María - DTSC - UCIIIM 4 ATDS - Codificación de Voz Codificadores y régimen binario 9 Codificadores de forma de onda ■ ■ ■ ■ ■ Sencillos de implementar Bajo retardo No utilizan un modelo específico de la señal de voz y por tanto son muy generales Regímenes binarios en torno a 32 kb/s Tipos: – – Dominio del tiempo Dominio de la frecuencia 10 Fernando Díaz de María - DTSC - UCIIIM 5 ATDS - Codificación de Voz Modelo de producción de voz 11 Vocodificadores ■ ■ Se basan en modelos específicos de la señal de voz, identificando aspectos relevantes del espectro localizado de la señal de voz Funcionamiento: – – – ■ ■ Estimación de los parámetros del modelo Codificación y transmisión de los mismos Reconstrucción de la voz en el extremo receptor Requieren evaluación subjetiva Calidad de comunicaciones en el rango 2.4 - 9.6 kb/s (hoy día se utilizan sólo hasta 4.0 kb/s) 12 Fernando Díaz de María - DTSC - UCIIIM 6 ATDS - Codificación de Voz Codificación híbrida: análisis mediante síntesis Modelo de producción de voz + Fidelidad a la forma de onda (análisis mediante síntesis) + Enmascaramiento del ruido 13 Bibliografía (I) ■ ■ A. Gersho: “Speech Coding”; in Digital Speech Processing. Speech Coding, Synthesis and Recognition; pp. 73-100; A. N. Ince, Editor; Norwell, MA: Kluwer; 1991. A. Spanias: “Speech Coding: A Tutorial Review”; Proceedings of the IEEE, vol. 82, no. 10, pp. 1541-1582, Oct. 1994 . 14 Fernando Díaz de María - DTSC - UCIIIM 7 ATDS - Codificación de Voz Vocodificación 15 Introducción ■ ■ Se basan en modelos específicos de la señal de voz, identificando aspectos relevantes del espectro localizado de la señal de voz (explotan la baja sensibilidad del oído a la información de fase) Funcionamiento: – – – ■ ■ Estimación de los parámetros del modelo Codificación y transmisión de los mismos Reconstrucción de la voz en el extremo receptor Requieren evaluación subjetiva Calidad de comunicaciones en el rango 2.4 - 9.6 kb/s (hoy día se utilizan sólo hasta 4.0 kb/s) 16 Fernando Díaz de María - DTSC - UCIIIM 8 ATDS - Codificación de Voz Estimación de los coeficientes del predictor Los coeficientes del predictor se determinan para minimizar la energía del error de predicción: P e[n] = xw[n] − ∑ck xw[n − k] E= k=1 ∞ ∑ e [n] 2 w n =−∞ 17 Solución (I) La minimización de la energía del error conduce a: R1,1 R2,1 RP ,1 donde Ri , j = R1, P c1 R0,1 R2, P c2 R0,2 = RP , P c P R0, P R1,2 R2,2 RP , 2 ∞ ∑ w [n]x [n − i]x [n − j] 2 e w w n = −∞ y ci son los coeficientes del predictor 18 Fernando Díaz de María - DTSC - UCIIIM 9 ATDS - Codificación de Voz Solución (II) Método de la Autocorrelación we[n] =1, ∀n wx[n], ventana limitada en tiempo (rectangular, Hamming, ...) Se enventana la señal de voz Método de la Covarianza we[n], ventana limitada en tiempo (rectangular, Hamming, ...) w n =1, ∀n x[ ] Se enventana el error 19 Vocoder LPC (“Linear Predictive Coding”) (I) ■ Recordemos el sistema de síntesis de un codificador DPCM ■ ■ ■ Error de predicción Filtro de síntesis Excitación Modelo del tracto vocal Los coeficientes de un filtro todo-polos que modela el tracto vocal pueden obtenerse mediante predicción lineal 20 Fernando Díaz de María - DTSC - UCIIIM 10 ATDS - Codificación de Voz Vocoder LPC (II) ■ El primer codificador tipo LPC, que es la técnica más importante desarrollada en los últimos 25 años – – – ■ buen modelo acústico del tracto vocal cuando falla, todavía retiene las propiedades perceptualmente importantes adecuada para realizaciones hardware Ventajas: calidad aceptable, baja tasa binaria, coste computacional moderado ■ Inconveniente: modelo excesivamente simple 21 Vocoder LPC (III) ■ Parámetros – – – – ■ Asignación – – – – a estimar: coeficientes del filtro decisión sorda/sonora “pitch” energía de bits coeficientes: 6 bits/coef “pitch”: 6 bits energía (logaritmo): 5 bits decisión sorda/sonora: 1 bit 72 bits cada 20-30 ms. (2.4-4.8 kb/s) 22 Fernando Díaz de María - DTSC - UCIIIM 11 ATDS - Codificación de Voz Bibliografía ■ ■ D. O’Shaugnessy: Speech Communication, Humman and Machine; Reading MA: Addison-Wesley; 1987 A.M. Kondoz: Digital Speech: Coding for Low Bit Rate Communications Systems; Chichester, England: John Wiley & Sons; 1994. 23 Codificación de forma de onda en el dominio del tiempo 24 Fernando Díaz de María - DTSC - UCIIIM 12 ATDS - Codificación de Voz Índice – – – – PCM DPCM ADPCM APC 25 Codificación de forma de onda en el dominio del tiempo ■ ■ ■ ■ Sencillos de implementar Bajo retardo No utilizan un modelo específico de la señal de voz y por tanto son muy generales Regímenes binarios en torno a 32 kb/s 26 Fernando Díaz de María - DTSC - UCIIIM 13 ATDS - Codificación de Voz “Pulse Code Modulation” (PCM) ■ ■ La forma más sencilla de codificación: Muestreo + Cuantificación Cuantificación uniforme – ■ 12 bits/muestra (96kb/s) Cuantificación logarítmica: – – – ley A (Europa) o ley µ (América) 8 bits/muestra (64 kb/s) Estándar G.711 del CCITT a 64 kb/s 27 Codificación diferencial (predictiva) en lazo cerrado: “DPCM” 28 Fernando Díaz de María - DTSC - UCIIIM 14 ATDS - Codificación de Voz “Adaptive Differential Pulse Code Modulation”: ADPCM Diversidad de locutores y variabilidad en un mismo locutor • Cuantificación adaptativa • Predicción adaptativa Estándar G.721 del CCITT a 32 kb/s: • Adaptación backward del cuantificador y el predictor • Predictor: 2 polos y 6 ceros • Calidad telefónica • Versiones posteriores (G.723) a 24 y 40 kb/s. Por debajo de 24 kb/s la calidad se degrada rápidamente. 29 “Adaptive Predictive Coding” (APC) ■ ■ Primer codificador de forma de onda que emplea predictor largo Trabaja trama a trama, y no muestra a muestra – ■ ■ ■ retardo de codificación Versiones en lazo cerrado y lazo abierto Régimen binario entre 9.6 y 16 kb/s Precursor de la codificación híbrida 30 Fernando Díaz de María - DTSC - UCIIIM 15 ATDS - Codificación de Voz APC en lazo cerrado 31 APC en lazo abierto 32 Fernando Díaz de María - DTSC - UCIIIM 16 ATDS - Codificación de Voz Bibliografía (II) ■ ■ ■ Jayant and P. Noll: Digital Coding of Waveforms. Englewood Cliffs, NJ: Prentice Hall; 1984. D. O’Shaugnessy: Speech Communication, Humman and Machine; Reading MA: Addison-Wesley; 1987 L.R. Rabiner and R.W. Shafer: Digital Processing of Speech Signals; Englewood Cliffs, NJ: Prentice Hall; 1978 33 Codificación CELP 34 Fernando Díaz de María - DTSC - UCIIIM 17 ATDS - Codificación de Voz Índice ■ ■ ■ Introducción Codificación híbrida Codificación CELP – – – Origen Estándares Elementos fundamentales ■ ■ ■ Predictores ponderación perceptual selección de la excitación por síntesis 35 Introducción ■ Predecesor: la codificación APC en lazo abierto – – ■ el error de codificación no es igual al error de cuantificación del residuo la selección de la versión cuantificada del residuo lo más próxima posible al original no es óptimo Estrategia óptima: análisis mediante síntesis – se elige el residuo cuantificado que genera la señal sintética más próxima a la voz original 36 Fernando Díaz de María - DTSC - UCIIIM 18 ATDS - Codificación de Voz Diagrama de bloques ! Inconveniente: enorme esfuerzo computacional - Sin interés práctico hasta que Atal propuso el codificador multipulso en 1982 - Entre dos y tres años más tarde nace el codificador CELP 37 Codificación Híbrida 38 Fernando Díaz de María - DTSC - UCIIIM 19 ATDS - Codificación de Voz Codificadores de análisis mediante síntesis ■ ■ La voz se divide en tramas de 20-30 ms. (que pueden solaparse), para cada una de las cuales se estima un predictor corto El predictor largo se estima cada 5-10 ms. (subtrama): retardo y coeficientes – – ■ lazo abierto lazo cerrado (mediante síntesis) La excitación óptima para cada subtrama se determina para minimizar la diferencia (ponderada) entre la voz codificada y la original 39 Selección de la excitación mediante síntesis El procedimiento de análisis implica la síntesis de la correspondiente voz codificada 40 Fernando Díaz de María - DTSC - UCIIIM 20 ATDS - Codificación de Voz Representación eficiente de la excitación 41 Codificación predictiva lineal excitada por código (CELP) ■ El codificador y el decodificador almacenan un conjunto de C posibles excitaciones de longitud L – ■ la excitación generada para cada subtrama queda completamente caracterizada por su código: (log2C)/L bit/muestra La excitación óptima se obtiene mediante búsqueda exhaustiva para minimizar el error perceptual 42 Fernando Díaz de María - DTSC - UCIIIM 21 ATDS - Codificación de Voz Codificación CELP 43 El CELP: una prueba de existencia ■ ■ La codificación de 1 s. de voz consumió 125 s. de CPU en un Cray-1 Sin embargo, la posibilidad de codificar voz con calidad a bajas tasas impulsó la investigación en este campo: – Un año después se publicaban diversos trabajos para reducir la complejidad de la propuesta inicial 44 Fernando Díaz de María - DTSC - UCIIIM 22 ATDS - Codificación de Voz Estándares CELP: algoritmo preponderante de 4 a 16 kb/s: ■ ■ ■ ■ ■ “U.S. Federal Standard 1016” a 4.8 kb/s. Estándares americanos de telefonía celular “IS-54” (7.95 kb/s.) e “IS-96” (8.5, 4, 2, 0.8 kb/s.) Estándares japoneses de telefonía celular JDC (6.7 kb/s.) y JDC “half-rate” (3.45 kb/s.) Estándar europeo de telefonía celular GSM “half-rate” (5.6 kb/s.) Estándares de la ITU-T a 16 (G.728) y 8 (G.729) kb/s 45 Bibliografía ■ ■ ■ ■ A.M. Kondoz: Digital Speech: Coding for Low Bit Rate Communications Systems; Chichester, England: John Wiley & Sons; 1994. P. Kroon and B.S. Atal: “Predictive Coding of Speech Using Analysisby-Synthesis Techniques”; in Advances in Speech Signal Processing, S. Furui and M. Sondhi, Ed.; New York, USA: Marcel Dekker; 1991. B. Atal, V. Cuperman and A. Gersho: Advances in Speech Coding; Boston, USA: Kluwer; 1991 P. Kroon and W.B. Kleijn: “Linear Prediction based Analysis-bySynthesis Coding”; in Speech Coding and Synthesis, W.B. Kleijn, and K.K Paliwal, Ed.; Amsterdam: Elsevier; 1995. 46 Fernando Díaz de María - DTSC - UCIIIM 23 This document was created with Win2PDF available at http://www.daneprairie.com. The unregistered version of Win2PDF is for evaluation or non-commercial use only.