Representación de Información Multimedia - CONSULTEC
Transcripción
Representación de Información Multimedia - CONSULTEC
Tema 2: Representación de Información Multimedia • • • • Rafael Molina Depto. de Ciencias de la Computación e Inteligencia Artificial Universidad de Granada Rafael Molina Tema 2: Representación de Información Multimedia • Contenidos 1 Introducción Principios de digitalización – Señales analógicas – Diseño del codificador Texto Imágenes – Gráficos, – Documentos digitalizados, – Imágenes digitalizadas, • Principios de color • Principios de exploración de la imagen (raster-scan) • Aspecto • Cámaras digitales y escáner Rafael Molina • Audio – PCM – Calidad de audio CD – Audio Sintetizado Vídeo – Señal Analógica de Televisión • Secuencia de exploración • Señal en color • Componentes de cromatismo • Ancho de banda – Vídeo Digital • De TV analógica a digital • Formatos • Formatos y Aplicaciones Tema 2: Representación de Información Multimedia 2 I. Introducción Todos los tipos de información multimedia se almacenan y procesan en un ordenador de forma digital. Las hileras de caracteres –texto- (provenientes, por ejemplo, de un teclado) se suelen almacenar mediante una combinación única de un número de bits fijo por carácter (llamada palabra del código). Por tanto una hilera será representada por una hilera de palabras del código. De la misma forma podemos pensar en la representación de las imágenes generadas por un ordenador consistentes en líneas, círculos, cuadrados, etc. Rafael Molina Tema 2: Representación de Información Multimedia 3 En contraste, aparatos como los micrófonos y muchas cámaras de vídeo producen señales eléctricas cuya amplitud varía de forma continua con el tiempo. Dicha amplitud indica la magnitud de la onda de sonido/la intensidad de la imagen tipo de señales reciben el nombre de señales analógicas. Para poder manipular digitalmente las señales analógicas, éstas han de ser convertidas en formato digital. Posteriormente estas señales digitales pueden tener que ser convertidas a formato analógico de nuevo para, por ejemplo, su reproducción en unos altavoces (audio) o monitores (vídeo). Rafael Molina Tema 2: Representación de Información Multimedia 4 La conversión de una señal analógica en una digital se hace utilizando un circuito eléctrico conocido como codificador de la señal o conversor analógico-digital (ADC) II. Principios de Digitalización. II.1 Señales analógicas La figura (a) muestra una señal analógica, y (b) sus componentes de menor y mayor frecuencia. La conversión de las muestras digitales que corresponden a un determinado medio se convierten en formato analógico se realiza mediante un circuito llamado decodificador de la señal o conversor digital-analógico (DAC). Muy importante: una vez codificado en formato digital, todo puede ser almacenado, procesado y transmitido digitalmente. En este tema veremos como los diferentes medios (texto, audio, vídeo) se representan en formato digital, pero antes veremos brevemente los principios de codificación/decodificación. Rafael Molina Tema 2: Representación de Información Multimedia 5 El rango de frecuencias de las funciones tipo seno que forman una señal recibe el nombre de ancho de banda. Se muestran dos ejemplos en la figura adjunta. Idealmente cuando una señal analógica se transmite por un canal, el rango de frecuencias que pasan por el canal debe ser al menos el ancho de banda de la señal. Si esto no ocurre tendremos problemas de distorsión, este tipo de transmisión recibe el nombre de limitada en banda. Rafael Molina Tema 2: Representación de Información Multimedia 7 Del análisis de Fourier sabemos que la señal original consiste en un número posiblemente infinito de señales tipo seno cuya amplitud y fase varían continuamente. Rafael Molina Tema 2: Representación de Información Multimedia 6 II.2 Diseño del codificador Los principios de codificador se muestran en la figura de la página siguiente. Tenemos: (a) Un filtro limitador de frecuencias que partiendo de la señal original (A) la limita en frecuencias obteniendo (B), (b) Un convertidor Analógico-Digital (ADC) que muestrea la señal limitada en banda (B) y mantiene la amplitud observada entre muestras obteniendo la señal (D), y por último, (c) un cuantificador que convierte esta señal analógica en digital (E). El bit más significativo de cada palabra indica la polaridad de la muestra 0 positivo y 1 negativo. Observa de la figura siguiente que dos conceptos son fundamentales: la frecuencia de muestreo y el número de intervalos de cuantificación. Rafael Molina Tema 2: Representación de Información Multimedia 8 III. Texto Hay tres tipos de texto que se utilizan para producir páginas de documentos: Texto no formateado (plain text): permite crear páginas con hileras de caracteres de tamaño fijo de un conjunto de caracteres limitado (utiliza normalmente código ascii, ver también unicode para transmisión utf-8) Texto Formateado: (text enriquecido): permite crear páginas y documentos completos con hileras de caracteres de diferentes estilos, tamaño, y forma con tablas, gráficos e imágenes insertadas en diferentes posiciones. Hipertexto: permite crear un conjunto integrado de documentos (cada uno con texto formateado) con estructura de enlaces entre ellos. En otros temas estudiaremos su compresión Rafael Molina Tema 2: Representación de Información Multimedia 9 IV. Imágenes Para nosotros en este curso las imágenes corresponderán tanto a las imágenes generadas por un ordenador (gráficos) y las imágenes digitalizadas de documentos y fotografías. Aunque al mostrarlas las imágenes serán fundamentalmente matrices de píxeles, la representación de éstas como ficheros puede ser distinta. Rafael Molina Tema 2: Representación de Información Multimedia 10 Una pantalla de un ordenador está compuesta de una matriz bidimensional de píxeles cada uno con un rango de colores a él asociado. Por ejemplo el modo VGA (Video Graphics Array) es una matriz con 640 píxeles horizontales y 480 verticales con, por ejemplo, 8 bits por píxel lo que permite tener hasta 256 colores distintos en cada píxel. Primero recordemos brevemente algunos conceptos de la visualización de imágenes en un ordenador. Rafael Molina Tema 2: Representación de Información Multimedia 11 Rafael Molina Tema 2: Representación de Información Multimedia 12 IV.1 Gráficos Podríamos decir que existen dos formas de representación de los gráficos: Existen numerosos paquetes de software que permiten generar gráficos. 1. Una que correspondería a una versión de alto nivel (similar al código fuente de un lenguaje de alto nivel) y 2. otra la correspondiente a los píxeles de la imagen. Todos los objetos de un gráfico están formados por una serie de líneas conectadas unas con otras (que pueden parecer curvas) y que, en el límite, tienen la resolución de dos píxeles adyacentes. Rafael Molina Tema 2: Representación de Información Multimedia Los gráficos se pueden transmitir, obviamente, a través de la red. El primer formato de representación es más compacto que el segundo. No obstante, el segundo tiene más estándares de uso común. Obviamente existen conversores de un formato a otro. 13 Rafael Molina Tema 2: Representación de Información Multimedia 14 Cada píxel utiliza un bit (0 para el blanco y 1 para el negro). Un resumen del formato de digital es el siguiente IV.2. Documentos digitalizados Un ejemplo de un documento digitalizado es el que produce el escáner asociado a un fax. El escáner asociado a un fax opera escaneando cada página completa de izquierda a derecha para producir una secuencia de líneas escaneadas que empiezan en la parte superior de la página y terminan en la inferior. La resolución vertical es 3.85 o 7.7 líneas por milímetro (100 o 200 líneas por pulgada). Con una resolución horizontal de 8 píxeles por milímetro. Rafael Molina Tema 2: Representación de Información Multimedia 15 Rafael Molina Tema 2: Representación de Información Multimedia 16 IV.3 Imágenes digitalizadas IV.3.1 Principios del color Si utilizamos un escáner para digitalizar imágenes monocromáticas continuas (la impresión en niveles de gris de una fotografía) necesitaremos normalmente más de un bit. Normalmente se utilizan al menos 8 bits. El ojo humano ve un único color que puede entenderse como una mezcla de los tres colores primarios: Rojo (R), Verde (G) y Azul (B). La mezcla de estos tres colores recibe el nombre de mezcla aditiva de colores. Para entender el proceso, en el caso de las imágenes en color, es necesario entender un poco los principios básicos del color (IV.3.1) y como funcionan los (tubos de los) monitores de los ordenadores (IV.3.2). Luego analizaremos su profundidad (IV.3.3) y razón de aspecto (IV.3.4). Si la parte de cada uno de los colores primarios es cero obtenemos el negro, de forma que esta técnica de mezclado es particularmente útil cuando queremos producir una imagen en color sobre un fondo negro como ocurre en aplicaciones de televisión. Es decir, vamos a comenzar estudiando un poco el lugar donde se representarán nuestras imágenes. Rafael Molina Tema 2: Representación de Información Multimedia 17 Rafael Molina Tema 2: Representación de Información Multimedia 18 19 Rafael Molina Tema 2: Representación de Información Multimedia 20 Es posible también una representación complementaria llamada mezcla sustractiva de colores para producir un rango de colores similar. Esta representación está basada en los colores: Cian (C) que absorbe el rojo, Magenta (M) que absorbe el verde y Amarillo (Y) que absorbe el azul. Piensa en pasar de color a 255-color para entender el modelo sustractivo. Observa que el cero de absorción para estos tres colores produce el blanco y por tanto esta elección de colores es muy útil para producir imágenes en color sobre superficies blancas como en el caso de impresión. Veamos los gráficos siguientes: Rafael Molina Tema 2: Representación de Información Multimedia La representación basada en los tres colores primarios R, G, B se utiliza en los tubos asociados a las televisión en color y monitores de ordenadores. IV.3.2. Principios de exploración de la imagen (raster-scan) Los tubos utilizados en la mayoría de las TV utilizan el principio raster-scan. Un haz de electrones (el raster) barre la pantalla completa. Cada barrido completo tiene un número finito de líneas horizontales, la primera empieza en la parte superior izquierda de la pantalla y la última termina en la esquina inferior derecha, volviéndose entonces a la posición inicial. Este tipo de barrido recibe el nombre de progresivo. Rafael Molina Tema 2: Representación de Información Multimedia 21 Para tubos de TV con sólo niveles de gris se usa un único haz de electrones. En tubos en color se utilizan tres haces muy próximos para las señales R, G y B respectivamente que impactarán sobre tres fósforos que son sensibles a uno de los tres colores básicos 22 Obviamente los tubos de TV fueron diseñados para ver imágenes con movimiento por lo que es necesario refrescar la pantalla. Un refresco lento produce una sensación de parpadeo. Para evitarlo se utiliza una velocidad de refresco de 60 veces por segundo (para 525 líneas) y 50 (para 625 líneas). Hablaremos más sobre estas velocidades después pero ahora veamos un resumen del color, principio de exploración de la imagen y triadas. El conjunto de tres fósforos recibe el nombre de triada fosfórica. Tema 2: Representación de Información Multimedia Tema 2: Representación de Información Multimedia Aunque en teoría cada píxel corresponde a un área rectangular independiente de sus píxeles vecinos, cada píxel tiene la forma de un pequeño punto. Cada conjunto completo de líneas horizontales de barrido recibe el nombre de fotograma y hay: 525 líneas en América del Norte, parte de América del Sur, Japón y el Sureste Asiático 625 líneas en la mayor parte de Europa y numerosos países no europeos. Rafael Molina Rafael Molina 23 Rafael Molina Tema 2: Representación de Información Multimedia 24 IV.3.3. Profundidad del píxel El número de bits por píxel recibe el nombre de profundidad del píxel y determina el rango de colores que pueden producirse. Para 12 bits tendríamos 4 bits para cada color primario. Para 24 bits tendríamos 8 bits para cada color primario (224=16 millones de colores). En la práctica para no tener tantas combinaciones (el ojo no las distingue) se selecciona un subconjunto que produce una tabla que recibe el nombre de CLUT (color look-up table). Rafael Molina Tema 2: Representación de Información Multimedia 25 Rafael Molina Tema 2: Representación de Información Multimedia 26 IV.3.4. Razón de aspecto La razón de aspecto se define como la relación anchura/altura de la pantalla. Dado el número de líneas visibles necesitaremos en una pantalla con aspecto 4/3, La mayoría de las pantallas de TV actuales (en los que se basan los de PC) tienen una relación de aspecto 4/3 o más recientemente 16/9. 480x(4/3)=640 (NTSC) o 576x(4/3)=768 (Europeo) píxeles por línea. Esto produce una estructura de retículo con píxeles cuadrados que mostramos en la página siguiente. Como sabemos el número de líneas en el estándar americano (NTSC) para televisiones en color es 525, mientras que en los estándares PAL (la mayor parte de Europa) y SECAM (Francia, parte de África y gran parte de Asia) es 625. No obstante las visibles son 480 y 576 respectivamente. Rafael Molina Tema 2: Representación de Información Multimedia 27 Rafael Molina Tema 2: Representación de Información Multimedia 28 Algunos ejemplos de resolución de pantallas asociadas a monitores de ordenador basados en tubos son los siguientes Rafael Molina Tema 2: Representación de Información Multimedia 29 Calcula el tiempo necesario para transmitir una imagen digitalizada utilizando 64kbps y 1.5 Mbps para 1. Una imagen VGA compatible 640x480x8 2. Una imagen SVGA compatible 1024x768x24 VGA 640x480x8 XGA 640x480x16 1024x768x8 64k 256 614.4 kB 786.432 kB SVGA 800x600x16 1024x768x8 1024x768x24 64k 256 16M 960 kB 768.432 kB 2359.296 kB Rafael Molina Número Memoria por de colores fotograma necesaria 256 307.2kB Tema 2: Representación de Información Multimedia 30 Ahora vamos a ver quien capta las imágenes que querremos ver. La figura adjunta muestra un sistema típico que se utiliza para almacenar una imagen digital producida por una cámara digital o escáner. El modelo podría servir también para la captura de vídeo digital. El tamaño de cada una de las imágenes en bits es: VGA=640x480x8=2457600 bits SVGA=1024x768x24=18874368 bits Rafael Molina Resolución IV.3.5. Cámaras digitales y escaner. Respuesta Bastante inaceptable Estándar Tiempo de transmisión de imagen VGA A 64kbps 2457600/64000=38.4 s, A 1.5 Mbits 2457600/1500000=1.6384 s Tiempo de transmisión de imagen SVGA A 64kbps 18874368/64000=294.912 s, A 1.5 Mbits 2457600/1500000=12.5829 s Tema 2: Representación de Información Multimedia 31 Rafael Molina Tema 2: Representación de Información Multimedia 32 www.foveon.com La figura adjunta muestra el proceso de captación de una imagen basada en un sensor de tipo CCD Antes de pasar a la siguiente sección: existen diferentes formatos para almacenar imágenes que iremos discutiendo. Rafael Molina Tema 2: Representación de Información Multimedia 33 Rafael Molina Tema 2: Representación de Información Multimedia 34 V. Audio Estamos interesados en dos tipos de señales de audio: voz y música. El ancho de banda de una señal de voz está en el rango de 50 Hz a 10 KHz. Una señal de audio puede crearse de una forma natural, por ejemplo con un micrófono, o mediante, por ejemplo, un sintetizador. Para la música este rango se convierte en 15 Hz a 20 KHz. Cuando un micrófono capta una señal de audio lo hace de forma analógica. La señal analógica deberá convertirse en formato digital durante su grabación y en la reproducción el proceso de conversión será el inverso (de digital a analógico). El número de muestras necesarias para que pudiésemos reconstruir la señal original a partir de muestras sería, como mínimo, 20ksps o 40 ksps respectivamente. En número de bits por muestra necesario para cada uno de los dos tipos anteriores de señales de audio se ha comprobado que debe ser al menos 12 bits y 16 bits respectivamente. Veamos como trabajan estos principios generales sobre el audio. Rafael Molina Tema 2: Representación de Información Multimedia 35 Rafael Molina Tema 2: Representación de Información Multimedia 36 Si el ancho de banda del habla es de 50Hz a 10KHz y el de música es de 15 Hz a 20 KHz calcula el bitrate suponiendo que se muestrea según Nyquist y se utilizan 12 o 16 bits por muestra respectivamente. ¿Qué capacidad de memoria se necesitaría para almacenar 10 minutos de música? Habla: 2x10KHz= 20ksps 12 bits por muestra 20kx12=240kbps Música:2x20KHz= 40ksps 16 bits por muestra 40kx16=640kbps o (estereo) 2x640 =1280kbps V.1 PCM 1. El ancho de banda de la voz en una red PSTN (Public Switched Telephone Network, Red telefónica conmutada pública Network) fue limitado de 200 Hz a 3.4 KHz (recuerda que el rango era de 50 Hz a 10KHz). Eran necesarias, por tanto, al menos 6.8 ksps. No obstante este número de elevó a 8 ksps para eliminar aliasing y disminuir la baja calidad de los filtros que limitaban la banda. 2. El número de bits por muestra actual podría considerarse que es 8. 3. Además tenemos un compresor antes del ADC que redistribuye mejor la señal para una cuantificación uniforme antes de ser convertida y un expansor después del DAC que realiza el proceso inverso al compresor dando lugar a los llamados compansores Memoría requerida para 10 minutos de música 1280x1000x600/8=96 Mbytes En la práctica los parámetros de digitalización (muestras y bits por muestra) no son tan elevados. Veamos un ejemplo. Rafael Molina Tema 2: Representación de Información Multimedia 37 Tema 2: Representación de Información Multimedia Tema 2: Representación de Información Multimedia 38 Decodificación: En el estándar ITU.-T G.711 se usan 4 bits para la cuantificación. Descripción del expansor. Codificación: (Sólo utilizamos 5 bits por comodidad). Descripción del compresor Rafael Molina Rafael Molina 39 Rafael Molina Tema 2: Representación de Información Multimedia 40 En la práctica, como siempre, hay dos tipos de compansores asociados a dos leyes distintas y obviamente para comunicaciones entre países que usan compansores distintos es necesario realizar una conversión. V.2 Calidad de audio CD Una de las razones de muestreo que se usa para digitalizar música es 44.1 ksps, (recuerda que el ancho de banda era [15 Hz, 20 KHz]). El estándar de conversión utiliza 16 bits por muestra. ¿Cuál es el bitrate para mono y estéreo? Mono: 44.1x103x16=705.6 kbps Estéreo=2x705.6=1.411 Mbps Rafael Molina Tema 2: Representación de Información Multimedia 41 Suponiendo que utilizamos un CD standard calcular: 1. La capacidad de un CD que almacene 60 minutos de música 2. Tiempo de transmisión de 30 segundos sobre un canal de 1. 64 kbps 2. 1.5 Mbps Respuesta: 1. La capacidad de almacenamiento debe ser 1.411x60x60=5079.6 Mbits o 634.95 Mbytes 2. Para transmitir 30 segundos necesitamos transmitir 1.411x30=42.33 Mbits 1. A 64kbps necesita 42.33x106/64x103=661.4 segundos 2. A 1.5 Mbits necesita 42.33x106/1.5x106=28.22 segundos Rafael Molina Tema 2: Representación de Información Multimedia 42 VI. Vídeo VI.1 Señal Analógica de Vídeo V.3 Audio sintético Ya conocemos los principios básicos de los tubos de TV. Por último no olvidemos que también existen sintetizadores de audio/sonido que pueden describirse gráficamente de la forma siguiente Rafael Molina En Estados Unidos el estándar de TV en color fue definido por el National Television Standards Committee (NTSC) mientras que en Europa existen dos estándares PAL y SECAM. NTSC usa 525 (480 visibles) líneas por fotograma (pantalla completa) y los dos europeos 625 (576 visibles). Tema 2: Representación de Información Multimedia 43 Rafael Molina Tema 2: Representación de Información Multimedia 44 VI.I.1 Secuencia de exploración. Aunque para evitar el parpadeo es necesario una frecuencia de refresco de al menos 50 veces por segundo, con la mitad es suficiente. En consecuencia, se transmite cada fotograma en dos partes llamadas campos que consisten en las líneas impares y pares respectivamente. Los dos campos se integran en el receptor de TV utilizando una técnica que recibe el nombre de exploración entrelazada. En los sistemas basados en 525 líneas cada campo tienen 262.5 líneas de las cuales 240 son visibles y en el sistema de 625 líneas cada campo tiene 312.5 de las cuales 288 son visibles. Ver la figura siguiente: Rafael Molina Tema 2: Representación de Información Multimedia 45 Rafael Molina Tema 2: Representación de Información Multimedia 46 VI.1.2. Señales en color. VI.1.3. Componentes de cromatismo. Con la llegada de la TV en color hubo que lograr que el formato de la señal recibida en color fuese tal que pudiese ser utilizado también por las TV en blanco y negro. La componente de luminosidad Como el ancho de banda utilizado para transmitir la señal en color tienen que ser el mismo que para monocromo, las tres señales se combinan en lo que se llama vídeo compuesto para la transmisión, sin embargo si no se reescalan las cromatismos la magnitud de la señal de luminosidad puede resultar mayor que la de la correspondiente señal monocromo. Se utiliza por tanto PAL Y=0.299R+0.587G+0.114B Observa que para U=0.493(B-Y) pasar de YUV o V=0.977(R-Y) YIV a RBG sólo NTSC hay que realizar un Y=0.299R+0.587G+0.114B cambio de variable I=0.74(R-Y)-0.27(B-Y) lineal. V=0.48(R-Y)+0.41(R-Y) Y=0.299R+0.587G+0.114B contiene la señal en blanco y negro sobre la pantalla, si transmitimos además las dos componentes de cromatismo Cb=B-Y y Cr=R-Y Podemos recuperar la señal RGB completa, pero si además podemos separar Y de Cb y Cr tenemos la compatibilidad con la señal en blanco y negro que queríamos. Rafael Molina Tema 2: Representación de Información Multimedia 47 Rafael Molina Tema 2: Representación de Información Multimedia 48 VI.1.4. Ancho de banda. La gráfica siguiente ilustra la banda del espectro que utilizan las señales de TV (a) NTSC y (b) PAL VI.2. Vídeo digital La digitalización de la señal de vídeo se ha realizado en estudios de televisión durante muchos años, por ejemplo para convertir entre sistemas distintos. Para estandarizar el proceso de digitalización de la señal de vídeo la International Telecommunications UnionRadiocommunications Branch (ITU-R), anteriormente el Consultive Committee for International Radiocommunications (CCIR), definió un estándar para la digitalización de vídeo conocido como la Recommendation BT-601. Otros formatos de digitalización de vídeo han sido definidos con posterioridad (dependiendo de la aplicación). Veamos ahora algunos. Rafael Molina Tema 2: Representación de Información Multimedia 49 En resumen sobre el estándar BT.601 Rafael Molina Tema 2: Representación de Información Multimedia 50 Y teniendo en cuenta el número de líneas de los sistemas es obviamente una exploración entrelazada Rafael Molina Tema 2: Representación de Información Multimedia 51 Rafael Molina Tema 2: Representación de Información Multimedia 52 VI.2.3. Formatos y Aplicaciones VI.2.2. Formatos El muestreo 4:2:2 que especifica el estándar BT.601 es sólo un tipo de muestreo para las cromatismos y la luminosidad. Tenemos los siguientes modelos de muestreo La siguiente tabla ilustra la relación entre diferentes formatos de vídeo digital y sus aplicaciones así como el número de bits por segundo necesarios para su almacenamiento sin compresión (I=entrelazado, P=progresivo) Además del formato 4:2:0 aquí descrito (usado, por ejemplo, por MPEG2 (llamado "cosited")) existe otro llamado "intersited" que usa, por ejemplo, JPEG y MPEG1 que hace la media de 4 muestras Cb / Cr. Rafael Molina Tema 2: Representación de Información Multimedia 53 Bibliografía [1] M.Kr. Mandal, Multimedia Signal and Systems, Kluwer Academic Publishers. 2003. [2] F. Halsall, Multimedia Communications, AddisonWesley, 2001. [3] Y. Wang, J. Ostermann y Y-Q Zhang, Video Processing and Communications, Prentice Hall, 2002. Rafael Molina Tema 2: Representación de Información Multimedia 55 Rafael Molina Tema 2: Representación de Información Multimedia 54