Representación de Información Multimedia - CONSULTEC

Transcripción

Tema 2:
Representación de
Información Multimedia
•
•
•
•
Rafael Molina
Depto. de Ciencias de la Computación
e Inteligencia Artificial
Universidad de Granada
Rafael Molina
Tema 2: Representación de
•
Contenidos
1
Introducción
Principios de digitalización
– Señales analógicas
– Diseño del codificador
Texto
Imágenes
– Gráficos,
– Documentos digitalizados,
– Imágenes digitalizadas,
• Principios de color
• Principios de
exploración de la
imagen (raster-scan)
• Aspecto
• Cámaras digitales y
escáner
Rafael Molina
•
Audio
– PCM
– Calidad de audio CD
– Audio Sintetizado
Vídeo
– Señal Analógica de
Televisión
• Secuencia de exploración
• Señal en color
• Componentes de
cromatismo
• Ancho de banda
– Vídeo Digital
• De TV analógica a digital
• Formatos
• Formatos y Aplicaciones
2
I. Introducción
Todos los tipos de información multimedia se almacenan y
procesan en un ordenador de forma digital.
Las hileras de caracteres –texto- (provenientes, por ejemplo,
de un teclado) se suelen almacenar mediante una
combinación única de un número de bits fijo por carácter
(llamada palabra del código). Por tanto una hilera será
representada por una hilera de palabras del código.
De la misma forma podemos pensar en la representación de
las imágenes generadas por un ordenador consistentes en
líneas, círculos, cuadrados, etc.
Rafael Molina
3
En contraste, aparatos como los micrófonos y muchas
cámaras de vídeo producen señales eléctricas cuya amplitud
varía de forma continua con el tiempo. Dicha amplitud indica
la magnitud de la onda de sonido/la intensidad de la imagen
tipo de señales reciben el nombre de señales analógicas.
Para poder manipular digitalmente las señales analógicas,
éstas han de ser convertidas en formato digital.
Posteriormente estas señales digitales pueden tener que ser
convertidas a formato analógico de nuevo para, por ejemplo,
su reproducción en unos altavoces (audio) o monitores
(vídeo).
Rafael Molina
4
La conversión de una señal analógica en una digital se hace
utilizando un circuito eléctrico conocido como codificador de la
señal o conversor analógico-digital (ADC)
II. Principios de Digitalización.
II.1 Señales analógicas
La figura (a)
muestra una
señal
analógica, y
(b) sus
componentes
de menor y
mayor
frecuencia.
La conversión de las muestras digitales que corresponden a
un determinado medio se convierten en formato analógico se
realiza mediante un circuito llamado decodificador de la señal
o conversor digital-analógico (DAC).
Muy importante: una vez codificado en formato digital, todo
puede ser almacenado, procesado y transmitido digitalmente.
En este tema veremos como los diferentes medios (texto,
audio, vídeo) se representan en formato digital, pero antes
veremos brevemente los principios de
codificación/decodificación.
Rafael Molina
5
El rango de frecuencias
de las funciones tipo
seno que forman una
señal recibe el nombre
de ancho de banda. Se
muestran dos ejemplos
en la figura adjunta.
Idealmente cuando una señal analógica se transmite por un canal, el rango
de frecuencias que pasan por el canal debe ser al menos el ancho de banda
de la señal. Si esto no ocurre tendremos problemas de distorsión, este tipo
de transmisión recibe el nombre de limitada en banda.
Rafael Molina
7
Del análisis de Fourier sabemos que la señal original consiste
en un número posiblemente infinito de señales tipo seno cuya
amplitud y fase varían continuamente.
Rafael Molina
6
II.2 Diseño del codificador
Los principios de codificador se muestran en la figura de la
página siguiente. Tenemos:
(a) Un filtro limitador de frecuencias que partiendo de la
señal original (A) la limita en frecuencias obteniendo (B),
(b) Un convertidor Analógico-Digital (ADC) que muestrea la
señal limitada en banda (B) y mantiene la amplitud
observada entre muestras obteniendo la señal (D), y por
último,
(c) un cuantificador que convierte esta señal analógica en
digital (E).
El bit más significativo de cada palabra indica la polaridad de
la muestra 0 positivo y 1 negativo. Observa de la figura
siguiente que dos conceptos son fundamentales: la frecuencia
de muestreo y el número de intervalos de cuantificación.
Rafael Molina
8
III. Texto
Hay tres tipos de texto que se utilizan para producir páginas de
documentos:
Texto no formateado (plain text): permite crear páginas con
hileras de caracteres de tamaño fijo de un conjunto de
caracteres limitado (utiliza normalmente código ascii, ver
también unicode para transmisión utf-8)
Texto Formateado: (text enriquecido): permite crear páginas
y documentos completos con hileras de caracteres de
diferentes estilos, tamaño, y forma con tablas, gráficos e
imágenes insertadas en diferentes posiciones.
Hipertexto: permite crear un conjunto integrado de
documentos (cada uno con texto formateado) con estructura de
enlaces entre ellos.
En otros temas estudiaremos su compresión
Rafael Molina
9
IV. Imágenes
Para nosotros en este curso las imágenes corresponderán
tanto a las imágenes generadas por un ordenador (gráficos)
y las imágenes digitalizadas de documentos y fotografías.
Aunque al mostrarlas las imágenes serán fundamentalmente
matrices de píxeles, la representación de éstas como
ficheros puede ser distinta.
Rafael Molina
10
Una pantalla de un ordenador está compuesta de una matriz
bidimensional de píxeles cada uno con un rango de colores a
él asociado.
Por ejemplo el modo VGA (Video Graphics Array) es una
matriz con 640 píxeles horizontales y 480 verticales con, por
ejemplo, 8 bits por píxel lo que permite tener hasta 256 colores
distintos en cada píxel.
Primero recordemos brevemente algunos conceptos de la
visualización de imágenes en un ordenador.
Rafael Molina
11
Rafael Molina
12
IV.1 Gráficos
Podríamos decir que existen dos formas de
representación de los gráficos:
Existen numerosos paquetes de software que permiten
generar gráficos.
1. Una que correspondería a una versión de alto nivel
(similar al código fuente de un lenguaje de alto nivel) y
2. otra la correspondiente a los píxeles de la imagen.
Todos los objetos de un gráfico están formados por una
serie de líneas conectadas unas con otras (que pueden
parecer curvas) y que, en el límite, tienen la resolución de
dos píxeles adyacentes.
Rafael Molina
Los gráficos se pueden transmitir, obviamente, a través
de la red. El primer formato de representación es más
compacto que el segundo. No obstante, el segundo tiene
más estándares de uso común. Obviamente existen
conversores de un formato a otro.
13
Rafael Molina
14
Cada píxel utiliza un bit (0 para el blanco y 1 para el
negro). Un resumen del formato de digital es el siguiente
IV.2. Documentos digitalizados
Un ejemplo de un documento digitalizado es el que
produce el escáner asociado a un fax.
El escáner asociado a un fax opera escaneando cada
página completa de izquierda a derecha para producir una
secuencia de líneas escaneadas que empiezan en la parte
superior de la página y terminan en la inferior.
La resolución vertical es 3.85 o 7.7 líneas por milímetro
(100 o 200 líneas por pulgada). Con una resolución
horizontal de 8 píxeles por milímetro.
Rafael Molina
15
Rafael Molina
16
IV.3 Imágenes digitalizadas
IV.3.1 Principios del color
Si utilizamos un escáner para digitalizar imágenes
monocromáticas continuas (la impresión en niveles de
gris de una fotografía) necesitaremos normalmente más
de un bit. Normalmente se utilizan al menos 8 bits.
El ojo humano ve un único color que puede entenderse
como una mezcla de los tres colores primarios: Rojo (R),
Verde (G) y Azul (B). La mezcla de estos tres colores
recibe el nombre de mezcla aditiva de colores.
Para entender el proceso, en el caso de las imágenes en
color, es necesario entender un poco los principios
básicos del color (IV.3.1) y como funcionan los (tubos de
los) monitores de los ordenadores (IV.3.2). Luego
analizaremos su profundidad (IV.3.3) y razón de aspecto
(IV.3.4).
Si la parte de cada uno de los colores primarios es cero
obtenemos el negro, de forma que esta técnica de
mezclado es particularmente útil cuando queremos
producir una imagen en color sobre un fondo negro como
ocurre en aplicaciones de televisión.
Es decir, vamos a comenzar estudiando un poco el lugar
donde se representarán nuestras imágenes.
Rafael Molina
17
Rafael Molina
18
19
Rafael Molina
20
Es posible también una representación complementaria
llamada mezcla sustractiva de colores para producir un
rango de colores similar. Esta representación está basada
en los colores: Cian (C) que absorbe el rojo, Magenta (M)
que absorbe el verde y Amarillo (Y) que absorbe el azul.
Piensa en pasar de color a 255-color para entender el
modelo sustractivo.
Observa que el cero de absorción para estos tres colores
produce el blanco y por tanto esta elección de colores es
muy útil para producir imágenes en color sobre superficies
blancas como en el caso de impresión.
Veamos los gráficos siguientes:
Rafael Molina
La representación basada en los tres colores primarios R, G, B
se utiliza en los tubos asociados a las televisión en color y
monitores de ordenadores.
IV.3.2. Principios de exploración de la imagen (raster-scan)
Los tubos utilizados en la mayoría de las TV utilizan el
principio raster-scan. Un haz de electrones (el raster) barre la
pantalla completa.
Cada barrido completo tiene un número finito de líneas
horizontales, la primera empieza en la parte superior
izquierda de la pantalla y la última termina en la esquina
inferior derecha, volviéndose entonces a la posición inicial.
Este tipo de barrido recibe el nombre de progresivo.
Rafael Molina
21
Para tubos de TV con sólo niveles de gris se usa un único
haz de electrones.
En tubos en color se utilizan tres haces muy próximos
para las señales R, G y B respectivamente que
impactarán sobre tres fósforos que son sensibles a uno
de los tres colores básicos
22
Obviamente los tubos de TV fueron diseñados para ver
imágenes con movimiento por lo que es necesario refrescar
la pantalla.
Un refresco lento produce una sensación de parpadeo. Para
evitarlo se utiliza una velocidad de refresco de 60 veces por
segundo (para 525 líneas) y 50 (para 625 líneas).
Hablaremos más sobre estas velocidades después pero
ahora veamos un resumen del color, principio de exploración
de la imagen y triadas.
El conjunto de tres fósforos recibe el nombre de triada
fosfórica.
Aunque en teoría cada píxel corresponde a un área
rectangular independiente de sus píxeles vecinos, cada píxel
tiene la forma de un pequeño punto.
Cada conjunto completo de líneas horizontales de barrido
recibe el nombre de fotograma y hay:
525 líneas en América del Norte, parte de América del
Sur, Japón y el Sureste Asiático
625 líneas en la mayor parte de Europa y numerosos
países no europeos.
Rafael Molina
Rafael Molina
23
Rafael Molina
24
IV.3.3. Profundidad del píxel
El número de bits por píxel recibe el nombre de
profundidad del píxel y determina el rango de colores que
pueden producirse.
Para 12 bits tendríamos 4 bits para cada color primario.
Para 24 bits tendríamos 8 bits para cada color primario
(224=16 millones de colores).
En la práctica para no tener tantas combinaciones (el ojo
no las distingue) se selecciona un subconjunto que
produce una tabla que recibe el nombre de CLUT (color
look-up table).
Rafael Molina
25
Rafael Molina
26
IV.3.4. Razón de aspecto
La razón de aspecto se define como la relación
anchura/altura de la pantalla.
Dado el número de líneas visibles necesitaremos en una
pantalla con aspecto 4/3,
La mayoría de las pantallas de TV actuales (en los que se
basan los de PC) tienen una relación de aspecto 4/3 o más
recientemente 16/9.
480x(4/3)=640 (NTSC) o 576x(4/3)=768 (Europeo) píxeles
por línea. Esto produce una estructura de retículo con
píxeles cuadrados que mostramos en la página siguiente.
Como sabemos el número de líneas en el estándar
americano (NTSC) para televisiones en color es 525,
mientras que en los estándares PAL (la mayor parte de
Europa) y SECAM (Francia, parte de África y gran parte de
Asia) es 625.
No obstante las visibles son 480 y 576 respectivamente.
Rafael Molina
27
Rafael Molina
28
Algunos ejemplos de resolución de pantallas asociadas a
monitores de ordenador basados en tubos son los siguientes
Rafael Molina
29
Calcula el tiempo necesario para transmitir una imagen
digitalizada utilizando 64kbps y 1.5 Mbps para
1. Una imagen VGA compatible 640x480x8
2. Una imagen SVGA compatible 1024x768x24
VGA
640x480x8
XGA
640x480x16
1024x768x8
64k
256
614.4 kB
786.432 kB
SVGA
800x600x16
1024x768x8
1024x768x24
64k
256
16M
960 kB
768.432 kB
2359.296 kB
Rafael Molina
Número Memoria por
de colores fotograma
necesaria
256
307.2kB
30
Ahora vamos a ver quien capta las imágenes que
querremos ver.
La figura adjunta muestra un sistema típico que se utiliza
para almacenar una imagen digital producida por una
cámara digital o escáner. El modelo podría servir también
para la captura de vídeo digital.
El tamaño de cada una de las imágenes en bits es:
VGA=640x480x8=2457600 bits
SVGA=1024x768x24=18874368 bits
Rafael Molina
Resolución
IV.3.5. Cámaras digitales y escaner.
Respuesta
Bastante
inaceptable
Estándar
Tiempo de transmisión de imagen VGA
A 64kbps 2457600/64000=38.4 s,
A 1.5 Mbits 2457600/1500000=1.6384 s
Tiempo de transmisión de imagen SVGA
A 64kbps 18874368/64000=294.912 s,
A 1.5 Mbits 2457600/1500000=12.5829 s
31
Rafael Molina
32
www.foveon.com
La figura adjunta muestra el proceso de captación de una
imagen basada en un sensor de tipo CCD
Antes de pasar a la siguiente sección: existen diferentes
formatos para almacenar imágenes que iremos discutiendo.
Rafael Molina
33
Rafael Molina
34
V. Audio
Estamos interesados en dos tipos de señales de audio: voz
y música.
El ancho de banda de una señal de voz está en el rango de
50 Hz a 10 KHz.
Una señal de audio puede crearse de una forma natural,
por ejemplo con un micrófono, o mediante, por ejemplo, un
sintetizador.
Para la música este rango se convierte en 15 Hz a 20 KHz.
Cuando un micrófono capta una señal de audio lo hace de
forma analógica. La señal analógica deberá convertirse en
formato digital durante su grabación y en la reproducción el
proceso de conversión será el inverso (de digital a
analógico).
El número de muestras necesarias para que pudiésemos
reconstruir la señal original a partir de muestras sería, como
mínimo, 20ksps o 40 ksps respectivamente.
En número de bits por muestra necesario para cada uno
de los dos tipos anteriores de señales de audio se ha
comprobado que debe ser al menos 12 bits y 16 bits
respectivamente.
Veamos como trabajan estos principios generales sobre el
audio.
Rafael Molina
35
Rafael Molina
36
Si el ancho de banda del habla es de 50Hz a 10KHz y el de
música es de 15 Hz a 20 KHz calcula el bitrate suponiendo
que se muestrea según Nyquist y se utilizan 12 o 16 bits por
muestra respectivamente. ¿Qué capacidad de memoria se
necesitaría para almacenar 10 minutos de música?
Habla: 2x10KHz= 20ksps
12 bits por muestra 20kx12=240kbps
Música:2x20KHz= 40ksps
16 bits por muestra 40kx16=640kbps
o (estereo) 2x640 =1280kbps
V.1 PCM
1. El ancho de banda de la voz en una red PSTN (Public Switched
Telephone Network, Red telefónica conmutada pública Network) fue
limitado de 200 Hz a 3.4 KHz (recuerda que el rango era de 50 Hz a
10KHz). Eran necesarias, por tanto, al menos 6.8 ksps. No obstante
este número de elevó a 8 ksps para eliminar aliasing y disminuir la
baja calidad de los filtros que limitaban la banda.
2. El número de bits por muestra actual podría considerarse que es 8.
3. Además tenemos un compresor antes del ADC que redistribuye
mejor la señal para una cuantificación uniforme antes de ser
convertida y un expansor después del DAC que realiza el proceso
inverso al compresor dando lugar a los llamados compansores
Memoría requerida para 10 minutos de música
1280x1000x600/8=96 Mbytes
En la práctica los parámetros de digitalización (muestras y
bits por muestra) no son tan elevados. Veamos un ejemplo.
Rafael Molina
37
38
Decodificación:
En el estándar ITU.-T G.711 se usan 4 bits para la cuantificación.
Descripción del expansor.
Codificación: (Sólo utilizamos 5 bits por comodidad).
Descripción del compresor
Rafael Molina
Rafael Molina
39
Rafael Molina
40
En la práctica, como siempre, hay dos tipos de compansores
asociados a dos leyes distintas y obviamente para
comunicaciones entre países que usan compansores distintos
es necesario realizar una conversión.
V.2 Calidad de audio CD
Una de las razones de muestreo que se usa para digitalizar
música es 44.1 ksps, (recuerda que el ancho de banda era
[15 Hz, 20 KHz]).
El estándar de conversión utiliza 16 bits por muestra. ¿Cuál
es el bitrate para mono y estéreo?
Mono: 44.1x103x16=705.6 kbps
Estéreo=2x705.6=1.411 Mbps
Rafael Molina
41
Suponiendo que utilizamos un CD standard calcular:
1. La capacidad de un CD que almacene 60 minutos de
música
2. Tiempo de transmisión de 30 segundos sobre un canal de
1. 64 kbps
2. 1.5 Mbps
Respuesta:
1. La capacidad de almacenamiento debe ser
1.411x60x60=5079.6 Mbits o 634.95 Mbytes
2. Para transmitir 30 segundos necesitamos transmitir
1.411x30=42.33 Mbits
1. A 64kbps necesita 42.33x106/64x103=661.4 segundos
2. A 1.5 Mbits necesita 42.33x106/1.5x106=28.22
segundos
Rafael Molina
42
VI. Vídeo
VI.1 Señal Analógica de Vídeo
V.3 Audio sintético
Ya conocemos los principios básicos de los tubos de TV.
Por último no
olvidemos que
también existen
sintetizadores de
audio/sonido que
pueden
describirse
gráficamente de
la forma siguiente
Rafael Molina
En Estados Unidos el estándar de TV en color fue definido por
el National Television Standards Committee (NTSC) mientras
que en Europa existen dos estándares PAL y SECAM.
NTSC usa 525 (480 visibles) líneas por fotograma (pantalla
completa) y los dos europeos 625 (576 visibles).
43
Rafael Molina
44
VI.I.1 Secuencia de exploración.
Aunque para evitar el parpadeo es necesario una frecuencia
de refresco de al menos 50 veces por segundo, con la mitad
es suficiente.
En consecuencia, se transmite cada fotograma en dos
partes llamadas campos que consisten en las líneas impares
y pares respectivamente. Los dos campos se integran en el
receptor de TV utilizando una técnica que recibe el nombre
de exploración entrelazada.
En los sistemas basados en 525 líneas cada campo tienen
262.5 líneas de las cuales 240 son visibles y en el sistema
de 625 líneas cada campo tiene 312.5 de las cuales 288 son
visibles. Ver la figura siguiente:
Rafael Molina
45
Rafael Molina
46
VI.1.2. Señales en color.
VI.1.3. Componentes de cromatismo.
Con la llegada de la TV en color hubo que lograr que el
formato de la señal recibida en color fuese tal que pudiese ser
utilizado también por las TV en blanco y negro.
La componente de luminosidad
Como el ancho de banda utilizado para transmitir la señal en
color tienen que ser el mismo que para monocromo, las tres
señales se combinan en lo que se llama vídeo compuesto para
la transmisión, sin embargo si no se reescalan las
cromatismos la magnitud de la señal de luminosidad puede
resultar mayor que la de la correspondiente señal monocromo.
Se utiliza por tanto
PAL
Y=0.299R+0.587G+0.114B
Observa que para
U=0.493(B-Y)
pasar de YUV o
V=0.977(R-Y)
YIV a RBG sólo
NTSC
hay que realizar un
Y=0.299R+0.587G+0.114B
cambio de variable
I=0.74(R-Y)-0.27(B-Y)
lineal.
V=0.48(R-Y)+0.41(R-Y)
Y=0.299R+0.587G+0.114B
contiene la señal en blanco y negro sobre la pantalla, si
transmitimos además las dos componentes de cromatismo
Cb=B-Y
y
Cr=R-Y
Podemos recuperar la señal RGB completa, pero si además
podemos separar Y de Cb y Cr tenemos la compatibilidad con
la señal en blanco y negro que queríamos.
Rafael Molina
47
Rafael Molina
48
VI.1.4. Ancho de banda.
La gráfica siguiente ilustra la banda del espectro que utilizan
las señales de TV (a) NTSC y (b) PAL
VI.2. Vídeo digital
La digitalización de la señal de vídeo se ha realizado en
estudios de televisión durante muchos años, por ejemplo
para convertir entre sistemas distintos.
Para estandarizar el proceso de digitalización de la señal de
vídeo la International Telecommunications UnionRadiocommunications Branch (ITU-R), anteriormente el
Consultive Committee for International Radiocommunications
(CCIR), definió un estándar para la digitalización de vídeo
conocido como la Recommendation BT-601.
Otros formatos de digitalización de vídeo han sido definidos
con posterioridad (dependiendo de la aplicación). Veamos
ahora algunos.
Rafael Molina
49
En resumen sobre el estándar BT.601
Rafael Molina
50
Y teniendo en cuenta el número de líneas de los sistemas
es obviamente una exploración entrelazada
Rafael Molina
51
Rafael Molina
52
VI.2.3. Formatos y Aplicaciones
VI.2.2. Formatos
El muestreo 4:2:2 que especifica el estándar BT.601 es sólo
un tipo de muestreo para las cromatismos y la luminosidad.
Tenemos los siguientes modelos de muestreo
La siguiente tabla ilustra la relación entre diferentes formatos de vídeo digital y
sus aplicaciones así como el número de bits por segundo necesarios para su
almacenamiento sin compresión (I=entrelazado, P=progresivo)
Además del formato 4:2:0 aquí descrito (usado, por ejemplo, por MPEG2 (llamado
"cosited")) existe otro llamado "intersited" que usa, por ejemplo, JPEG y MPEG1 que
hace la media de 4 muestras Cb / Cr.
Rafael Molina
53
Bibliografía
[1] M.Kr. Mandal, Multimedia Signal and Systems, Kluwer
Academic Publishers. 2003.
[2] F. Halsall, Multimedia Communications, AddisonWesley, 2001.
[3] Y. Wang, J. Ostermann y Y-Q Zhang, Video Processing
and Communications, Prentice Hall, 2002.
Rafael Molina
55
Rafael Molina
54

Representación de Información Multimedia - CONSULTEC

Transcripción

Documentos relacionados

XVII CAMPEONATO DE BÁDMINTON "FIESTAS DE MOLINA"

años marcando tendencia