AN´ALISIS COMPUTARIZADO DEL MOVIMIENTO CEF´ALICO EN

Transcripción

AN´ALISIS COMPUTARIZADO DEL MOVIMIENTO CEF´ALICO EN
Universidad de Zaragoza
Centro Politécnico Superior
ANÁLISIS COMPUTARIZADO DEL
MOVIMIENTO CEFÁLICO EN SUJETOS CON
DETERIORO COGNOSCITIVO
(ENFERMEDAD DE ALZHEIMER)
Tesis Fin de Máster
INGENIERÍA BIOMÉDICA
Programa Oficial de Posgrado en Ingenierı́as Transversales
Enero 2009
Autor:
Mario F. Rodrı́guez Martı́nez
Director: Carlos Orrite Uruñuela
Análisis Computarizado del Movimiento Cefálico en Sujetos con
Deterioro Cognoscitivo (Enfermedad de Alzheimer)
RESUMEN
La obtención de un correcto y temprano diagnóstico sirve para conseguir mejores resultados en los tratamientos de muchas enfermedades. En la Enfermedad de Alzheimer,
esto sirve para paliar y retrasar sus efectos. En este proyecto hemos desarrollado una
metodologı́a para evaluar diferentes aspectos de los pacientes que ayuden en dicho diagnóstico. Para ello, en primer lugar hemos desarrollado herramientas de visión por
computador que permiten localizar la posición de la cabeza en la imagen. Empleando
la posición de la cabeza en dos imágenes desde dos posiciones distintas (dos cámaras),
hemos calculado la posición tridimensional. Después, hemos empleado estas herramientas
para obtener el desplazamiento de la cabeza del paciente a lo largo de una entrevista
psiquiátrica, en la que se le realizaba el examen cognoscitivo ECMM-30. Esta información
la hemos complementado con el tiempo de reacción del paciente a las preguntas. Con
todo esto hemos obtenido tres parámetros principales por sujeto evaluado (tiempo de
reacción, cantidad de movimiento y velocidad de movimiento). Finalmente, para valorar
los parámetros, pretendı́amos utilizar una muestra amplia tanto de sujetos sanos como
de pacientes. Debido a la necesidad de obtener permisos para adquirir las muestras y no
tener respuesta en la fecha de realización de este informe, solamente hemos dispuesto de
7 sujetos sanos y 2 enfermos a los que hemos realizado un estudio estadı́stico basado en
ANOVA, que carece de validez generalizable por la escasez de muestras. Aún ası́, con los
resultados obtenidos, parece conveniente finalizar el estudio, ya que sı́ se observan tendencias y la metodologı́a puede resultar interesante para futuros estudios y finalmente, para
la ayuda al diagnóstico.
i
En estas lı́neas me gustarı́a agradecer a aquellas personas que me han apoyado en estos
meses. A mi director, Carlos, por la oportunidad de realizar este proyecto. A los
psicólogos clı́nicos, Raúl y Curro, por su contribución al trabajo. A mis compañeros de
laboratorio por su ayuda en los problemas que me iban surgiendo, o por los ratos de
descanso brindados. Especialmente a Miguel y su ayuda en la programación. Un
agradecimiento especial a los voluntarios que se han prestado para el análisis.
Finalmente, no quiero olvidar a mi familia y amigos que siempre están ahı́.
Gracias a todos.
iii
Índice general
1. Introducción
1
1.1. Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3. Problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4. Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2. Base de Datos
5
2.1. Escenario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2. Protocolo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2.1. Legalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2.2. Pasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.3. Montaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3. Localización de la cabeza
13
3.1. Localización en 2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.1. Algoritmo Viola & Jones . . . . . . . . . . . . . . . . . . . . . . . . 13
v
3.1.2. Cam-Shift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.3. Combinación de métodos . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2. Localización en 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.1. Estereovisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.2. Cambio de coordenadas . . . . . . . . . . . . . . . . . . . . . . . . 25
4. Resultados
27
4.1. Parámetros de análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2. Estudio estadı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5. Conclusiones y trabajo futuro
37
5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
A. Aplicación
41
B. Consentimiento Informado
47
C. Examen Cognoscitivo Mini-Mental
51
vi
Índice de figuras
2.1. Escenario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2. Distorsiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.3. Cambio de coordenadas
9
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4. Plantilla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1. Cascada de clasificadores 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2. Harr-like features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3. Cascada de clasificadores 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.4. Mean-Shift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.5. Modelo de color HSV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.6. Estereovisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.7. Cruce de rayos proyectantes . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.8. Detección 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.9. Coordenadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1. Parámetros automatizados . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2. Representación gráfica del ANOVA . . . . . . . . . . . . . . . . . . . . . . 34
4.3. Velocidad frente a Potencia . . . . . . . . . . . . . . . . . . . . . . . . . . 35
vii
4.4. Representación gráfica del tiempo . . . . . . . . . . . . . . . . . . . . . . . 35
A.1. Vista inicial de la aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . 41
A.2. Calibración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
A.3. Grabación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
A.4. Distorsión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
A.5. Procesamiento de eventos
. . . . . . . . . . . . . . . . . . . . . . . . . . . 45
A.6. Análisis 2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
A.7. Análisis 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
viii
Capı́tulo 1
Introducción
1.1.
Contexto
La Enfermedad de Alzheimer (EA) [1] [2] es una enfermedad neurodegenerativa que
afecta a la mitad de la población diagnosticada con algún tipo de demencia [3]. Aunque
esta enfermedad no dispone de cura conocida, sı́ existen tratamientos paliativos que retrasan los efectos y permiten llevar una vida autosuficiente durante más tiempo. Como
sucede en casi todas las enfermedades, un diagnóstico temprano permite que el tratamiento sea más efectivo. El problema se encuentra en que en algunos casos, y sobre todo en
etapas iniciales de la enfermedad, es complicado realizar un diagnóstico acertado, pudiendo ser confundida con varios tipos de depresión. Esto no impide, sin embargo, tener
herramientas para realizar el diagnóstico, siendo una entrevista psiquiátrica el método
principal, pero complementada con otras pruebas y observaciones tanto de confirmación
de la enfermedad como de descarte de otras: análisis de sangre, historial, etc. Dentro
de la entrevista se suele realizar el Mini-Mental State Examination (MMSE)[4] el cual
aporta unos buenos resultados. Sin embargo, actualmente se continúa investigando en
definir mejor el sı́ndrome que permita realizar un correcto diagnóstico al comienzo de la
enfermedad.
En estas etapas iniciales de la EA aparece un deterioro en la memoria, provocando
principalmente un sı́ndrome de amnesia. Es esta discapacidad en la memoria la más estudiada por ser fácilmente reconocible. Otros deterioros cognoscitivos van apareciendo según
avanza la enfermedad [5] [6]: problemas con el lenguaje, pérdida de memoria semántica,
deficiencia en la visión espacial, etc. También hay estudios que han sugerido la aparición
de estas deficiencias cognoscitivas en las etapas iniciales. Aunque dichas deficiencias existan no implica necesariamente padecer la EA, por lo que su empleo en el diagnóstico
debe ser complementada con otras pruebas.
1
2
1. Introducción
Uno de los principales factores analizados en la EA es el déficit de atención [7] [8].
Para su estudio se suele dividir la atención en varios niveles: atención focal, evalúa la
atención sobre un estı́mulo; resistencia a distracciones, evalúa la capacidad de atender
un estı́mulo desechando los distractores; y, atención a dos tareas simultáneas. El método
de evaluación se suele basar en tiempos de reacción, viéndose que los pacientes de EA
necesitan un tiempo mayor para preparar una respuesta que los controles sanos.
Otro factor importante que se encuentra en la literatura es el deterioro visomotor [9]
[10]. El movimiento generalmente está guiado por la información visual [11], dependiendo
su precisión de la representación en la memoria del espacio y la biomecánica empleada
para calcular las trayectorias. Un deterioro en esta parte de la memoria provoca que las
trayectorias de movimiento calculadas difieran con las calculadas por pacientes sanos. Esto
provoca que en pacientes con la EA se produzca un deterioro al planear los movimientos
que incide tanto en sus trayectorias como en sus tiempos de reacción.
1.2.
Motivación
Como hemos visto, la EA afecta a diversos procesos cognoscitivos, muchos de los
cuales no están evaluados con suficiente precisión como para poder ser utilizados en un
diagnóstico. El realizar una evaluación amplia supone un esfuerzo tanto para los pacientes
como para el personal médico. Por una parte, los pacientes deben realizar tareas especı́ficas
que los médicos evaluarán, por otra, los médicos deben analizar estas tareas lo que en
muchos casos puede suponer un trabajo tedioso en el que se invierte mucho tiempo.
Dentro del Máster en Ingenierı́a Biomédica de la Universidad de Zaragoza se nos
plantea realizar un proyecto al finalizar los estudios en colaboración con algún centro
médico. Teniendo en cuenta mi trabajo en el grupo de visión por computador cvLab de
la Universidad de Zaragoza y su colaboración previa con el departamento de psiquiatrı́a
del Hospital Clı́nico Universitario “Lozano Blesa”, decidimos realizar un trabajo conjunto
multidisciplinar. Ası́, planteamos emplear las herramientas que la visión por computador
puede aportar en el análisis del movimiento de personas para estudiar los desplazamientos
realizados por pacientes con la EA.
1.3 Problemática
3
Tras una revisión de la literatura que hace referencia al análisis en el movimiento de
pacientes con enfermedades neurodegenerativas, y en especial con la EA, encontramos
varios estudios que analizan este aspecto. Para la realización de estos estudios hay algunos que emplean técnicas de visión por computador y reconstrucción tridimensional del
movimiento, empleando para ello marcadores colocados sobre los sujetos [12] [13]. Esta
colocación de elementos externos puede provocar una alteración en el comportamiento
natural del sujeto, lo que no invalida la medición, pero sı́ la limita a las condiciones del
experimento. La idea que nos surgió de esto fue realizar un análisis, lo menos invasivo
posible, sobre el movimiento del sujeto. Además, este análisis estarı́a computarizado, de
tal forma que el trabajo de procesamiento desarrollado por una persona se limitase a
validar la corrección de los datos obtenidos automáticamente por el sistema.
1.3.
Problemática
El trabajo planteado conlleva la necesidad de resolver varios aspectos:
Descripción de objetivos: La parte más básica en el comienzo de un proyecto es describir el objetivo principal. Aunque puede parecer algo trivial, muchas veces se
comienza el desarrollo sin tener este apartado bien definido. Esto puede provocar
un desvı́o en el trabajo que provoca invertir un esfuerzo innecesario. Tras el objetivo
principal se describen objetivos secundarios dividiendo y ası́ facilitando el trabajo.
Obtención de una Base de Datos: En nuestro caso es necesario obtener muestras de
pacientes con la EA ası́ como sujetos sanos de control. El emplear visión por computador para el análisis de movimiento supone tener que grabar vı́deos de los sujetos
realizando el movimiento que queremos analizar. Para ello hay que definir un protocolo de adquisición de imágenes.
Problemática legal: El realizar una Base de Datos de imágenes de personas implica
además tener que cumplir la ley de protección de datos vigente.
Análisis de datos: Finalmente hay que realizar el análisis de datos. Para ello hay que
realizar primero un procesamiento de la base de datos de tal forma que se obtengan
los parámetros adecuados. Estos parámetros obtenidos se deben analizar mediante
métodos estadı́sticos que permitan validar su utilidad.
4
1. Introducción
1.4.
Objetivo
Como objetivo principal se ha planteado el diseño de un sistema informático de ayuda
a la valoración de la EA. Para ello el sistema deberá medir diferentes parámetros del
sujeto que el personal medico pueda emplear posteriormente en un diagnóstico. Al ser una
aplicación informática la que realiza la obtención de los parámetros, éstos son objetivos
y no dependen de la valoración de una persona concreta.
Para conseguir el objetivo diseñamos el procedimiento teniendo en cuenta los medios
disponibles:
Una consulta en el Hospital Clı́nico ”Lozano Blesa” donde se realiza una entrevista
psiquiátrica para diagnosticar enfermos de la EA.
Dos cámaras de vı́deo digitales.
Un ordenador portátil para realizar la adquisición de datos, y el procesado.
Con estos medios de partida el procedimiento decidido ha sido el siguiente. Emplear
una parte de las sesiones de la entrevista para analizar el movimiento de los pacientes en ese
periodo de tiempo. En concreto se pretende realizar un seguimiento del movimiento de la
cabeza durante el rato en el que se realiza el Examen Cognoscitivo Mini-Mental (ECMM),
la adaptación del MMSE al español [14]. Si el seguimiento lo realizamos sobre la imagen
de una cámara, esto puede provocar que los parámetros medidos sean muy dependientes
del ángulo formado entre la proyección de la cara sobre la cámara y la normal de la cara.
Por ello, para independizar los resultados del montaje realizado, proponemos emplear
estereovisión y realizar una reconstrucción en tres dimensiones (3D) de la posición de la
cabeza.
A partir de las coordenadas de la cabeza a lo largo del tiempo se pretenden obtener
parámetros diferenciadores entre enfermos con la EA y sujetos sanos. Sin concretar exactamente los parámetros por desconocer a priori los datos obtenidos, sı́ que proponemos
fijarnos en tres aspectos concretos: el tiempo de reacción, la velocidad, y la cantidad de
movimiento. La definición de cómo medimos estos datos se encuentra en apartados más
especı́ficos. Finalmente, la utilidad de estos parámetros se analizará mediante métodos
estadı́sticos.
Capı́tulo 2
Base de Datos
2.1.
Escenario
Antes de proceder a las grabaciones hay que diseñar el escenario donde queremos
realizarlas. Para ello se debe tener en cuenta el lugar y los medios de los que se dispone.
Ası́, conocemos que las grabaciones se van a realizar en una consulta del hospital, dónde
tendremos que colocar las cámaras y sistemas correspondientes.
Figura 2.1: Escenario - A la izquierda se muestra un esquema de la consulta. A la derecha
la consulta y el montaje real.
En la parte de la izquierda de la figura 2.1 hay un esquema de la colocación de las
cámaras respecto a la posición esperada de la cabeza del sujeto. Esta colocación se basa
en intentar minimizar en lo posible el error de reconstrucción 3D. Conociendo que un
ángulo de paralaje próximo a 45o es adecuado para este propósito, buscamos una posición
próxima a este ángulo. Como se puede observar a la derecha de la figura, en la fotografı́a
del escenario, las cámaras están sujetas en la ventana, a ambos lados de la posición donde
se pondrá el entrevistador. Se busca ası́, tanto el ángulo de paralaje como evitar la oclusión
del entrevistado por parte del entrevistador.
5
6
2. Base de Datos
En la fotografı́a, ademas de las cámaras, observamos que hay dos micrófonos conectados al ordenador portátil empleado para la adquisición de datos. Estos micrófonos están
encargados de adquirir la señal de audio de la entrevista, uno enfocado para grabar la
conversación del entrevistado y otro la del entrevistador. La razón de esta grabación radica en la necesidad de conocer cuándo se realizan las preguntas y cuándo se responde, para
ası́ tener indicadores del tiempo de reacción del sujeto evaluado.
2.2.
Protocolo
En esta sección se explica el proceso de adquisición de la base de datos y los diferentes
pasos que lo componen.
2.2.1.
Legalidad
Una parte muy importante para realizar una base de datos con información de personas
es cumplir con la legislación vigente sobre protección de datos. Esta información está regulada actualmente por la Ley Orgánica 15/1999 de Protección de Datos de Carácter
Personal. Según dicha ley, las personas que participen en este proyecto deben ser informadas previamente de varios aspectos: el propósito de la investigación; el procedimiento
que se seguirá para obtener los datos, y qué datos serán almacenados; la legislación que
le ampara al respecto de la confidencialidad de los datos; el coste que le puede provocar
la participación y la compensación que obtendrá por ello; las alternativas que tiene si
no participa; y finalmente su derecho a abandonar el estudio cuando considere oportuno,
con el correspondiente borrado de sus datos. Al tratarse a su vez de datos médicos, es
necesario también cumplir con la Ley 41/2002 de Autonomı́a del Paciente, por la cual el
paciente puede decidir si participar o no en el estudio, sin que ello repercuta, en ningún
caso, en un perjuicio sobre la atención que requiera del sistema de salud correspondiente,
en este caso, el Servicio Aragonés de Salud.
Para cumplir con esta normativa se ha redactado un documento informativo, ası́ como
un consentimiento informado. Ambos documentos deberán ser explicados al participante,
el cual los cumplimentará y firmará si está conforme con su participación. En caso negativo, si se trata de un paciente, se procederá con el tratamiento habitual.
2.2 Protocolo
2.2.2.
7
Pasos
A lo largo de este apartado vamos a ver las diferentes fases que hay que seguir para
realizar la obtención de la base de datos.
Calibración
La calibración de las cámaras es un paso previo a las grabaciones necesario para
obtener una correcta reconstrucción 3D. Para que ésta sea útil, una vez calibradas, las
cámaras deben permanecer en una posición fija, ya que un movimiento de éstas cambia
los parámetros propios del escenario.
La imagen grabada en el sensor de cualquier cámara está distorsionada respecto al
modelo de cámara con el que se trabaje en la reconstrucción. En nuestro caso el modelo
para la reconstrucción 3D es una cámara estenopeica, y mediante la calibración se busca
conocer los parámetros que modifican la imagen para adaptarla a dicho modelo. Como
existen muchos factores que influyen en la distorsión, se realizan diferentes aproximaciones
que permiten corregir las distorsiones más tı́picas. En la figura 2.2 están descritos los dos
tipos de distorsión que vamos a corregir (distorsión radial y distorsión tangencial).
Figura 2.2: Distorsiones - A la izquierda se muestra un esquema de las distorsiones radiales
(barril y cojı́n). A la derecha una figura de la distorsión tangencial y su causa.
La distorsión radial es producida por las lentes de la cámara, y dependiendo de su
forma se denomina comúnmente distorsión de barril o de cojı́n. Para corregirla se emplea el modelo matemático siguiente, el cual introduce tres parámetros de incertidumbre
desconocidos, siendo r la variable radio dependiente de la posición (x, y):
8
2. Base de Datos
xcorrected = x(1 + k1 r 2 + k2 r 4 + k3 r 6 )
ycorrected = y(1 + k1 r 2 + k2 r 4 + k3 r 6 )
(2.1)
La distorsión tangencial es producida por el ángulo de inclinación del plano sensor
sobre el plano proyectivo del modelo. Para corregirla se emplea este otro modelo con dos
nuevos parámetros desconocidos:
xcorrected = x + [2p1 y + p2 (r 2 + 2x2 )]
ycorrected = y + [p1 (r 2 + 2y 2 ) + 2p2 x]
(2.2)
Hasta ahora hemos corregido la distorsión producida en la imagen. Una vez realizado
este proceso, queremos conocer la proyección de un punto en el espacio real sobre el plano
proyectivo. Para conseguir esto se emplea la matriz intrı́nseca de la cámara [15] donde
está incluida la información de distancia focal, tamaño de los pı́xeles y posición del centro
óptico en la imagen. Toda esta información se codifica en cuatro parámetros dentro de la
matriz.
 
  
X
fx 0 cx
x
 
  
 y  =  0 fy cy   Y 
Z
0 0 1
w
(2.3)
El primer vector representa el punto visto en la cámara en coordenadas homogéneas.
Este valor está en pı́xeles, mientras que el último vector representa el punto en el espacio
referenciado a la cámara, en la medida que deseemos (nosotros empleamos centı́metros).
Hasta ahora hemos visto los parámetros intrı́nsecos de la cámara, o propios de ésta.
Pero para realizar una reconstrucción 3D hace falta tener la información de la posición y
orientación de las cámaras con respecto a unas coordenadas propias del escenario. Esta
−
→
conversión de coordenadas se consigue mediante el vector de traslación t representado
por tres parámetros y la matriz de rotación R con otros tres parámetros correspondientes
a los ángulos de inclinación en cada plano. Para obtener la información de este vector y
2.2 Protocolo
9
esta matriz es necesario emplear puntos de referencia distribuidos en más de un plano.
−
→
Pc = R(Po − t )
(2.4)
Donde Pc representa el punto en coordenadas de la cámara y Po el punto en coordenadas
del origen seleccionado.
Figura 2.3: Cambio de coordenadas - Rotación y traslación de un origen de coordenadas
a otro
Todos los parámetros explicados hasta ahora son obtenidos mediante el proceso de
calibración. Para realizar éste utilizaremos la librerı́a de visión por computador para
C++ OpenCV [16]. Con esta librerı́a se realiza un proceso de calibración simplificado
[17] el cual emplea una plantilla de calibración plana. El método consigue los parámetros
necesarios a través de, una vez fijadas las cámaras, obtener varias imágenes de la plantilla
de calibración en ambas cámaras. Para ello las cámaras deben estar sincronizadas, y
en instantes de tiempo diferente obtenemos una imagen de la plantilla en cada cámara.
En total obtendremos imágenes en 15 instantes diferentes, adoptando la plantilla una
posición distinta en cada uno, ası́ se consiguen muchas más ecuaciones de las estrictamente
necesarias para resolver el sistema de ecuaciones con los 15 parámetros desconocidos
(5 debidos a la distorsión, 4 intrı́nsecos de la cámara y, 6 extrı́nsecos o de posición y
orientación). De esta forma se consigue dotar de robustez a los datos obtenidos. La plantilla
es como la mostrada en la figura 2.4, y como el tamaño de los recuadros es fijo y conocido
es posible reconstruir todos los parámetros deseados.
El proceso de calibración se realiza una sola vez mientras no se muevan las cámaras.
En principio éstas están fijas, pero como pueden pasar varios dı́as entre sesiones lo realizaremos cada dı́a que se obtengan grabaciones.
10
2. Base de Datos
Figura 2.4: Plantilla de calibración - Cinco filas y seis columnas
Consentimiento informado
La obtención del consentimiento informado debe ser previa a la primera sesión de cada
sujeto. Como en este estudio sólo se realiza una sesión por paciente, siempre antes de cada
sesión hay que realizar el proceso de información y obtención del consentimiento. En el
apartado de Legalidad hemos visto la necesidad de este paso.
Grabación
La grabación es el paso principal. Este proceso está diseñado para que no influya
en el devenir habitual del desarrollo del examen cognoscitivo. Un programa permite al
entrevistador activar y desactivar la grabación de forma sencilla, por lo que una vez
montado el sistema no es necesario que nadie más permanezca en la sala.
El proceso consiste en que el entrevistador activa la grabación, acto seguido comienza el
desarrollo del ECMM-30 y, una vez finalizado éste, para la grabación. Durante la entrevista
se graba la imagen del sujeto desde ambas cámaras ası́ como un fichero de audio de toda la
entrevista. En el fichero de audio se graba tanto las preguntas del entrevistador como las
respuestas del entrevistado. Las imágenes obtenidas de este proceso están distorsionadas
lo que hace necesario procesarlas para quitarles dicha distorsión. Este procesamiento lo
realiza otra aplicación empleando los parámetros obtenidos en el proceso de calibración.
2.3 Montaje
11
Copia de seguridad
Este es un proceso muy corto, pero muy importante. Se debe realizar una copia de
seguridad de cada sesión para poder garantizar la integridad de la base de datos en todo
momento. El acceso tanto a la grabación original como a la copia de seguridad debe estar
restringido a los investigadores para poder garantizar la seguridad de los datos de las
personas participantes.
2.3.
Montaje
El sistema de grabación está compuesto de las dos cámaras modelo ”Fire-i” de la empresa Unibrain ası́ como dos micrófonos con respuesta direccional cardioide. Como hemos
visto, las cámaras enfocan al entrevistado y los micrófonos, al tratarse de direccionales,
están enfocados tanto al entrevistador como al entrevistado. Toda la información es grabada en un ordenador donde está el programa de grabación instalado. El ordenador del que
disponemos posee una conexión IEEE-1394 FireWire al que se conectan las cámaras en
modo serie. Igualmente posee una entrada de micrófono. Esta entrada de micrófono sólo
admite un canal mono a través de una conexión minijack, por lo que tenemos que juntar la
señal de ambos micrófonos en uno. Para esto empleamos un adaptador de dos conectores
minijack hembra (donde se conectarán ambos micrófonos) a un minijack macho (para la
conexión con el ordenador).
2.4.
Resultados
La base de datos que vamos a obtener consta de los siguientes elementos por cada
sesión:
1. Dos ficheros de vı́deo (uno por cada cámara) de una resolución de 320x240 pı́xeles
a una tasa de grabación de 10 fps.
2. Un fichero de audio con la señal de ambos micrófonos en un solo canal a una frecuencia de muestreo de 16 KHz y una codificación de 16 bits.
12
2. Base de Datos
3. El resultado del ECMM-30 del sujeto entrevistado.
4. El diagnóstico médico sobre la EA.
Buscamos tener una muestra de 10 sujetos sanos y 10 pacientes con la EA para realizar
el estudio estadı́stico y poder detectar alguna diferencia en el movimiento. Como veremos
en los apartados de resultados y conclusiones, no ha sido posible obtener esta base de
datos debido a la necesidad de contar con el permiso del Comité de Ética del Hospital,
y el retraso en la tramitación de dicho permiso por el cual continuamos a la espera de
respuesta. Finalmente la base de datos con la que hemos trabajado es mucho más reducida,
con 7 sujetos sanos y 2 pacientes de EA.
Capı́tulo 3
Localización de la cabeza
A lo largo de este capı́tulo veremos las diferentes técnicas empleadas para localizar la
posición de la cabeza.
3.1.
Localización en 2D
La localización en dos dimensiones (2D) consiste en encontrar la posición en la imagen. Disponemos de una imagen de la cabeza por cada cámara en un instante de tiempo
determinado. A partir de la imagen se busca conocer la posición en ella de la cabeza en
coordenadas pixélicas. Para realizar esta búsqueda de forma automática hemos implementado dos técnicas ya conocidas.
3.1.1.
Algoritmo Viola & Jones
El primer método que vamos a ver para la detección de la cabeza es el desarrollado
por Paul Viola y Michael Jones [18], conocido como algoritmo de Viola & Jones. Este
método realiza una detección de la posición del objeto buscado. Se ha comprobado que
ofrece muy buenos resultados en la detección de caras de frente. En concreto una mejora
del algoritmo realizada por Lienhart [19] es uno de los métodos más utilizados para la
detección de caras.
Conocer la posición de la cara o de la cabeza es equivalente, por lo que este algoritmo
nos es útil para el objetivo buscado. Además, no solo se emplea en caras de frente, sino que
se puede entrenar para detectar cualquier objeto, siendo posible por tanto entrenarlo con
13
14
3. Localización de la cabeza
caras de perfil u otras posiciones. Sin embargo, los resultados obtenidos en estas posiciones
son bastante pobres, lo que no permite utilizarlo como método de detección robusto.
Descripción
Viola & Jones está basado en el empleo de clasificadores débiles, esto quiere decir que
un solo clasificador no aporta unos resultados muy fiables. Estos clasificadores se diseñan
para tener una Tasa de Falso Rechazo (FRR) muy baja, próxima a cero, lo que provoca que
tengan una Tasa de Falsa Aceptación (FAR) alta. Para realizar la clasificación completa
se emplea una cascada de clasificadores como la mostrada en la figura 3.1, con el objetivo
de dar una detección positiva si todos los clasificadores lo detectan, pero rechazar con
que uno solo lo rechace. Este sistema permite aumentar la velocidad de procesamiento
con respecto a técnicas que necesitan procesar todos los clasificadores, como puede ser la
Regla del Más Votado [20].
Figura 3.1: Cascada de clasificadores - Cada elemento representa un clasificador que, si
acepta, continúa con el siguiente y, si rechaza, se detiene
Si consideramos que los clasificadores son independientes y con las mismas caracterı́sticas (suposición poco probable pero aceptable para entender el ejemplo siguiente), podemos
considerar una cascada de 20 clasificadores con una F RR = 0,001 y una F AR = 0,5, el
clasificador en cascada obtendrá los siguientes resultados.
F RRtot = F RR + (1 − F RR) · F RR + ... + (1 − F RR)19 · F RR ≈ 0,02
F ARtot = F AR20 ≈ 0, 00001
Mediante este ejemplo vemos que a pesar de que un solo clasificador da muchos falsos
positivos, el conjunto tiene una tasa F AR incluso mucho más baja que la F RR.
3.1 Localización en 2D
15
Para que este sistema funcione es necesario disponer de los clasificadores adecuados.
A continuación están explicados los clasificadores que se emplean, pero sabiendo que se
dispone de miles posibles es fácil comprender que hay que realizar una selección. Esta
selección se realiza mediante la técnica de AdaBoost [21]. Una vez seleccionados se suelen
emplear dos ordenamientos posibles para intentar aumentar la velocidad en el procesamiento: ordenar de clasificador más rápido de procesamiento a más lento, u ordenar de
clasificador con F AR menor a F AR mayor.
Los clasificadores empleados utilizan las caracterı́sticas Harr-like features [22]. Estas
caracterı́sticas consisten en la diferencia entre la suma de los pı́xeles de unos rectángulos
con otros. En la figura 3.2 vemos sombreados unos rectángulos y blancos los otros.
Figura 3.2: Harr-like features - A la izquierda las caracterı́sticas empleadas en el algoritmo
original de Viola & Jones y a la derecha las empleadas en la mejora de Lienhart
Estos rectángulos se desplazan y se escalan en el área donde se considera que está el
objeto. Por ello, partiendo de estos pocos ejemplos se consiguen miles de clasificadores
diferentes.
Para conseguir estos clasificadores, la selección realizada mediante AdaBoost, y la
cascada final, es necesario realizar un entrenamiento muy costoso. Este entrenamiento
necesita muchos ejemplos del objeto buscado (recordemos que en nuestro caso se trata
de caras) que no siempre es posible obtener, además de mucho tiempo de procesamiento
para obtener el clasificador. Debido a estos problemas se pueden emplear clasificadores
ya entrenados previamente por otros grupos. Nosotros hemos encontrado 14 clasificadores
entrenados entre caras de frente y caras de perfil. Para poder utilizar todos ellos en
nuestro beneficio, siendo que nuestro procesamiento no requiere una alta velocidad, y con
la idea de la cascada de clasificadores, hemos diseñado otra cascada de clasificadores pero
16
3. Localización de la cabeza
invirtiendo la idea. Sabemos que en cada imagen hay una cara, por lo que cada clasificador
deberá encontrar una cara como máximo. Como hemos visto en un ejemplo anterior, cada
clasificador completo tiene una F AR muy baja (intentamos bajarla todo lo posible sin
que se aumente en exceso el rechazo), por lo que si detecta una cara es muy probable que
sea correcta. Ası́, vamos recorriendo los clasificadores mientras no detecten una cara, y en
el momento que la detecten detenemos el proceso, como se observa en la figura 3.3.
Figura 3.3: Cascada de clasificadores - Cada elemento representa un clasificador que, si
rechaza, continúa con el siguiente y, si acepta, se detiene
Discusión
Este método tiene la ventaja de que la detección es muy fiable, cuando una cara
se detecta es porque está allı́. Sin embargo tiene el inconveniente de que en muchas
ocasiones la cara no es detectada y por tanto en esos momentos es perdida por completo
la posición. Si esto ocurriese en fotogramas salteados y sabiendo que la cabeza no se mueve
mucho entre fotogramas se podrı́a suponer que la posición en los fotogramas perdidos es
la posición anterior. El problema en nuestro sistema es que la cara no está solo de frente o
de perfil, sino que también se agacha cuando la persona escribe, o es ocultada por la mano
o algún papel empleado en la entrevista. En estos momentos la localización es perdida
por completo y el mantener la posición anterior no es viable. Por ello, el empleo de este
sistema no es razonable, ya que se necesita la posición en todo momento, siendo necesario
emplear algún otro método.
3.1.2.
Cam-Shift
Otro procedimiento que vamos a utilizar para la detección de la posición de la cabeza
en 2D es el Cam-Shift [23]. Este método está basado en uno desarrollado previamente,
denominado Mean-Shift [24] en el que se desplaza una ventana en la dirección del gradiente
3.1 Localización en 2D
17
dentro de una imagen de probabilidad, hasta alcanzar un máximo. De esta forma si se
consigue una imagen de la probabilidad de encontrar el objeto deseado se puede buscar
la de dicho objeto. A continuación está explicado el sistema en más profundidad.
Descripción
El algoritmo de Cam-Shift sigue una serie de pasos:
1. Se selecciona una Región de Interés (ROI) dentro de la imagen donde se espera
encontrar el objeto.
2. Se selecciona una localización inicial donde colocar la ventana empleada para MeanShift. Esta ventana se emplea para calcular la distribución de probabilidad empleada
en la creación de la imagen de probabilidad, si no se dispone previamente de ella.
3. Se calcula la distribución de probabilidad de la imagen.
4. Se itera el algoritmo Mean-Shift hasta encontrar el centroide de la imagen de probabilidad y se almacena la posición del centroide y el momento de orden cero.
5. Para el siguiente fotograma se centra la ventana en la posición del centroide y se
actualiza su tamaño en función del momento de orden cero. Se vuelve al punto 3.
En la figura 3.4 vemos el desarrollo del algoritmo Mean-Shift que sigue los pasos
siguientes:
1. Consideramos la selección de la ventana donde se encuentra el objeto como primer
paso, aunque realmente es el segundo o último paso de Cam-Shift.
2. Se calcula el centro de masas de la ventana dentro de la imagen de probabilidad.
3. Se centra y escala la ventana en el centro de masas obtenido en el paso previo.
4. Se vuelve al paso 2 mientras no se cumpla el criterio de convergencia seleccionado.
18
3. Localización de la cabeza
Figura 3.4: Mean-Shift - Desplazamiento de la ventana hacia el centro de masas, hasta
cumplir el criterio de convergencia
Imagen de probabilidad Para calcular la imagen de probabilidad se puede emplear
cualquier método que asocie a un valor de pı́xel una probabilidad. El método comúnmente
empleado es una retroproyección de histograma. Para su cálculo se suele emplear un
histograma obtenido del canal de color H del modelo HSV (Figura 3.5) dentro de la
ventana seleccionada. El histograma obtenido se escala de forma que el mayor valor tenga
probabilidad 1 y a cada pı́xel de la imagen real se le asocia el valor del histograma que
corresponda a su color.
Figura 3.5: Modelo de color HSV - H→Canal de Color. S→Canal de Saturación. V→Canal
de Brillo
3.1 Localización en 2D
19
En este caso se ha empleado el canal H del modelo HSV pero se puede emplear
cualquier otro color o modelo ası́ como emplear un histograma multidimensional.
El cálculo del histograma se puede tener almacenado o calcular en la propia secuencia.
En este trabajo vamos a crear el histograma de forma manual al inicio de cada secuencia,
seleccionando una ventana donde se encuentra la cabeza. Como es probable seleccionar
elementos externos a la cabeza en los extremos de la ventana vamos a ponderar los pı́xeles
centrales más que los exteriores. Para ello, vamos obteniendo imágenes reduciendo la
ventana cada vez en un pı́xel por extremo hasta que desaparezca. Ası́, con todas estas
imágenes creamos el histograma.
Centro de masas Como ya hemos visto, tenemos que calcular el centro de masas de
una ventana, para ello se emplean los momentos. En el cálculo de los momentos se emplea
la intensidad de la imagen de probabilidad en el punto (x, y) denominada I(x, y):
1. Cálculo del momento de nivel cero:
M00 =
XX
x
I(x, y)
(3.1)
y
2. Cálculo de los momentos de primer nivel:
M10 =
XX
x
M01 =
XX
x
xI(x, y)
y
yI(x, y)
(3.2)
y
3. Cálculo del centro de masas:
xc =
M01
M10
; yc =
M00
M00
(3.3)
Convergencia Finalmente se necesita tener un criterio de convergencia para detener
el algoritmo Mean-Shift. Éste puede estar basado en un número máximo de iteraciones,
en una distancia máxima entre centros de masas consecutivos, etc. Además, en el caso
de que el momento M00 tenga un valor 0 el algoritmo también debe detenerse puesto que
ningún pı́xel tiene valor, lo que indica que el objeto se ha perdido.
20
3. Localización de la cabeza
Discusión
Este método de seguimiento de un objeto, en nuestro escenario, es muy inestable,
pero con una serie de pequeños cambios adaptados a la situación puede ser bastante
útil. Además, a diferencia del algoritmo de Viola & Jones , no se producen pérdidas en
la localización de la cabeza en ningún fotograma. El principal problema que provoca la
inestabilidad consiste en la confusión del objeto con otros elementos debido a una mala
imagen de probabilidad, la cual asigna excesivo valor a zonas donde no se encuentra la
cara.
Una primera solución, que además reduce el tiempo de cómputo, consiste en limitar la
imagen de búsqueda a una región alrededor de la ventana obtenida en la detección anterior.
Esto evita distracciones de objetos alejados en la imagen, aunque los más próximos pueden
seguir interfiriendo en el seguimiento.
Para conseguir que los objetos más próximos no interfieran se puede realizar una
substracción del fondo, de modo que los pı́xeles del fondo valgan cero y los pı́xeles donde
existe movimiento o está la persona mantengan su valor. Con esto se consigue que los
distractores del fondo no perjudiquen en la detección. Decidimos no actualizar el valor
del fondo a lo largo de la secuencia, ya que, al estar la persona todo el tiempo en la
misma zona, complica el proceso y los beneficios que se pueden obtener no compensan el
esfuerzo. Además, al tratarse de una secuencia no muy larga en un escenario controlado,
es previsible que no se produzcan grandes cambios de iluminación. Sin embargo, al no
actualizar el fondo, los cambios de iluminación pueden provocar que para el seguimiento
se tenga en cuenta parte del fondo. Aún ası́, es mayor el problema que se encuentra con
los distractores del propio cuerpo del sujeto, como puede ser la mano o la ropa que lleve.
La última mejora que se realiza es el empleo de los tres canales del modelo de color
HSV de manera proporcional. De este modo se pretende crear la imagen de probabilidad
con el histograma que mejores resultados aporte en cada momento. La utilidad de emplear
los tres canales en vez de sólo el canal H de color radica en que al tratarse de una secuencia
relativamente corta el cambio de iluminación no es muy relevante, y el brillo o saturación
en la piel puede ser un factor diferenciador del resto de elementos. Además, la ventaja que
aporta el canal H, frente al resto, está en que el color de la piel es muy constante entre
personas e iluminaciones, por lo que una vez aprendido se puede exportar a diferentes
3.1 Localización en 2D
21
escenarios y personas. Pero en nuestro caso los histogramas los creamos en el primer
fotograma con una selección manual y sólo se van a emplear en la propia secuencia.
Para combinar proporcionalmente las imágenes de probabilidad aportadas por cada
canal proponemos emplear la ecuación 3.4, en la que asignamos un peso a cada imagen:
I = Wh · Ih + Ws · Is + Wv · Iv
Wj =
Sum(Ijw )/Sum(Ij−w )
Sum(Ihw )/Sum(Ih−w ) + Sum(Isw )/Sum(Is−w ) + Sum(Ivw )/Sum(Iv−w )
(3.4)
j = h, s, v
Siendo I la imagen de probabilidad final, Ij la imagen de probabilidad del canal j,
Sum(Ijw ) la suma del valor de los pı́xeles de la imagen dentro de la ventana o (−w) fuera.
Existe la posibilidad igualmente de actualizar los histogramas con cada nueva imagen
o mantener los iniciales. La ventaja de actualizar radica en que los cambios de iluminación
en la cara son tenidos en cuenta, pero sin embargo tiene la desventaja de ir añadiendo
poco a poco información de elementos externos a la cara como puede ser el fondo o la
ropa. En las pruebas realizadas no hemos encontrado que un sistema sea mejor que otro,
y dependiendo de la secuencia es uno u otro el que mejor se comporta.
3.1.3.
Combinación de métodos
Teniendo en cuenta los dos métodos explicados hasta ahora, se puede conseguir uno
más robusto realizando una combinación de ambos.
Descripción
Como ya hemos visto, los resultados del algoritmo de Viola & Jones es muy fiable en su
detección, más aún si limitamos la búsqueda a una región próxima a la anterior detección
de la cara. Sin embargo, no es capaz de distinguir la cara con variaciones del ángulo de
proyección de ésta. Por otra parte, Cam-Shift siempre aporta un resultado, a cambio,
baja mucho su fiabilidad y es más fácil que pierda el seguimiento. La localización de la
22
3. Localización de la cabeza
cara en 2D la realizaremos finalmente combinando ambos métodos mediante el algoritmo
siguiente:
1. Inicialización manual.
2. Localización de la cara mediante el algoritmo de Cam-Shift.
3. Ampliación de la región localizada mediante Cam-Shift en un valor proporcional al
tamaño de la ventana obtenida.
4. Localización de la cara mediante el algoritmo de Viola & Jones dentro de la región
calculada.
5. Si Viola & Jones obtiene un resultado positivo se considera válido. En caso contrario,
se mantiene el resultado obtenido por Cam-Shift. Si la secuencia continúa, regreso
al segundo apartado, finalización del algoritmo en otro caso.
Discusión
Esta sencilla combinación permite compensar los problemas de ambos métodos. Aún
ası́, los errores cometidos por Cam-Shift se mantienen cuando no corrige Viola & Jones
por lo que se hace necesario un sistema de alarma que detenga el procesamiento cuando se
produzca un error y este pueda ser solventado manualmente. Un sistema sencillo aunque
eficaz, consiste en detener el procesamiento si el movimiento del centro de la cabeza es
superior a una proporción de su tamaño, y éste tamaño tampoco varı́a en una proporción
excesiva. La forma de calcular ambos umbrales es ad hoc, ya que la posición (no fijada)
en la que está grabando la cámara puede variar su valor. Para intentar conseguir que el
sistema sea portable se puede decidir poner un método de detención ajustable, y que el
propio revisor pueda variar los parámetros a conveniencia.
3.2.
Localización en 3D
Una vez que se conoce la localización de la cabeza en los planos proyectivos de ambas
cámaras es posible realizar una reconstrucción de la posición tridimensional de la cabeza.
3.2 Localización en 3D
23
El emplear esta localización y no sólo una en 2D aporta más información e independencia
de la posición de las cámaras.
3.2.1.
Estereovisión
La reconstrucción tridimensional mediante estereovisión está basada en la geometrı́a
epipolar [25]. Esta geometrı́a es también denominada de dos vistas (perspectivas) de una
escena.
Reconstrucción 3D
Para calcular la posición 3D de un punto es necesario que éste sea observado por ambas
cámaras. Tras el proceso de calibración que ya hemos realizado, tanto los parámetros
intrı́nsecos (calibración) como extrı́nsecos (posición de la cámara) son conocidos. Además,
conocemos la posición en la imagen del punto que buscamos, en nuestro caso el centroide
de la cabeza, gracias a la Localización 2D. Teniendo esta información se puede obtener
la localización tridimensional mediante la intersección de los rayos proyectantes, como se
observa en la figura 3.6.
Figura 3.6: Estereovisión - Obtención de la posición mediante intersección de los rayos
proyectantes
24
3. Localización de la cabeza
La forma de obtener la posición consiste en la triangulación entre los rayos proyectantes
y la posición entre cámaras. Como hemos visto, esto se puede obtener de conocer la
i
i
imagen del punto X en las cámaras i = 1, 2, ui = P i (X, θint
, θext
), obtenida mediante los
i
i
parámetros intrı́nsecos (θint
) y extrı́nsecos (θext
) de dicha cámara.
Sin embargo, lo visto hasta ahora es teórico, y en la práctica los rayos proyectantes
no se cortan, sino que se cruzan. Si los parámetros de las cámaras están bien calculados, y los puntos detectados en ambas imágenes son correspondientes, entonces los rayos
aproximadamente se cortan como se observa en la figura 3.7.
Figura 3.7: Cruce de rayos proyectantes - La posición X se obtiene mediante la minib = mı́nx (d2 + d2 )
mización de la distancia a los rayos X ∼
=X
1
2
Las reproyecciones (ub1 ,ub2 ) del punto reconstruido en los planos proyectivos no coinci-
den con los puntos imagen empleados (u1 ,u2 ). Para calcular finalmente el punto X en 3D
se realiza la optimización no lineal de la ecuación 3.5.
1
1
1
1
2
2
2
2
∼
b
X = X = mı́n (u − P (X, θint , θext ) + (u − P (X, θint , θext ))
x
(3.5)
3.2 Localización en 3D
25
Discusión
La reconstrucción tridimensional es muy exacta si los datos con los que se calcula
también lo son. El problema es que es una etapa muy dependiente de los datos de entrada.
Esto supone que, en nuestro caso, el resultado obtenido es muy dependiente de la posición
del centroide de la cabeza detectada en la etapa de Localización 2D, y esta detección no es
muy robusta. Para comprobar que la reconstrucción aporta resultados fiables etiquetamos
a mano los movimientos en una secuencia conocida, y comparamos con la información que
nos aporta la reconstrucción (figura 3.8).
Figura 3.8: Detección 3D - Las lı́neas rojas son detecciones manuales de cambio en el
movimiento, comienzos y finales. Cada gráfica representa el movimiento detectado en los
ejes (x, y, z) respectivamente
Se observa en los resultados una clara relación entre los datos obtenidos con la reconstrucción 3D y los datos que se pueden obtener manualmente. Esto indica que, aunque la
posición no sea exacta, el movimiento se puede obtener y es posible emplear la información
para el estudio.
3.2.2.
Cambio de coordenadas
En las gráficas observadas en la figura 3.8 están representados los tres ejes de coordenadas (x, y, z), pero para que esa información sea más comprensible debemos conocer
26
3. Localización de la cabeza
a qué dirección corresponde cada una. Con la transformación de coordenadas se pueden
referenciar a cualquier parte de la imagen que nos interese, pero para ello tenemos que
ser capaces de construir el eje de coordenadas deseado. Con este fin, creamos un eje de
coordenadas referenciado a la mesa donde se coloca el sujeto como se observa en la figura
3.9.
Figura 3.9: Coordenadas - Sistema de coordenadas referenciado a la mesa
Este sistema de coordenadas se puede obtener conociendo el punto origen de coordenadas y dos segmentos en la dirección X y Z. Una vez calculado el sistema de coordenadas
respecto al sistema de coordenadas con el que estamos obteniendo toda la información,
es posible realizar la transformación de uno a otro. La transformación de un origen de
coordenadas a otro ya la vimos en el apartado de Calibración del anterior capı́tulo, siendo
la ecuación 2.4 la que nos indica cómo realizarla.
Capı́tulo 4
Resultados
4.1.
Parámetros de análisis
De los datos obtenidos con el proceso explicado hasta ahora es posible analizar un
gran número de parámetros. Entre ellos se puede analizar el tiempo de reacción a los
estı́mulos (preguntas), las frecuencias del movimiento de la cabeza, cuánto se mueve la
persona, la velocidad a la que se desplaza, cantidad de información que tiene la señal de
desplazamiento, el ángulo que adopta la cabeza, etc. El último parámetro mencionado
pensamos que se podrı́a obtener del ajuste que realiza el proceso del Cam-Shift mediante
una elipse y su inclinación, pero los resultados que se han obtenido son poco fiables y no se
van a emplear. Finalmente, debido al escaso tiempo del que hemos dispuesto para realizar
el análisis, hemos considerado conveniente limitar el estudio a los siguientes parámetros.
Tiempo de reacción El tiempo de reacción lo calculamos como el intervalo de tiempo
que transcurre desde que se formula una pregunta o una orden, hasta que se comienza
una respuesta o un movimiento de respuesta. A lo largo del ECMM-30, tanto se formulan
preguntas como se manda realizar tareas. El cálculo de este tiempo es realizado manualmente ya que no hemos desarrollado ninguna herramienta de reconocimiento del habla
que pueda automatizarla. Lo que hay desarrollada es una herramienta de reproducción y
marcación de eventos que facilita marcar preguntas y respuestas.
A partir de los tiempos de respuesta a cada pregunta se pueden realizar diferentes
análisis. Ası́, un primer parámetro a analizar puede ser el tiempo medio de respuesta
(ecuación 4.1). Por otra parte, se puede analizar el tiempo de respuesta a cada uno de los
11 apartados existentes en el ECMM-30, y analizar los resultados de cada apartado por
separado. Otro parámetro que se puede emplear es el número de preguntas en las que ha
27
28
4. Resultados
tardado más tiempo en responder cada persona, ası́ analizaremos en cuántas preguntas
ha tardado más de 1 segundo, más de 2 y más de 3. Consideramos en este último análisis
que un tiempo inferior a 1 segundo corresponde a una respuesta continua a la pregunta y
su valor puede depender además del error de marcación.
T =
N
1 X
(tresp − test )
N i=1
(4.1)
Cantidad de movimiento La cantidad de movimiento la vamos a medir a partir de
los desplazamientos que realiza la cabeza. Ası́, primero obtenemos una señal que contiene
la información del desplazamiento que se produce en cada instante de tiempo mediante
la distancia euclı́dea entre posiciones consecutivas.
D[n] =
p
(x[n − 1] − x[n])2 + (y[n − 1] − y[n])2 + (z[n − 1] − z[n])2
(4.2)
A partir de esta señal de desplazamiento obtenemos su potencia, que será nuestra medida
de la cantidad de movimiento que realiza el paciente. Hay que tener en cuenta que si
queremos comparar los resultados con otros obtenidos en diferentes condiciones, habrá que
normalizar a la tasa de grabación.
N
1 X
P =
D[n]2
N i=1
(4.3)
Velocidad de movimiento El último parámetro que vamos a medir es la velocidad
de movimiento de cada sujeto. Realmente, la velocidad se puede obtener de transformar
la señal de desplazamiento que hemos calculado previamente (ecuación 4.2) dividiéndola
por el tiempo entre fotogramas (4t). Obteniendo los máximos locales de velocidad, vamos
a obtener la velocidad máxima media, ya que cada desplazamiento contiene un máximo
local. Hay que tener cuidado de filtrar los máximos locales debidos a ruido en la adquisición
de la señal.
n
1 X i
v
(4.4)
V =
N i=1 max
4.2 Estudio estadı́stico
4.2.
29
Estudio estadı́stico
Mediante la separación de los dos grupos de sujetos (controles sanos y pacientes con la
EA) intentamos comprobar si alguno de los parámetros de estudio es diferenciador entre
ambos. Para realizar este estudio, estadı́sticamente, se busca comprobar la separación
entre medias mediante un análisis de varianza ANOVA [26].
El ANOVA lo vamos a utilizar para analizar una respuesta cuantitativa de cada
parámetro, variable dependiente, medida bajo unas condiciones experimentales identificadas por una variable categórica (enfermo-sano) o variable independiente. Como la
variable independiente (enfermo, sano) solo permite dos valores, sólo existen dos medias
posibles y por tanto, el análisis de ANOVA es equivalente al análisis de t-Student.
Para poder realizar este estudio, previamente hay que garantizar tres condiciones de
las muestras obtenidas:
Independencia Las observaciones deben ser independientes entre si. En nuestro estudio
lo asumimos ya que cada dato proviene de una persona diferente.
Normalidad Los diferentes grupos de muestras deben ser distribuciones normales,
aunque no es tan importante como la independencia de las observaciones, pues el ANOVA
es robusto. Esto quiere decir que, aunque las observaciones no sean normales, las medias
de los tratamientos son aproximadamente normales debido al Teorema Central del Limite. Para comprobar la normalidad de las distribuciones se puede aplicar el método de
Kolmogorov-Smirnov (K-S) si los parámetros de la distribución normal a la que queremos
saber si pertenecen los datos son conocidos. En nuestro caso estos datos no son conocidos por lo que aplicaremos una adaptación de este test para una distribución normal
desconocida, llamada test de Lilliefors.
Homogeneidad La última condición que se debe cumplir es que las varianzas sean
iguales en ambos grupos. Para ello se realiza la prueba de Levene.
Una vez comprobadas las condiciones anteriores se puede proceder al estudio estadı́stico. Aunque nosotros solo estudiemos 2 grupos el ANOVA permite comparar las medias
30
4. Resultados
de n grupos con n ≥ 2. Con este estudio pretendemos confirmar o rechazar la hipótesis
nula.
H0 : Las medias de los grupos son iguales
H1 : Al menos una de las medias es diferente
La prueba está basada en la comparación entre las variabilidades entre-grupo y y las
variabilidades intra-grupos y sigue el siguiente proceso.
Cálculo de la suma de cuadrados Si se denota al número de grupos como n, al
número de individuos por grupo como nj con j = 1, ..., n y la media global como x.
Además, xij son los datos observados y xj las medias de los grupos. La suma de cuadrados
entre grupos SCE, la suma de cuadrados dentro de grupos SCD y la suma de cuadrados
total SCT se calcula del siguiente modo:
SCE =
n
X
nj (xj − x)2
(4.5a)
j=1
SCD =
nj
n X
X
(xij − xj ) =
XX
(xij − x)2
2
j=1 i=1
nj
n
SCT =
nj
n X
X
j=1 i=1
x2ij −
n
X
nj xj 2
(4.5b)
j=1
(4.5c)
j=1 i=1
Cálculo de los grados de libertad Los grados de libertad entre grupos GLE, dentro
de los grupos GLD y total GLT se calculan de la manera siguiente, sabiendo que N es el
número total de individuos:
GLE = n − 1
(4.6a)
GLD = N − n
(4.6b)
GLT = N − 1
(4.6c)
4.3 Resultados
31
Cálculo de los cuadrados medios El cuadrado medio entre grupos CME y el cuadrado medio dentro de los grupos CMD se calculan de la manera siguiente:
SCE
GLE
SCD
CMD =
GLD
CME =
Estadı́stico de contraste F
pleando el estadı́stico F .
(4.7a)
(4.7b)
Finalmente se puede realizar la prueba de ANOV A em-
CME
(4.8)
CMD
Este valor se distribuye según una distribución F − Snedecor con GLE grados de libertad
del numerador y GLD grados de libertad del denominador. Con estos valores se puede
F =
calcular el p − valor, que indica la probabilidad de que se produzca la observación si la
hipótesis nula es cierta. Para rechazar la hipótesis nula el p − valor debe ser inferior a
un α determinado previamente. Nosotros hemos decidido considerar un α = 0,05. Por lo
que si el resultado es inferior vamos a considerar que las medias de ambos grupos son
diferentes y por tanto el parámetro correspondiente será indicativo de la EA.
4.3.
Resultados
Para obtener los resultados deseados hemos considerado conveniente emplear 10 muestras de controles sanos y 10 de pacientes con la EA. Sin embargo, como ya hemos visto,
debido a la polı́tica interna del Hospital Clı́nico Universitario ”Lozano Blesa”, y tras
comenzar las sesiones de grabación en el mes de noviembre, éstas fueron suspendidas hasta que el Comité de Ética del Hospital aprobase el informe sobre el proyecto presentado.
En el mes de diciembre continuábamos sin respuesta de dicho comité, y con la necesidad de finalizar el proyecto (que no la investigación) para comienzos del mes de enero,
por lo que decidimos intentar obtener los sujetos de análisis personalmente. Esto ha imposibilitado obtener muestras suficientes al conseguir tan solo 11 sujetos mayores de 60
años buscando entre familiares y amigos, de los cuales tan solo 2 están diagnosticados
con demencia senil o principio de la EA. Además, dos de las muestras no ha sido posible
procesarlas debidamente ya que la ropa que llevaban interferı́a demasiado en el análisis o
la iluminación del escenario no era adecuada. Por tanto, finalmente sólo disponemos de
32
4. Resultados
7 sujetos sanos y 2 pacientes con EA, uno diagnosticado con principio de EA (EA+) y
el otro sin diagnóstico claro (EA?). Además, debido a problemas de disponibilidad de los
participantes y de los psicólogos, de las 9 sesiones, tan sólo dos han sido realizadas por
un psicólogo clı́nico, siendo el resto realizadas por mı́ bajo las indicaciones y supervisión
de los psicólogos. Hay que añadir además que las sesiones se han realizado en escenarios
diversos para adaptarse a las posibilidades de los participantes.
Teniendo en cuenta estos datos, los resultados obtenidos se muestran en la tabla 4.1. De
estos datos, ademas de observar la posible dependencia de factores como el escenario (a lo
que va asociado el entrevistador), existen dos variables (edad y sexo) que también pueden
influir en los resultados. El problema es que la muestra es excesivamente pequeña para
que, aún obteniendo un resultado positivo o negativo en el análisis de ANOVA podamos
realizar ninguna afirmación, y el resto de variables pueden ser tanto o más influyentes en
el resultado.
Sujeto
01
02
03
04
05
06
07
08
09
Edad
67
66
60
86
87
62
62
81
81
Sexo
V(♂)
V(♂)
M(♀)
M(♀)
M(♀)
M(♀)
V(♂)
M(♀)
V(♂)
Escenario
S1
S1
S2
S2
S2
S2
S2
S3
S3
Diagnostico
Sano
Sano
Sano
EA+
Sano
Sano
Sano
Sano
EA?
ECMM-30
29/30
28/30
30/30
20/30
28/30
30/30
29/30
30/30
24/30
T (s)
0’5964
0’8191
0’4473
1’3664
0’8800
0’6500
0’5655
0’6727
0’9936
P
V (cm/s)
0’1919
3’8574
0’2407
6’0484
0’3285
8’0484
0’1280
4’5512
0’3781
8’0540
0’3710
8’2536
0’2610
5’5216
0’1151
4’5513
0’1271
4’5320
Tabla 4.1: Datos obtenidos de las 9 sesiones procesadas
Tanto la Potencia P como la Velocidad V son datos obtenidos de forma no supervisada
(salvo las correcciones necesitadas por pérdida en el seguimiento). Esto significa que, en
caso de ser parámetros diferenciadores, se podrı́an emplear para obtener datos de ayuda
al diagnóstico sin suponer un trabajo laborioso. En la figura 4.1 vemos la distribución de
los resultados de estos parámetros frente al ECMM-30 y al diagnóstico.
Se puede observar que hay una tendencia general a estar separados los resultados de
los sujetos sanos y enfermos, pero algunas muestras se cruzan, por lo que realizamos el
análisis de ANOVA con el que verificar los resultados.
4.3 Resultados
33
0.45
8
0.4
0.35
7
0.3
6
P
V (cm/s)
0.25
0.2
5
0.15
4
0.1
3
0.05
0
0
5
10
15
ECMM−30
20
25
(a) Potencia de la señal
30
2
0
5
10
15
ECMM−30
20
25
30
(b) Velocidad
Figura 4.1: Parámetros automatizados - Representación del valor que adoptan estos
parámetros frente al resultado en el ECMM-30 en cada observación. En rojo sujetos con
EA y en azul sujetos sanos
Tanto en los resultados para la potencia como en los de la velocidad comprobamos las
condiciones previas. En el test de normalidad de Lilliefors obtenemos un p-valor mayor
a 00 5 para la potencia e igual a 00 187 para la velocidad, ambos superiores a α = 00 05
con lo que no podemos descartar la hipótesis nula H0 . H0 en este estudio consiste en
la pertenencia de la distribución a una normal. El análisis de normalidad sólo se puede
realizar con los sujetos sanos, ya que con dos observaciones no se puede aplicar, por lo que
tampoco se puede descartar H0 . Por otra parte, el test de Levene sobre la homogeneidad
obtiene un p-valor igual a 00 23 para la potencia e igual a 00 1 para la velocidad, por lo que
tampoco se puede descartar H0 . En este caso H0 consiste en que las varianzas son iguales.
Con los resultados obtenidos en las condiciones podemos pasar a evaluar el ANOVA
de cada variable (figuras 4.2 y 4.3).
Inter Grupos
Intra Grupos
Total
Suma de cuadrados Grados de libertad
0’0315
1
0’0565
7
0’088
8
Cuadrado medio
0’0315
0’0081
F
3’91
p
0’0886
Tabla 4.2: ANOVA con variable independiente la potencia
En ninguna de las dos podemos descartar la hipótesis nula H0 que supone que las
medias son iguales. De todas formas, el resultado obtenido con el parámetro de potencia no
está muy alejado de la condición de p < 00 05, y si esta fuese menos restrictiva sı́ se podrı́a
descartar H0 . Por lo tanto, con los resultados obtenidos, descartamos estos parámetros
para diferenciar enfermos de sanos. En la representación gráfica de los resultados (figura
34
4. Resultados
Suma de cuadrados Grados de libertad
Inter Grupos
5’0745
1
Intra Grupos
19’5879
7
Total
24’6619
8
Cuadrado medio
5’0745
2’7982
F
p
1’81 0’22
Tabla 4.3: ANOVA con variable independiente la velocidad
4.2) se observa cómo están entrelazados los grupos. Sin embargo, sı́ que pueden ser útiles
como condición necesaria para ser EA. Por lo tanto, dependiendo del valor obtenido
se podrı́a descartar la enfermedad ya que los sujetos con EA obtienen unos resultados
parecidos. Como ya hemos dicho, un estudio más amplio serı́a necesario.
8
0.35
7.5
7
0.3
V (cm/s)
P
6.5
0.25
6
5.5
5
0.2
4.5
0.15
4
3.5
1
2
Grupo
(a) Potencia de la señal
1
2
Grupo
(b) Velocidad de la señal
Figura 4.2: Representación gráfica del ANOVA - Representación de la mediana (rojo),
cuartiles (azul) y valores extremos de los grupos (1-sanos, 2-EA)
También se pueden valorar ambos parámetros de forma conjunta. Con esto intentamos
observar si emplear ambos resultados aporta más información que uno sólo, pero se vuelve
a encontrar el mismo problema de que sujetos sanos se mezclan con EA (figura 4.3).
Finalmente evaluamos el parámetro tiempo. Este parámetro lo hemos obtenido de
forma totalmente manual, lo que supone dedicar demasiado tiempo a su medición como
para poder ser útil en el formato actual. Además, la dependencia de los criterios empleados
por el evaluador lo hace un parámetro no generalizable. Una vez dedicado este tiempo por
un mismo evaluador, podemos analizar los diferentes resultados obtenidos. En los análisis
de normalidad y homogeneidad obtenemos un p-valor mayor que 00 5 para normalidad e
igual a 00 34 para homogeneidad, por lo que podemos aplicar el análisis de ANOVA.
4.3 Resultados
35
8.5
8
7.5
7
V (cm/s)
6.5
6
5.5
5
4.5
4
3.5
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
P
Figura 4.3: Velocidad frente a Potencia - Representación de los resultados de la velocidad
media frente a la potencia de la señal. En rojo sujetos con EA y en azul sujetos sanos
Suma de cuadrados Grados de libertad
Inter Grupos
0’4181
1
Intra Grupos
0’2017
7
Total
0’6198
8
Cuadrado medio
0’4181
0’0288
F
p
14’51 0’0066
Tabla 4.4: ANOVA con variable independiente el tiempo medio de reacción
En la tabla 4.4 se observa que el p-valor es inferior a α = 00 05, por lo que sı́ se
puede emplear para diferenciar. En la figura 4.4 vemos la representación gráfica de las
observaciones ası́ como de los resultados del ANOVA.
1.4
1.4
1.3
1.3
1.2
1.2
1.1
1.1
1
0.9
t(s)
t(s)
1
0.8
0.9
0.8
0.7
0.7
0.6
0.6
0.5
0.4
0
0.5
5
10
15
ECMM−30
20
25
(a) Tiempo de respuesta
30
1
2
Grupo
(b) Gráfica de ANOVA
Figura 4.4: Representación gráfica del tiempo - 4.4a Tiempo medio de respuesta frente
al resultado del ECMM-30. En rojo sujetos con EA y en azul sujetos sanos. 4.4b Representación de la mediana (rojo), cuartiles (azul) y valores extremos de los grupos (1-sanos,
2-EA)
La última evaluación del tiempo de reacción que realizamos es el número de veces que
este tiempo supera un umbral (tabla 4.5). Ası́, los pacientes diagnosticados tienen mayor
36
4. Resultados
número de veces una reacción más lenta. Sobre un umbral de 1s los enfermos de EA son
los que más observaciones tienen, aunque otro participante tiene resultados próximos. Si
subimos el umbral a tiempos superiores a 2 y 3 segundos, son los enfermos los únicos que
tienen alguna observación, aunque en general pocas.
Umbral
nt>1s
nt>2s
nt>3s
01
3
0
0
02 03 04 05 06 07
5 2 13 10 2 4
0 0 3 0 0 0
0 0 1 0 0 0
08 09
6 12
0 2
0 0
Tabla 4.5: Número de veces que el tiempo de reacción supera un umbral
No hemos considerado oportuno, hasta disponer de una base de datos mayor, pormenorizar el estudio de tiempos de reacción a cada uno de los apartados del ECMM-30,
ya que carecen de validez estadı́stica y la información obtenida por el tiempo medio global
y el número de veces que se supera un umbral son suficientes para evaluar el parámetro
tiempo.
Capı́tulo 5
Conclusiones y trabajo futuro
5.1.
Conclusiones
El desarrollo del Máster en Ingenierı́a Biomédica conlleva una serie de plazos de entrega del Trabajo Fin de Máster que no tienen por qué coincidir con el desarrollo de la
investigación. Además, debido a que la obtención de los datos en el Hospital debe cumplir
un proceso de aprobación, cuyo trámite es ajeno a quienes participamos en el proyecto, no
ha sido posible realizar las grabaciones dentro de los plazos necesarios para el Máster. Es
por ello que los resultados presentados en este proyecto carecen de una validez estadı́stica
fiable, pese a estar completamente desarrollado el método de adquisición y evaluación.
Hemos observado que existen estudios realizados con sólo muestras de 6 enfermos y 6
sujetos de control, lo que consideramos insuficiente para validar un parámetro de estudio,
de hecho nuestro objetivo de 20 muestras totales también lo consideramos poco fiable y
solamente útil para evaluar la metodologı́a. Al final, con las 9 observaciones conseguidas,
hemos intentado realizar dicha evaluación con el procedimiento desarrollado, pero como
ya hemos dicho, carece de validez.
Este contratiempo no impide, sin embargo, realizar una apreciación de dichos resultados, que pueden servir para valorar la metodologı́a cualitativamente. Ası́, observamos que
los métodos más automatizados, a pesar de no ser válidos numéricamente con el estudio
realizado, sı́ aportan una tendencia a la diferenciación, y con un estudio más amplio se
podrı́an validar o descartar. Además, como ya hemos comentado, sı́ parecen servir como
condición necesaria en los pacientes de EA.
Por otra parte, parece claro que el tiempo de reacción es el parámetro más significativo
de los evaluados ya que en esta pequeña base de datos sı́ es capaz de diferenciar entre
pacientes con la EA y sujetos sanos.
37
38
5. Conclusiones y trabajo futuro
Igualmente podemos valorar el resultado obtenido de las herramientas de análisis. Se
ha conseguido obtener un sistema semiautomático de análisis del movimiento cefálico en
los sujetos. Ası́, es posible realizar dicho análisis con una pequeña supervisión manual, lo
que permitirı́a procesar una base de datos amplia sin un gran esfuerzo por parte de los
investigadores.
Se ha conseguido igualmente obtener un sistema mı́nimamente invasivo, ya que los
sujetos analizados no tienen que variar en nada el proceso en la entrevista psiquiátrica
habitual. Este sistema trabaja de forma independiente a dicha entrevista. Además, su
pequeño tamaño y funcionamiento independiente a la posición exacta de las cámaras
permite que sea realmente portable, y su utilización en diferentes escenarios sólo necesita
de una pequeña etapa de colocación y calibración.
Este proyecto interesó además en el V Encuentro de Neurociencias de la Universidad
de Zaragoza donde presentamos el estado de desarrollo en esas fechas:
Rodrı́guez-Martı́nez MF, López-Antón R, Roy JF, Herrero E, Orrite C, Saz P, Lobo
A. Análisis computarizado del movimiento cefálico en sujetos con deterioro cognoscitivo
(Enfermedad de Alzheimer): Proyecto ACMCA. V Encuentro de Neurociencias. 2008
5.2.
Trabajo futuro
Lógicamente, la primera tarea que se debe realizar a partir de este proyecto es finalizar
el estudio consiguiendo las 20 sesiones ya explicadas. En este proceso nos encontramos
actualmente y en cuanto obtengamos el visto bueno procederemos a su conclusión.
También es cierto, que si bien 10 observaciones de sujetos sanos y 10 de enfermos ya
comienzan a aportar una información estadı́stica relevante, pueden no ser suficientes para
independizar los resultados del resto de variables, por lo que, en la medida de lo posible,
se deberı́a procurar aumentar estas muestras. Además, también serı́a conveniente, una
vez conseguida una base de datos suficientemente extensa, ampliar el estudio a un mayor
número de parámetros.
Como ya hemos visto, la etapa menos robusta es la encargada de obtener la posición de
la cabeza en 2D. Para aumentar la automatización del sistema serı́a conveniente mejorar el
5.2 Trabajo futuro
39
sistema de detección de la cabeza, para ello se pueden aplicar otras técnicas. Por ejemplo,
en el seguimiento que hemos realizado, no tenemos en cuenta información dinámica de la
velocidad y dirección en instantes previos, y ésta es información que podrı́a mejorar el sistema. Serı́a conveniente por tanto, continuar implementando herramientas de seguimiento
y localización para conseguir un método que automatizase en todo lo posible el sistema,
además de que hiciese más robusta la localización. También podrı́a ser adecuado emplear
modelos en 3D para esta localización, trabajando directamente con la información en 3D.
Ademas de aumentar la automatización en la localización, el apartado de medida de
los tiempos de reacción es completamente manual. Para poder automatizar este apartado
se deben aplicar metodologı́as de segmentacion de locotor y, de forma más avanzada,
reconocimiento del habla que sean capaces de identificar una pregunta y su correspondiente
respuesta. De este modo, además de automatizar el sistema, se objetivarı́an los resultados
ya que no dependerı́an de la persona que analice los eventos.
De cara a un sistema más completo, se podrı́a analizar el movimiento de la persona
desde el momento en que entra en la consulta hasta que sale, con lo que se podrı́a obtener
información de, por ejemplo, el proceso de sentarse y levantarse, el cual puede ser más
relevante que la información analizada hasta el momento. También se podrı́an obtener medidas de otros aspectos, como puede ser digitalizar la parte escrita del ECMM u obtener
información de la dirección donde está mirando el sujeto. Desarrollando un método para
detectar la mirada se podrı́a evaluar si el sujeto mira al entrevistador o pierde el contacto
visual. Para poder conseguir esta información extra serı́a necesario un sistema más completo, con mayor resolución en las cámaras, una tableta digitalizadora para la escritura o
una iluminación infrarroja.
La mayor resolución de las cámaras podrı́a servir también para mejorar el análisis
actual, permitiendo detectar puntos caracterı́sticos de la cara como los ojos o nariz, lo que
posibilitarı́a conocer el vector normal al plano de la cara y con ello la posición adoptada
por la cabeza.
En este proyecto hemos enfocado el estudio a pacientes con la EA ya que era un grupo
al que, en principio, ı́bamos a tener acceso. Sin embargo el desarrollo tecnológico podrı́a
ser aplicado a estudiar otros trastornos de conducta como pueden ser niños con Trastorno
por Déficit de Atención, con o sin Hiperactividad(TDA/H) [1] [2].
40
5. Conclusiones y trabajo futuro
Apéndice A
Aplicación
Para realizar los procesos de obtención de la Base de Datos y Localización 3D de la
posición de la cabeza, hemos desarrollado un programa basado en diálogos en el entorno de
desarrollo Microsoft Visual Studio .NET 2003 y en el lenguaje de programación orientado
a objetos C++.
El programa diseñado está dividido en tres apartados (figura A.1). Los dos primeros
corresponden a la grabación de la base de datos, siendo el primer apartado el encargado
de la calibración de las cámaras y el segundo realiza el proceso de grabación y eliminación
de la distorsión. El tercer y último apartado contiene los diálogos de procesamiento.
Figura A.1: Vista inicial de la aplicación-En el recuadro de la grabación, el primer botón
abre el diálogo de calibración y el segundo el de grabación. El botón de procesamiento
permite abrir diferentes diálogos
El diálogo de calibración (figura A.2) permite realizar este proceso indicando las caracterı́sticas de la plantilla de calibración que se va a emplear. Una vez indicadas estas
caracterı́sticas se puede comenzar el proceso, visualizando la imagen capturada por cada
41
42
A. Aplicación
cámara y desplazando la plantilla por el espacio de medición. Un contador nos va indicando cuántas veces se ha capturado la plantilla, y cuando se consigue el número deseado
(el diseño actual esta en 15 muestras) se realiza el cálculo de la calibración. Los datos de
calibración son almacenados en un fichero XML que serán empleados en etapas posteriores. Este diálogo pertenece a un programa desarrollado previamente por un investigador
del grupo (Elias Herrero), en el que está basado el estudio tridimensional.
Figura A.2: Calibración - Diálogo empleado para realizar el proceso de calibración de dos
cámaras
Posteriormente tenemos acceso al diálogo de grabación (figura A.3). En este diálogo cargamos el nombre del fichero de calibración correspondiente para ası́ almacenar los vı́deos
grabados referenciados a dicho nombre, igualmente etiquetamos la sesión de grabación,
pudiendo con ésto activar las cámaras. Con las cámaras activas se muestran las imágenes
capturadas por cada una, y se puede comenzar con la sesión de grabación. Para realizar
dicha grabación es tan sencillo como pulsar el botón de Grabar y una vez finalizada la
sesión pulsar el botón de Parar. Con ésto se graban dos ficheros de vı́deo, uno por cada
cámara, y un fichero con la señal de audio de la sesión.
El último diálogo perteneciente a la grabación de la sesión es el encargado de corregir la
distorsión de los vı́deos (figura A.4). A este diálogo se accede desde el diálogo de grabación
mediante el botón Procesar Distorsión. Se cargan tanto los vı́deos de ambas cámaras como
el fichero con los datos de calibración. Si se selecciona Ver Proceso se puede visualizar a
la izquierda los dos vı́deos originales, y a la derecha de estos sus correspondientes vı́deos
43
Figura A.3: Grabación - Diálogo empleado para realizar el proceso de grabación de las
sesiones
transformados sin distorsión. Se puede ademas realizar el proceso a mayor velocidad si no
se visualizan los vı́deos. Para realizar el proceso, una vez cargados todos los archivos se
pulsa el botón Corrige Distorsión.
Una vez realizado el proceso de grabación y quitada la distorsión a dichas grabaciones se
puede comenzar con el procesamiento de los datos.
Un primer diálogo está diseñado para la obtención de los tiempos de reacción (figura A.5).
Este diálogo permite seleccionar y reproducir uno de los vı́deos grabados en una sesión y
la señal de audio correspondiente. A su vez permite marcar los eventos deseados de forma
manual mediante el botón Evento y almacenar el fotograma correspondiente en un fichero
de texto. Cuando se acaba de procesar un vı́deo se puede cerrar con el botón Cerrar y
ası́ permite abrir un nuevo vı́deo y audio listo para su etiquetado.
El siguiente dialogo de procesamiento es el encargado de localizar la posición de la cara
en 2D (figura A.6). Primero se selecciona el vı́deo que se pretende analizar. Se carga el
primer fotograma en el recuadro principal, ası́ como diferentes datos necesarios para el
procesamiento, mediante el botón de Carga Datos. Se selecciona sobre la imagen cargada
la ventana empleada para realizar el histograma de color. Mediante el botón Crea histograma ademas de crear el histograma con la imagen seleccionada con la ventana, ésta
se representa en el recuadro colocado en la parte superior derecha de la imagen principal.
En la imagen del diálogo no vemos la imagen seleccionada para el histograma ya que
corresponde exactamente al rostro y éste no se puede publicar. Una vez llegado a este
punto, mediante los botones de Play y Stop se puede navegar por el análisis. A la derecha
44
A. Aplicación
Figura A.4: Distorsión - Diálogo empleado para realizar y visualizar el proceso de eliminación de la distorsión de las cámaras
45
Figura A.5: Procesamiento de eventos - Diálogo empleado para etiquetar los tiempos de
preguntas y respuestas
de la imagen, bajo el recuadro antes mencionado, se representa la imagen de probabilidad
empleada en el algoritmo del Cam-Shift, y observando esto podemos interpretar dónde
estamos teniendo los mayores problemas. En cualquier momento se puede parar el análisis
y corregir la detección automática de modo manual sobre la propia imagen, continuando
el análisis automático a partir de la detección manual. Los datos obtenidos de la posición
de la cabeza en la imagen son almacenados en un fichero de texto.
Finalmente, un último diálogo es el que se encarga de obtener la posición en 3D de la
cabeza a lo largo de toda la secuencia (figura A.7). En este diálogo es necesario cargar
cinco archivos diferentes: uno correspondiente a los datos de calibración de las cámaras,
dos correspondientes a las posiciones de la cabeza en 2D en cada cámara, y finalmente,
otros dos correspondientes al origen de coordenadas deseado, uno por cada cámara. Una
vez cargados los cinco archivos se puede proceder al procesamiento mediante el botón de
Procesa posición 3D. Finalmente se almacena la información tridimensional en un nuevo
fichero de texto que podrá ser empleado para los análisis estadı́sticos deseados.
Aunque hemos integrado todo el proceso en un solo programa, como hemos visto, los
diferentes apartados son totalmente independientes. Esto es útil para un trabajo donde
queramos ir modificando los apartados de forma separada, y revisando que cada uno
funciona correctamente. En un sistema más desarrollado esto deberı́a ser más automático
y no necesitarı́a almacenar tantos archivos. El resto del proceso para realizar el estudio
explicado en este proyecto se implementará empleando herramientas diferentes.
46
A. Aplicación
Figura A.6: Análisis 2D - Diálogo empleado para la localización de la cabeza en 2D
Figura A.7: Análisis 3D - Diálogo empleado para la localización de la cabeza en 3D
Apéndice B
Consentimiento Informado
Tı́tulo de la Investigación:
“Análisis computarizado del movimiento cefálico en sujetos con deterioro
cognoscitivo (Enfermedad de Alzheimer)”ACMCA
Investigador Principal: Mario F. Rodrı́guez Martı́nez
Lugar de Realización:
Hospital Clı́nico Universitario “Lozano Blesa”
Centro Politécnico Superior de la Universidad de Zaragoza
Propósito del estudio:
La realización de este estudio busca encontrar un patrón común en el movimiento de
pacientes que sean diagnosticados con demencia senil. Siendo este patrón diferenciador de
estos pacientes frente a sanos u otras patologı́as como depresiones. Partimos de la premisa
de que un paciente con demencia senil tiene un movimiento más lento y su tiempo de
reacción ante un estı́mulo (pregunta) es más elevado que en personas sanas.
El estudio pretende evaluar con los datos obtenidos la viabilidad de emplear un sistema
de apoyo al diagnóstico actual.
Le preguntamos por tanto si desea participar en este estudio de investigación. Para su
colaboración necesitarı́amos que nos cediese una grabación de video y audio del proceso de
evaluación que le realice su doctor. Grabaciones que en ningún caso serán empleadas para
otros fines que la investigación, y siendo eliminado el rostro en cualquier reproducción
pública a fin de mostrar los resultados obtenidos.
En cualquier caso, el que usted rechazase su participación, no implicarı́a cambios en la
atención que pudiera requerir por parte del Servicio Aragonés de Salud.
47
48
B. Consentimiento Informado
Procedimientos/explicación del estudio:
Realización de una grabación de la Entrevista Psiquiátrica en la que se emplea el examen
cognoscitivo Mini-Mental. Para la grabación se emplean dos cámaras de video y micrófono.
Los datos adquiridos se van a analizar mediante técnicas de visión por computador en
búsqueda de algún patrón común.
El procedimiento no variará en nada la Entrevista Psiquiátrica realizada habitualmente.
Riesgos/beneficios
El estudio no supone ningún riesgo adicional al no modificar en nada el tratamiento
recibido.
Igualmente tampoco supone un beneficio directo al paciente, ya que los datos obtenidos no
afectarán en ningún caso al diagnóstico recibido. Tan sólo podrán ser útiles en diagnósticos
futuros.
Confidencialidad:
Tanto su nombre como su rostro no aparecerá en ningún escrito ni publicación. Los datos
biométricos se almacenarán en un lugar protegido y se tomarán las medidas necesarias
para mantener su carácter confidencial. El acceso a los datos clı́nicos procedentes del
estudio estará restringido a personal investigador. En cualquier caso, y en virtud a lo
recogido en la Ley Orgánica 15/1999 de Protección de Datos de Carácter Personal y a la
Ley 41/2002 de Autonomı́a del Paciente, Vd., tiene derecho a revocar este consentimiento
en cualquier momento y a que los datos adquiridos sean eliminados de nuestra base de
datos mediante un escrito dirigido al investigador principal del proyecto (Dr. Carlos Orrite
Uruñuela) expresando su deseo de revocar su consentimiento.
Coste/compensación:
No existe ningún coste por participar en este estudio y, aunque no exista un beneficio
directo de su participación, sı́ está previsto que, si Vd. ası́ lo desea, se le entreguen todos
los informes que se deriven.
Alternativas a la participación:
La participación en este estudio es completamente voluntaria. Una vez realizadas las
grabaciones, todavı́a podrá negarse a que se analicen y solicitar que se destruyan sus
datos, o que se excluyan del estudio los resultados o datos obtenidos con ellos en cualquier
momento del desarrollo del trabajo. Naturalmente, ni la decisión de no participar, ni
49
el abandono en cualquiera de las fases del estudio, repercutirán de forma alguna en la
atención que pudiera requerir por parte del Servicio Aragonés de Salud.
Derecho al abandono del estudio:
Tendrá derecho a abandonar el estudio en cualquier momento sin que ello suponga perjuicio alguno ni repercusión sobre la atención que pudiera requerir por parte del Servicio
Aragonés de Salud.
Datos de contacto del Investigador Responsable:
Prof. Dr. D. Carlos Orrite Uruñuela
Centro Politécnico Superior
Departamento de Electrónica y Comunicaciones
c/Maria Luna, 2
50018 Zaragoza
Nombre del Participante:
Nombre del Investigador:
Firma del Participante:
He leido y comprendido este consentimiento informado.
La información de este consentimiento informado me ha sido explicada.
Firma del investigador:
Fecha:
NOTA: Se harán dos copias del consentimiento informado: una será para el investigador
principal y la otra para el participante.
50
B. Consentimiento Informado
MODELO DE CONSENTIMIENTO INFORMADO POR ESCRITO PARA
EL PACIENTE
Tı́tulo del PROYECTO: “Análisis computarizado del movimiento cefálico en
sujetos con deterioro cognoscitivo (Enfermedad de Alzheimer)”
Yo,.................................................................................(Nombre y Apellidos)
He leı́do la hoja de información que se me ha entregado.
He podido hacer preguntas sobre el estudio y he recibido suficiente información sobre el
mismo.
He hablado con: .................................................................. (Nombre del investigador)
Comprendo que mi participación es voluntaria.
Comprendo que puedo retirarme del estudio:
1. Cuando quiera
2. Sin tener que dar explicaciones
3. Sin que esto repercuta en mis cuidados médicos
Presto libremente mi conformidad para participar en el estudio.
Deseo ser informado sobre los resultados del estudio:
si no
Acepto que los datos derivados de este estudio puedan ser utilizados en futuras investigaciones (relacionadas con esta):
si no
Doy mi conformidad para que mis datos clı́nicos sean revisados por personal ajeno al centro, para los fines del estudio, y soy consciente de que este consentimiento es revocable.
He recibido una copia firmada de este Consentimiento Informado.
Firma del Participante:
Fecha:
He explicado la naturaleza y el propósito del estudio al paciente.
Firma del investigador:
Fecha:
Consentimiento informado del estudio: “Análisis computarizado del movimiento cefálico
en sujetos con deterioro cognoscitivo (Enfermedad de Alzheimer)”
Apéndice C
Examen Cognoscitivo Mini-Mental
51
52
C. Examen Cognoscitivo Mini-Mental
53
54
C. Examen Cognoscitivo Mini-Mental
Glosario
Algoritmo
Angulo de paralaje
C++
Cognoscitivo
Coordenadas homogéneas
Cuartil
Cámara estenopeica
Distancia focal
Distribución Normal
Lista ordenada y finita de operaciones que permite hallar la solución a un problema, 13
Angulo formado desde un punto hacia la posición de las dos cámaras, 5
Lenguaje de programación orientado a objetos, 9
Que es capaz de conocer, 1
Representación de un punto bidimensional
(x, y) mediante tres valores (x, y, w), siendo el
valor real la división de x/w e y/w, 8
Dada una serie de valores ordenados: primer
cuartil, mediana de la primera mitad de valores; segundo cuartil, mediana de la serie; tercer cuartil, mediana de la segunda mitad de
valores, 34
Cámara sin lentes donde la luz penetra a
través de un pequeño agujero, 7
Distancia entre el plano proyectivo y el punto
de entrada de luz a la cámara, 8
Distribución Gaussiana, 29
Geometrı́a epipolar
Geometrı́a proyectiva
imágenes, 23
Memoria Semántica
Memoria de la información referida a conceptos extrapolados de situaciones vividas, 1
Plano proyectivo
Plano donde se forma la imagen que
será grabada, plano de imagen, 8
55
intrı́nseca
de
dos
Sı́ndrome
Conjunto sintomático con cierto significado y
que por sus caracterı́sticas posee cierta identidad, 1
Teorema Central del Lı́mite Si tenemos un grupo numeroso de variables
independientes y todas ellas siguen el mismo
modelo de distribución (cualquiera que éste
sea), la suma de ellas se distribuye según una
distribución normal, 29
56
Bibliografı́a
[1] American P. Association. Diagnostic and Statistical Manual of Mental Disorders
DSM-IV-TR Fourth Edition (Text Revision). American Psychiatric Publishing, July
1994.
[2] National Centre for Classification in Health (Australia). ICD-10-AM mental health
manual : an integrated classification and diagnostic tool for community-based mental
health services. National Centre for Classification in Health, Sydney :, 1st ed. edition,
2002.
[3] A Di Carlo, M Baldereschi, L Amaducci, V Lepore, L Bracco, S Maggi, S Bonaiuto,
E Perissinotto, G Scarlato, G Farchi, D Inzitari, and ILSA Working Grp. Incidence of dementia, Alzheimer’s disease, and vascular dementia in Italy. The ILSA
study. JOURNAL OF THE AMERICAN GERIATRICS SOCIETY, 50(1):41–48,
JAN 2002.
[4] MF Folstein, SE Folstein, and PR Mchugh. Mini-Mental State -Practical method
for grading cognitive state of patients for clinician. JOURNAL OF PSYCHIATRIC
RESEARCH, 12(3):189–198, 1975.
[5] Myron F. Weiner, Katherine E. Neubecker, Mary E. Bret, and Linda S. Hynan. Language in Alzheimer’s disease. JOURNAL OF CLINICAL PSYCHIATRY,
69(8):1223–1227, AUG 2008.
[6] Ozioma C. Okonkwo, Virginia G. Wadley, Karlene Ball, David E. Vance, and Michael
Crowe. Dissociations in visual attention deficits among persons with mild cognitive
impairment. AGING NEUROPSYCHOLOGY AND COGNITION, 15(4):492–505,
2008.
[7] AD Baddeley, HA Baddeley, RS Bucks, and GK Wilcock. Attentional control in
Alzheimer’s disease. BRAIN, 124(Part 8):1492–1508, AUG 2001.
[8] RJ Perry and JR Hodges. Attention and executive deficits in Alzheimer’s disease A critical review. BRAIN, 122(Part 3):383–404, MAR 1999.
[9] MF Ghilardi, M Alberoni, M Rossi, M Franceschi, C Mariani, and F Fazio. Visual feedback has differential effects on reaching movements in Parkinson’s and
Alzheimer’s disease. BRAIN RESEARCH, 876(1-2):112–123, SEP 8 2000.
57
[10] William J. Tippett and Lauren E. Sergio. Visuomotor integration is impaired in early
stage Alzheimer’s disease. BRAIN RESEARCH, 1102:92–102, AUG 2 2006.
[11] MF Ghilardi, M Alberoni, S Marelli, M Rossi, M Franceschi, C Ghez, and F Fazio.
Impaired movement control in Alzheimer’s disease. NEUROSCIENCE LETTERS,
260(1):45–48, JAN 22 1999.
[12] P Manckoundia, F Mourey, P Pfitzenmeyer, and C Papaxanthis. Comparison of motor strategies in sit-to-stand and back-to-sit motions between healthy and Alzheimer’s
disease elderly subjects. NEUROSCIENCE, 137(2):385–392, 2006.
[13] Jing-Jung Chen, Alice-M K. Wong, and Jin-Jang Wong. Motion analysis in dual-task
on patients with mild dementias. In Ibrahim, F and Osman, NAA and Usman, J
and Kadri, NA, editor, 3rd Kuala Lumpur International Conference on Biomedical
Engineering 2006, volume 15 of IFMBE Proceedings, pages 208–210, 233 SPRING
STREET, NEW YORK, NY 10013, UNITED STATES, 2007. Int Federat Med &
Biol Engn, SPRINGER. 3rd Kuala Lumpur International Conference on Biomedical
Engineering 2006 (BioMed 2006), Kuala Lumpur, MALAYSIA, DEC 11-14, 2006.
[14] A Lobo, P Saz, G Marcos, JL Dia, C de la Camara, T Ventura, FM Asin, LF Pascual, JA Montanes, and S Aznar. Re-validation of the Mini-Examen Cognoscitivo
(first Spanish version of the Mini-Mental Status Examination) in the elderly people.
MEDICINA CLINICA, 112(20):767–774, JUN 5 1999.
[15] J Heikkila and O Silven. A four-step camera calibration procedure with implicit image
correction. In 1997 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, PROCEEDINGS, PROCEEDINGS
/ CVPR, IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION
AND PATTERN RECOGNITION, pages 1106–1112, 10662 LOS VAQUEROS CIRCLE, LOS ALAMITOS, CA 90720, 1997. IEEE Comp Soc, Tech Comm Pattern Anal
& Machine Intelligence, I E E E, COMPUTER SOC PRESS. 1997 IEEE Computer
Society Conference on Computer Vision and Pattern Recognition (CVPR 97), SAN
JUAN, PR, JUN 17-19, 1997.
[16] Gary Bradski and Adrian Kaehler. Learning OpenCV: Computer Vision with the
OpenCV Library. O’Reilly, Cambridge, MA, 2008.
[17] ZY Zhang. A flexible new technique for camera calibration. IEEE TRANSACTIONS
ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 22(11):1330–1334,
NOV 2000.
[18] P Viola and M Jones. Rapid object detection using a boosted cascade of simple features. In Jacobs, A and Baldwin, T, editor, 2001 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, VOL 1, PROCEEDINGS, PROCEEDINGS - IEEE COMPUTER SOCIETY
CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION,
pages 511–518, 10662 LOS VAQUEROS CIRCLE, PO BOX 3014, LOS ALAMITOS,
58
CA 90720-1264 USA, 2001. IEEE Comp Soc, IEEE COMPUTER SOC. Conference
on Computer Vision and Pattern Recognition, KAUAI, HI, DEC 08-14, 2001.
[19] R Lienhart and J Maydt. An extended set of haar-like features for rapid object
detection. In 2002 INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, VOL I, PROCEEDINGS, IEEE International Conference on Image Processing (ICIP), pages 900–903, 345 E 47TH ST, NEW YORK, NY 10017 USA, 2002.
IEEE Signal Proc Soc, IEEE. IEEE International Conference on Image Processing,
ROCHESTER, NY, SEP 22-25, 2002.
[20] Ludmila I. Kuncheva. Combining Pattern Classifiers: Methods and Algorithms.
Wiley-Interscience, 2004.
[21] Y Freund and RE Schapire. A decision-theoretic generalization of on-line learning
and an application to boosting. JOURNAL OF COMPUTER AND SYSTEM SCIENCES, 55(1):119–139, AUG 1997. 26th Annual ACM Symposium on the Theory
of Computing (STOC), MONTREAL, CANADA, MAY 23-25, 1994.
[22] CP Papageorgiou, M Oren, and T Poggio. A general framework for object detection.
In SIXTH INTERNATIONAL CONFERENCE ON COMPUTER VISION, pages
555–562, 22 DARYAGANJ, DELHI MEDICAL ASSOCIATION RD, NEW DELHI
110 002, INDIA, 1998. IEEE Comp Soc, NAROSA PUBLISHING HOUSE. 6th
International Conference on Computer Vision, BOMBAY, INDIA, JAN 04-07, 1998.
[23] John G. Allen, Richard Y. D. Xu, and Jesse S. Jin. Object tracking using camshift
algorithm and multiple quantized feature spaces. In Massimo Piccardi, Tom Hintz,
Sean He, Mao Lin Huang, and David Dagan Feng, editors, 2003 Pan-Sydney Area
Workshop on Visual Information Processing (VIP2003), volume 36 of CRPIT, pages
3–7, Sydney, Australia, 2004. ACS.
[24] Keinosuke Fukunaga. Introduction to statistical pattern recognition (2nd ed.). Academic Press Professional, Inc., San Diego, CA, USA, 1990.
[25] R. I. Hartley and A. Zisserman. Multiple View Geometry in Computer Vision. Cambridge University Press, ISBN: 0521623049, 2000.
[26] Wayne W Daniel. Biostatistics : a foundation for analysis in the health sciences.
Wiley, New York, 2 ed edition, 1978.
59

Documentos relacionados