AN´ALISIS COMPUTARIZADO DEL MOVIMIENTO CEF´ALICO EN

Transcripción

Universidad de Zaragoza
Centro Politécnico Superior
ANÁLISIS COMPUTARIZADO DEL
MOVIMIENTO CEFÁLICO EN SUJETOS CON
DETERIORO COGNOSCITIVO
(ENFERMEDAD DE ALZHEIMER)
Tesis Fin de Máster
INGENIERÍA BIOMÉDICA
Programa Oficial de Posgrado en Ingenierı́as Transversales
Enero 2009
Autor:
Mario F. Rodrı́guez Martı́nez
Director: Carlos Orrite Uruñuela
Análisis Computarizado del Movimiento Cefálico en Sujetos con
Deterioro Cognoscitivo (Enfermedad de Alzheimer)
RESUMEN
La obtención de un correcto y temprano diagnóstico sirve para conseguir mejores resultados en los tratamientos de muchas enfermedades. En la Enfermedad de Alzheimer,
esto sirve para paliar y retrasar sus efectos. En este proyecto hemos desarrollado una
metodologı́a para evaluar diferentes aspectos de los pacientes que ayuden en dicho diagnóstico. Para ello, en primer lugar hemos desarrollado herramientas de visión por
computador que permiten localizar la posición de la cabeza en la imagen. Empleando
la posición de la cabeza en dos imágenes desde dos posiciones distintas (dos cámaras),
hemos calculado la posición tridimensional. Después, hemos empleado estas herramientas
para obtener el desplazamiento de la cabeza del paciente a lo largo de una entrevista
psiquiátrica, en la que se le realizaba el examen cognoscitivo ECMM-30. Esta información
la hemos complementado con el tiempo de reacción del paciente a las preguntas. Con
todo esto hemos obtenido tres parámetros principales por sujeto evaluado (tiempo de
reacción, cantidad de movimiento y velocidad de movimiento). Finalmente, para valorar
los parámetros, pretendı́amos utilizar una muestra amplia tanto de sujetos sanos como
de pacientes. Debido a la necesidad de obtener permisos para adquirir las muestras y no
tener respuesta en la fecha de realización de este informe, solamente hemos dispuesto de
7 sujetos sanos y 2 enfermos a los que hemos realizado un estudio estadı́stico basado en
ANOVA, que carece de validez generalizable por la escasez de muestras. Aún ası́, con los
resultados obtenidos, parece conveniente finalizar el estudio, ya que sı́ se observan tendencias y la metodologı́a puede resultar interesante para futuros estudios y finalmente, para
la ayuda al diagnóstico.
i
En estas lı́neas me gustarı́a agradecer a aquellas personas que me han apoyado en estos
meses. A mi director, Carlos, por la oportunidad de realizar este proyecto. A los
psicólogos clı́nicos, Raúl y Curro, por su contribución al trabajo. A mis compañeros de
laboratorio por su ayuda en los problemas que me iban surgiendo, o por los ratos de
descanso brindados. Especialmente a Miguel y su ayuda en la programación. Un
agradecimiento especial a los voluntarios que se han prestado para el análisis.
Finalmente, no quiero olvidar a mi familia y amigos que siempre están ahı́.
Gracias a todos.
iii
Índice general
1. Introducción
1
1.1. Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3. Problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4. Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2. Base de Datos
5
2.1. Escenario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2. Protocolo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2.1. Legalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2.2. Pasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.3. Montaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3. Localización de la cabeza
13
3.1. Localización en 2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.1. Algoritmo Viola & Jones . . . . . . . . . . . . . . . . . . . . . . . . 13
v
3.1.2. Cam-Shift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.3. Combinación de métodos . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2. Localización en 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.1. Estereovisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.2. Cambio de coordenadas . . . . . . . . . . . . . . . . . . . . . . . . 25
4. Resultados
27
4.1. Parámetros de análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2. Estudio estadı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
5. Conclusiones y trabajo futuro
37
5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
A. Aplicación
41
B. Consentimiento Informado
47
C. Examen Cognoscitivo Mini-Mental
51
vi
Índice de figuras
2.1. Escenario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2. Distorsiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.3. Cambio de coordenadas
9
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4. Plantilla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1. Cascada de clasificadores 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2. Harr-like features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3. Cascada de clasificadores 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.4. Mean-Shift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.5. Modelo de color HSV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.6. Estereovisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.7. Cruce de rayos proyectantes . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.8. Detección 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.9. Coordenadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.1. Parámetros automatizados . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2. Representación gráfica del ANOVA . . . . . . . . . . . . . . . . . . . . . . 34
4.3. Velocidad frente a Potencia . . . . . . . . . . . . . . . . . . . . . . . . . . 35
vii
4.4. Representación gráfica del tiempo . . . . . . . . . . . . . . . . . . . . . . . 35
A.1. Vista inicial de la aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . 41
A.2. Calibración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
A.3. Grabación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
A.4. Distorsión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
A.5. Procesamiento de eventos
. . . . . . . . . . . . . . . . . . . . . . . . . . . 45
A.6. Análisis 2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
A.7. Análisis 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
viii
Capı́tulo 1
Introducción
1.1.
Contexto
La Enfermedad de Alzheimer (EA) [1] [2] es una enfermedad neurodegenerativa que
afecta a la mitad de la población diagnosticada con algún tipo de demencia [3]. Aunque
esta enfermedad no dispone de cura conocida, sı́ existen tratamientos paliativos que retrasan los efectos y permiten llevar una vida autosuficiente durante más tiempo. Como
sucede en casi todas las enfermedades, un diagnóstico temprano permite que el tratamiento sea más efectivo. El problema se encuentra en que en algunos casos, y sobre todo en
etapas iniciales de la enfermedad, es complicado realizar un diagnóstico acertado, pudiendo ser confundida con varios tipos de depresión. Esto no impide, sin embargo, tener
herramientas para realizar el diagnóstico, siendo una entrevista psiquiátrica el método
principal, pero complementada con otras pruebas y observaciones tanto de confirmación
de la enfermedad como de descarte de otras: análisis de sangre, historial, etc. Dentro
de la entrevista se suele realizar el Mini-Mental State Examination (MMSE)[4] el cual
aporta unos buenos resultados. Sin embargo, actualmente se continúa investigando en
definir mejor el sı́ndrome que permita realizar un correcto diagnóstico al comienzo de la
enfermedad.
En estas etapas iniciales de la EA aparece un deterioro en la memoria, provocando
principalmente un sı́ndrome de amnesia. Es esta discapacidad en la memoria la más estudiada por ser fácilmente reconocible. Otros deterioros cognoscitivos van apareciendo según
avanza la enfermedad [5] [6]: problemas con el lenguaje, pérdida de memoria semántica,
deficiencia en la visión espacial, etc. También hay estudios que han sugerido la aparición
de estas deficiencias cognoscitivas en las etapas iniciales. Aunque dichas deficiencias existan no implica necesariamente padecer la EA, por lo que su empleo en el diagnóstico
debe ser complementada con otras pruebas.
1
2
1. Introducción
Uno de los principales factores analizados en la EA es el déficit de atención [7] [8].
Para su estudio se suele dividir la atención en varios niveles: atención focal, evalúa la
atención sobre un estı́mulo; resistencia a distracciones, evalúa la capacidad de atender
un estı́mulo desechando los distractores; y, atención a dos tareas simultáneas. El método
de evaluación se suele basar en tiempos de reacción, viéndose que los pacientes de EA
necesitan un tiempo mayor para preparar una respuesta que los controles sanos.
Otro factor importante que se encuentra en la literatura es el deterioro visomotor [9]
[10]. El movimiento generalmente está guiado por la información visual [11], dependiendo
su precisión de la representación en la memoria del espacio y la biomecánica empleada
para calcular las trayectorias. Un deterioro en esta parte de la memoria provoca que las
trayectorias de movimiento calculadas difieran con las calculadas por pacientes sanos. Esto
provoca que en pacientes con la EA se produzca un deterioro al planear los movimientos
que incide tanto en sus trayectorias como en sus tiempos de reacción.
1.2.
Motivación
Como hemos visto, la EA afecta a diversos procesos cognoscitivos, muchos de los
cuales no están evaluados con suficiente precisión como para poder ser utilizados en un
diagnóstico. El realizar una evaluación amplia supone un esfuerzo tanto para los pacientes
como para el personal médico. Por una parte, los pacientes deben realizar tareas especı́ficas
que los médicos evaluarán, por otra, los médicos deben analizar estas tareas lo que en
muchos casos puede suponer un trabajo tedioso en el que se invierte mucho tiempo.
Dentro del Máster en Ingenierı́a Biomédica de la Universidad de Zaragoza se nos
plantea realizar un proyecto al finalizar los estudios en colaboración con algún centro
médico. Teniendo en cuenta mi trabajo en el grupo de visión por computador cvLab de
la Universidad de Zaragoza y su colaboración previa con el departamento de psiquiatrı́a
del Hospital Clı́nico Universitario “Lozano Blesa”, decidimos realizar un trabajo conjunto
multidisciplinar. Ası́, planteamos emplear las herramientas que la visión por computador
puede aportar en el análisis del movimiento de personas para estudiar los desplazamientos
realizados por pacientes con la EA.
1.3 Problemática
3
Tras una revisión de la literatura que hace referencia al análisis en el movimiento de
pacientes con enfermedades neurodegenerativas, y en especial con la EA, encontramos
varios estudios que analizan este aspecto. Para la realización de estos estudios hay algunos que emplean técnicas de visión por computador y reconstrucción tridimensional del
movimiento, empleando para ello marcadores colocados sobre los sujetos [12] [13]. Esta
colocación de elementos externos puede provocar una alteración en el comportamiento
natural del sujeto, lo que no invalida la medición, pero sı́ la limita a las condiciones del
experimento. La idea que nos surgió de esto fue realizar un análisis, lo menos invasivo
posible, sobre el movimiento del sujeto. Además, este análisis estarı́a computarizado, de
tal forma que el trabajo de procesamiento desarrollado por una persona se limitase a
validar la corrección de los datos obtenidos automáticamente por el sistema.
1.3.
Problemática
El trabajo planteado conlleva la necesidad de resolver varios aspectos:
Descripción de objetivos: La parte más básica en el comienzo de un proyecto es describir el objetivo principal. Aunque puede parecer algo trivial, muchas veces se
comienza el desarrollo sin tener este apartado bien definido. Esto puede provocar
un desvı́o en el trabajo que provoca invertir un esfuerzo innecesario. Tras el objetivo
principal se describen objetivos secundarios dividiendo y ası́ facilitando el trabajo.
Obtención de una Base de Datos: En nuestro caso es necesario obtener muestras de
pacientes con la EA ası́ como sujetos sanos de control. El emplear visión por computador para el análisis de movimiento supone tener que grabar vı́deos de los sujetos
realizando el movimiento que queremos analizar. Para ello hay que definir un protocolo de adquisición de imágenes.
Problemática legal: El realizar una Base de Datos de imágenes de personas implica
además tener que cumplir la ley de protección de datos vigente.
Análisis de datos: Finalmente hay que realizar el análisis de datos. Para ello hay que
realizar primero un procesamiento de la base de datos de tal forma que se obtengan
los parámetros adecuados. Estos parámetros obtenidos se deben analizar mediante
métodos estadı́sticos que permitan validar su utilidad.
4
1. Introducción
1.4.
Objetivo
Como objetivo principal se ha planteado el diseño de un sistema informático de ayuda
a la valoración de la EA. Para ello el sistema deberá medir diferentes parámetros del
sujeto que el personal medico pueda emplear posteriormente en un diagnóstico. Al ser una
aplicación informática la que realiza la obtención de los parámetros, éstos son objetivos
y no dependen de la valoración de una persona concreta.
Para conseguir el objetivo diseñamos el procedimiento teniendo en cuenta los medios
disponibles:
Una consulta en el Hospital Clı́nico ”Lozano Blesa” donde se realiza una entrevista
psiquiátrica para diagnosticar enfermos de la EA.
Dos cámaras de vı́deo digitales.
Un ordenador portátil para realizar la adquisición de datos, y el procesado.
Con estos medios de partida el procedimiento decidido ha sido el siguiente. Emplear
una parte de las sesiones de la entrevista para analizar el movimiento de los pacientes en ese
periodo de tiempo. En concreto se pretende realizar un seguimiento del movimiento de la
cabeza durante el rato en el que se realiza el Examen Cognoscitivo Mini-Mental (ECMM),
la adaptación del MMSE al español [14]. Si el seguimiento lo realizamos sobre la imagen
de una cámara, esto puede provocar que los parámetros medidos sean muy dependientes
del ángulo formado entre la proyección de la cara sobre la cámara y la normal de la cara.
Por ello, para independizar los resultados del montaje realizado, proponemos emplear
estereovisión y realizar una reconstrucción en tres dimensiones (3D) de la posición de la
cabeza.
A partir de las coordenadas de la cabeza a lo largo del tiempo se pretenden obtener
parámetros diferenciadores entre enfermos con la EA y sujetos sanos. Sin concretar exactamente los parámetros por desconocer a priori los datos obtenidos, sı́ que proponemos
fijarnos en tres aspectos concretos: el tiempo de reacción, la velocidad, y la cantidad de
movimiento. La definición de cómo medimos estos datos se encuentra en apartados más
especı́ficos. Finalmente, la utilidad de estos parámetros se analizará mediante métodos
estadı́sticos.
Capı́tulo 2
Base de Datos
2.1.
Escenario
Antes de proceder a las grabaciones hay que diseñar el escenario donde queremos
realizarlas. Para ello se debe tener en cuenta el lugar y los medios de los que se dispone.
Ası́, conocemos que las grabaciones se van a realizar en una consulta del hospital, dónde
tendremos que colocar las cámaras y sistemas correspondientes.
Figura 2.1: Escenario - A la izquierda se muestra un esquema de la consulta. A la derecha
la consulta y el montaje real.
En la parte de la izquierda de la figura 2.1 hay un esquema de la colocación de las
cámaras respecto a la posición esperada de la cabeza del sujeto. Esta colocación se basa
en intentar minimizar en lo posible el error de reconstrucción 3D. Conociendo que un
ángulo de paralaje próximo a 45o es adecuado para este propósito, buscamos una posición
próxima a este ángulo. Como se puede observar a la derecha de la figura, en la fotografı́a
del escenario, las cámaras están sujetas en la ventana, a ambos lados de la posición donde
se pondrá el entrevistador. Se busca ası́, tanto el ángulo de paralaje como evitar la oclusión
del entrevistado por parte del entrevistador.
5
6
2. Base de Datos
En la fotografı́a, ademas de las cámaras, observamos que hay dos micrófonos conectados al ordenador portátil empleado para la adquisición de datos. Estos micrófonos están
encargados de adquirir la señal de audio de la entrevista, uno enfocado para grabar la
conversación del entrevistado y otro la del entrevistador. La razón de esta grabación radica en la necesidad de conocer cuándo se realizan las preguntas y cuándo se responde, para
ası́ tener indicadores del tiempo de reacción del sujeto evaluado.
2.2.
Protocolo
En esta sección se explica el proceso de adquisición de la base de datos y los diferentes
pasos que lo componen.
2.2.1.
Legalidad
Una parte muy importante para realizar una base de datos con información de personas
es cumplir con la legislación vigente sobre protección de datos. Esta información está regulada actualmente por la Ley Orgánica 15/1999 de Protección de Datos de Carácter
Personal. Según dicha ley, las personas que participen en este proyecto deben ser informadas previamente de varios aspectos: el propósito de la investigación; el procedimiento
que se seguirá para obtener los datos, y qué datos serán almacenados; la legislación que
le ampara al respecto de la confidencialidad de los datos; el coste que le puede provocar
la participación y la compensación que obtendrá por ello; las alternativas que tiene si
no participa; y finalmente su derecho a abandonar el estudio cuando considere oportuno,
con el correspondiente borrado de sus datos. Al tratarse a su vez de datos médicos, es
necesario también cumplir con la Ley 41/2002 de Autonomı́a del Paciente, por la cual el
paciente puede decidir si participar o no en el estudio, sin que ello repercuta, en ningún
caso, en un perjuicio sobre la atención que requiera del sistema de salud correspondiente,
en este caso, el Servicio Aragonés de Salud.
Para cumplir con esta normativa se ha redactado un documento informativo, ası́ como
un consentimiento informado. Ambos documentos deberán ser explicados al participante,
el cual los cumplimentará y firmará si está conforme con su participación. En caso negativo, si se trata de un paciente, se procederá con el tratamiento habitual.
2.2 Protocolo
2.2.2.
7
Pasos
A lo largo de este apartado vamos a ver las diferentes fases que hay que seguir para
realizar la obtención de la base de datos.
Calibración
La calibración de las cámaras es un paso previo a las grabaciones necesario para
obtener una correcta reconstrucción 3D. Para que ésta sea útil, una vez calibradas, las
cámaras deben permanecer en una posición fija, ya que un movimiento de éstas cambia
los parámetros propios del escenario.
La imagen grabada en el sensor de cualquier cámara está distorsionada respecto al
modelo de cámara con el que se trabaje en la reconstrucción. En nuestro caso el modelo
para la reconstrucción 3D es una cámara estenopeica, y mediante la calibración se busca
conocer los parámetros que modifican la imagen para adaptarla a dicho modelo. Como
existen muchos factores que influyen en la distorsión, se realizan diferentes aproximaciones
que permiten corregir las distorsiones más tı́picas. En la figura 2.2 están descritos los dos
tipos de distorsión que vamos a corregir (distorsión radial y distorsión tangencial).
Figura 2.2: Distorsiones - A la izquierda se muestra un esquema de las distorsiones radiales
(barril y cojı́n). A la derecha una figura de la distorsión tangencial y su causa.
La distorsión radial es producida por las lentes de la cámara, y dependiendo de su
forma se denomina comúnmente distorsión de barril o de cojı́n. Para corregirla se emplea el modelo matemático siguiente, el cual introduce tres parámetros de incertidumbre
desconocidos, siendo r la variable radio dependiente de la posición (x, y):
8
2. Base de Datos
xcorrected = x(1 + k1 r 2 + k2 r 4 + k3 r 6 )
ycorrected = y(1 + k1 r 2 + k2 r 4 + k3 r 6 )
(2.1)
La distorsión tangencial es producida por el ángulo de inclinación del plano sensor
sobre el plano proyectivo del modelo. Para corregirla se emplea este otro modelo con dos
nuevos parámetros desconocidos:
xcorrected = x + [2p1 y + p2 (r 2 + 2x2 )]
ycorrected = y + [p1 (r 2 + 2y 2 ) + 2p2 x]
(2.2)
Hasta ahora hemos corregido la distorsión producida en la imagen. Una vez realizado
este proceso, queremos conocer la proyección de un punto en el espacio real sobre el plano
proyectivo. Para conseguir esto se emplea la matriz intrı́nseca de la cámara [15] donde
está incluida la información de distancia focal, tamaño de los pı́xeles y posición del centro
óptico en la imagen. Toda esta información se codifica en cuatro parámetros dentro de la
matriz.
 
  
X
fx 0 cx
x
 
  
 y  =  0 fy cy   Y 
Z
0 0 1
w
(2.3)
El primer vector representa el punto visto en la cámara en coordenadas homogéneas.
Este valor está en pı́xeles, mientras que el último vector representa el punto en el espacio
referenciado a la cámara, en la medida que deseemos (nosotros empleamos centı́metros).
Hasta ahora hemos visto los parámetros intrı́nsecos de la cámara, o propios de ésta.
Pero para realizar una reconstrucción 3D hace falta tener la información de la posición y
orientación de las cámaras con respecto a unas coordenadas propias del escenario. Esta
−
→
conversión de coordenadas se consigue mediante el vector de traslación t representado
por tres parámetros y la matriz de rotación R con otros tres parámetros correspondientes
a los ángulos de inclinación en cada plano. Para obtener la información de este vector y
2.2 Protocolo
9
esta matriz es necesario emplear puntos de referencia distribuidos en más de un plano.
−
→
Pc = R(Po − t )
(2.4)
Donde Pc representa el punto en coordenadas de la cámara y Po el punto en coordenadas
del origen seleccionado.
Figura 2.3: Cambio de coordenadas - Rotación y traslación de un origen de coordenadas
a otro
Todos los parámetros explicados hasta ahora son obtenidos mediante el proceso de
calibración. Para realizar éste utilizaremos la librerı́a de visión por computador para
C++ OpenCV [16]. Con esta librerı́a se realiza un proceso de calibración simplificado
[17] el cual emplea una plantilla de calibración plana. El método consigue los parámetros
necesarios a través de, una vez fijadas las cámaras, obtener varias imágenes de la plantilla
de calibración en ambas cámaras. Para ello las cámaras deben estar sincronizadas, y
en instantes de tiempo diferente obtenemos una imagen de la plantilla en cada cámara.
En total obtendremos imágenes en 15 instantes diferentes, adoptando la plantilla una
posición distinta en cada uno, ası́ se consiguen muchas más ecuaciones de las estrictamente
necesarias para resolver el sistema de ecuaciones con los 15 parámetros desconocidos
(5 debidos a la distorsión, 4 intrı́nsecos de la cámara y, 6 extrı́nsecos o de posición y
orientación). De esta forma se consigue dotar de robustez a los datos obtenidos. La plantilla
es como la mostrada en la figura 2.4, y como el tamaño de los recuadros es fijo y conocido
es posible reconstruir todos los parámetros deseados.
El proceso de calibración se realiza una sola vez mientras no se muevan las cámaras.
En principio éstas están fijas, pero como pueden pasar varios dı́as entre sesiones lo realizaremos cada dı́a que se obtengan grabaciones.
10
2. Base de Datos
Figura 2.4: Plantilla de calibración - Cinco filas y seis columnas
Consentimiento informado
La obtención del consentimiento informado debe ser previa a la primera sesión de cada
sujeto. Como en este estudio sólo se realiza una sesión por paciente, siempre antes de cada
sesión hay que realizar el proceso de información y obtención del consentimiento. En el
apartado de Legalidad hemos visto la necesidad de este paso.
Grabación
La grabación es el paso principal. Este proceso está diseñado para que no influya
en el devenir habitual del desarrollo del examen cognoscitivo. Un programa permite al
entrevistador activar y desactivar la grabación de forma sencilla, por lo que una vez
montado el sistema no es necesario que nadie más permanezca en la sala.
El proceso consiste en que el entrevistador activa la grabación, acto seguido comienza el
desarrollo del ECMM-30 y, una vez finalizado éste, para la grabación. Durante la entrevista
se graba la imagen del sujeto desde ambas cámaras ası́ como un fichero de audio de toda la
entrevista. En el fichero de audio se graba tanto las preguntas del entrevistador como las
respuestas del entrevistado. Las imágenes obtenidas de este proceso están distorsionadas
lo que hace necesario procesarlas para quitarles dicha distorsión. Este procesamiento lo
realiza otra aplicación empleando los parámetros obtenidos en el proceso de calibración.
2.3 Montaje
11
Copia de seguridad
Este es un proceso muy corto, pero muy importante. Se debe realizar una copia de
seguridad de cada sesión para poder garantizar la integridad de la base de datos en todo
momento. El acceso tanto a la grabación original como a la copia de seguridad debe estar
restringido a los investigadores para poder garantizar la seguridad de los datos de las
personas participantes.
2.3.
Montaje
El sistema de grabación está compuesto de las dos cámaras modelo ”Fire-i” de la empresa Unibrain ası́ como dos micrófonos con respuesta direccional cardioide. Como hemos
visto, las cámaras enfocan al entrevistado y los micrófonos, al tratarse de direccionales,
están enfocados tanto al entrevistador como al entrevistado. Toda la información es grabada en un ordenador donde está el programa de grabación instalado. El ordenador del que
disponemos posee una conexión IEEE-1394 FireWire al que se conectan las cámaras en
modo serie. Igualmente posee una entrada de micrófono. Esta entrada de micrófono sólo
admite un canal mono a través de una conexión minijack, por lo que tenemos que juntar la
señal de ambos micrófonos en uno. Para esto empleamos un adaptador de dos conectores
minijack hembra (donde se conectarán ambos micrófonos) a un minijack macho (para la
conexión con el ordenador).
2.4.
Resultados
La base de datos que vamos a obtener consta de los siguientes elementos por cada
sesión:
1. Dos ficheros de vı́deo (uno por cada cámara) de una resolución de 320x240 pı́xeles
a una tasa de grabación de 10 fps.
2. Un fichero de audio con la señal de ambos micrófonos en un solo canal a una frecuencia de muestreo de 16 KHz y una codificación de 16 bits.
12
2. Base de Datos
3. El resultado del ECMM-30 del sujeto entrevistado.
4. El diagnóstico médico sobre la EA.
Buscamos tener una muestra de 10 sujetos sanos y 10 pacientes con la EA para realizar
el estudio estadı́stico y poder detectar alguna diferencia en el movimiento. Como veremos
en los apartados de resultados y conclusiones, no ha sido posible obtener esta base de
datos debido a la necesidad de contar con el permiso del Comité de Ética del Hospital,
y el retraso en la tramitación de dicho permiso por el cual continuamos a la espera de
respuesta. Finalmente la base de datos con la que hemos trabajado es mucho más reducida,
con 7 sujetos sanos y 2 pacientes de EA.
Capı́tulo 3
Localización de la cabeza
A lo largo de este capı́tulo veremos las diferentes técnicas empleadas para localizar la
posición de la cabeza.
3.1.
Localización en 2D
La localización en dos dimensiones (2D) consiste en encontrar la posición en la imagen. Disponemos de una imagen de la cabeza por cada cámara en un instante de tiempo
determinado. A partir de la imagen se busca conocer la posición en ella de la cabeza en
coordenadas pixélicas. Para realizar esta búsqueda de forma automática hemos implementado dos técnicas ya conocidas.
3.1.1.
Algoritmo Viola & Jones
El primer método que vamos a ver para la detección de la cabeza es el desarrollado
por Paul Viola y Michael Jones [18], conocido como algoritmo de Viola & Jones. Este
método realiza una detección de la posición del objeto buscado. Se ha comprobado que
ofrece muy buenos resultados en la detección de caras de frente. En concreto una mejora
del algoritmo realizada por Lienhart [19] es uno de los métodos más utilizados para la
detección de caras.
Conocer la posición de la cara o de la cabeza es equivalente, por lo que este algoritmo
nos es útil para el objetivo buscado. Además, no solo se emplea en caras de frente, sino que
se puede entrenar para detectar cualquier objeto, siendo posible por tanto entrenarlo con
13
14
caras de perfil u otras posiciones. Sin embargo, los resultados obtenidos en estas posiciones
son bastante pobres, lo que no permite utilizarlo como método de detección robusto.
Descripción
Viola & Jones está basado en el empleo de clasificadores débiles, esto quiere decir que
un solo clasificador no aporta unos resultados muy fiables. Estos clasificadores se diseñan
para tener una Tasa de Falso Rechazo (FRR) muy baja, próxima a cero, lo que provoca que
tengan una Tasa de Falsa Aceptación (FAR) alta. Para realizar la clasificación completa
se emplea una cascada de clasificadores como la mostrada en la figura 3.1, con el objetivo
de dar una detección positiva si todos los clasificadores lo detectan, pero rechazar con
que uno solo lo rechace. Este sistema permite aumentar la velocidad de procesamiento
con respecto a técnicas que necesitan procesar todos los clasificadores, como puede ser la
Regla del Más Votado [20].
Figura 3.1: Cascada de clasificadores - Cada elemento representa un clasificador que, si
acepta, continúa con el siguiente y, si rechaza, se detiene
Si consideramos que los clasificadores son independientes y con las mismas caracterı́sticas (suposición poco probable pero aceptable para entender el ejemplo siguiente), podemos
considerar una cascada de 20 clasificadores con una F RR = 0,001 y una F AR = 0,5, el
clasificador en cascada obtendrá los siguientes resultados.
F RRtot = F RR + (1 − F RR) · F RR + ... + (1 − F RR)19 · F RR ≈ 0,02
F ARtot = F AR20 ≈ 0, 00001
Mediante este ejemplo vemos que a pesar de que un solo clasificador da muchos falsos
positivos, el conjunto tiene una tasa F AR incluso mucho más baja que la F RR.
3.1 Localización en 2D
15
Para que este sistema funcione es necesario disponer de los clasificadores adecuados.
A continuación están explicados los clasificadores que se emplean, pero sabiendo que se
dispone de miles posibles es fácil comprender que hay que realizar una selección. Esta
selección se realiza mediante la técnica de AdaBoost [21]. Una vez seleccionados se suelen
emplear dos ordenamientos posibles para intentar aumentar la velocidad en el procesamiento: ordenar de clasificador más rápido de procesamiento a más lento, u ordenar de
clasificador con F AR menor a F AR mayor.
Los clasificadores empleados utilizan las caracterı́sticas Harr-like features [22]. Estas
caracterı́sticas consisten en la diferencia entre la suma de los pı́xeles de unos rectángulos
con otros. En la figura 3.2 vemos sombreados unos rectángulos y blancos los otros.
Figura 3.2: Harr-like features - A la izquierda las caracterı́sticas empleadas en el algoritmo
original de Viola & Jones y a la derecha las empleadas en la mejora de Lienhart
Estos rectángulos se desplazan y se escalan en el área donde se considera que está el
objeto. Por ello, partiendo de estos pocos ejemplos se consiguen miles de clasificadores
diferentes.
Para conseguir estos clasificadores, la selección realizada mediante AdaBoost, y la
cascada final, es necesario realizar un entrenamiento muy costoso. Este entrenamiento
necesita muchos ejemplos del objeto buscado (recordemos que en nuestro caso se trata
de caras) que no siempre es posible obtener, además de mucho tiempo de procesamiento
para obtener el clasificador. Debido a estos problemas se pueden emplear clasificadores
ya entrenados previamente por otros grupos. Nosotros hemos encontrado 14 clasificadores
entrenados entre caras de frente y caras de perfil. Para poder utilizar todos ellos en
nuestro beneficio, siendo que nuestro procesamiento no requiere una alta velocidad, y con
la idea de la cascada de clasificadores, hemos diseñado otra cascada de clasificadores pero
16
invirtiendo la idea. Sabemos que en cada imagen hay una cara, por lo que cada clasificador
deberá encontrar una cara como máximo. Como hemos visto en un ejemplo anterior, cada
clasificador completo tiene una F AR muy baja (intentamos bajarla todo lo posible sin
que se aumente en exceso el rechazo), por lo que si detecta una cara es muy probable que
sea correcta. Ası́, vamos recorriendo los clasificadores mientras no detecten una cara, y en
el momento que la detecten detenemos el proceso, como se observa en la figura 3.3.
Figura 3.3: Cascada de clasificadores - Cada elemento representa un clasificador que, si
rechaza, continúa con el siguiente y, si acepta, se detiene
Discusión
Este método tiene la ventaja de que la detección es muy fiable, cuando una cara
se detecta es porque está allı́. Sin embargo tiene el inconveniente de que en muchas
ocasiones la cara no es detectada y por tanto en esos momentos es perdida por completo
la posición. Si esto ocurriese en fotogramas salteados y sabiendo que la cabeza no se mueve
mucho entre fotogramas se podrı́a suponer que la posición en los fotogramas perdidos es
la posición anterior. El problema en nuestro sistema es que la cara no está solo de frente o
de perfil, sino que también se agacha cuando la persona escribe, o es ocultada por la mano
o algún papel empleado en la entrevista. En estos momentos la localización es perdida
por completo y el mantener la posición anterior no es viable. Por ello, el empleo de este
sistema no es razonable, ya que se necesita la posición en todo momento, siendo necesario
emplear algún otro método.
3.1.2.
Cam-Shift
Otro procedimiento que vamos a utilizar para la detección de la posición de la cabeza
en 2D es el Cam-Shift [23]. Este método está basado en uno desarrollado previamente,
denominado Mean-Shift [24] en el que se desplaza una ventana en la dirección del gradiente
17
dentro de una imagen de probabilidad, hasta alcanzar un máximo. De esta forma si se
consigue una imagen de la probabilidad de encontrar el objeto deseado se puede buscar
la de dicho objeto. A continuación está explicado el sistema en más profundidad.
Descripción
El algoritmo de Cam-Shift sigue una serie de pasos:
1. Se selecciona una Región de Interés (ROI) dentro de la imagen donde se espera
encontrar el objeto.
2. Se selecciona una localización inicial donde colocar la ventana empleada para MeanShift. Esta ventana se emplea para calcular la distribución de probabilidad empleada
en la creación de la imagen de probabilidad, si no se dispone previamente de ella.
3. Se calcula la distribución de probabilidad de la imagen.
4. Se itera el algoritmo Mean-Shift hasta encontrar el centroide de la imagen de probabilidad y se almacena la posición del centroide y el momento de orden cero.
5. Para el siguiente fotograma se centra la ventana en la posición del centroide y se
actualiza su tamaño en función del momento de orden cero. Se vuelve al punto 3.
En la figura 3.4 vemos el desarrollo del algoritmo Mean-Shift que sigue los pasos
siguientes:
1. Consideramos la selección de la ventana donde se encuentra el objeto como primer
paso, aunque realmente es el segundo o último paso de Cam-Shift.
2. Se calcula el centro de masas de la ventana dentro de la imagen de probabilidad.
3. Se centra y escala la ventana en el centro de masas obtenido en el paso previo.
4. Se vuelve al paso 2 mientras no se cumpla el criterio de convergencia seleccionado.
18
Figura 3.4: Mean-Shift - Desplazamiento de la ventana hacia el centro de masas, hasta
cumplir el criterio de convergencia
Imagen de probabilidad Para calcular la imagen de probabilidad se puede emplear
cualquier método que asocie a un valor de pı́xel una probabilidad. El método comúnmente
empleado es una retroproyección de histograma. Para su cálculo se suele emplear un
histograma obtenido del canal de color H del modelo HSV (Figura 3.5) dentro de la
ventana seleccionada. El histograma obtenido se escala de forma que el mayor valor tenga
probabilidad 1 y a cada pı́xel de la imagen real se le asocia el valor del histograma que
corresponda a su color.
Figura 3.5: Modelo de color HSV - H→Canal de Color. S→Canal de Saturación. V→Canal
de Brillo
19
En este caso se ha empleado el canal H del modelo HSV pero se puede emplear
cualquier otro color o modelo ası́ como emplear un histograma multidimensional.
El cálculo del histograma se puede tener almacenado o calcular en la propia secuencia.
En este trabajo vamos a crear el histograma de forma manual al inicio de cada secuencia,
seleccionando una ventana donde se encuentra la cabeza. Como es probable seleccionar
elementos externos a la cabeza en los extremos de la ventana vamos a ponderar los pı́xeles
centrales más que los exteriores. Para ello, vamos obteniendo imágenes reduciendo la
ventana cada vez en un pı́xel por extremo hasta que desaparezca. Ası́, con todas estas
imágenes creamos el histograma.
Centro de masas Como ya hemos visto, tenemos que calcular el centro de masas de
una ventana, para ello se emplean los momentos. En el cálculo de los momentos se emplea
la intensidad de la imagen de probabilidad en el punto (x, y) denominada I(x, y):
1. Cálculo del momento de nivel cero:
M00 =
XX
x
I(x, y)
(3.1)
y
2. Cálculo de los momentos de primer nivel:
M10 =
XX
x
M01 =
XX
x
xI(x, y)
y
yI(x, y)
(3.2)
y
3. Cálculo del centro de masas:
xc =
M01
M10
; yc =
M00
M00
(3.3)
Convergencia Finalmente se necesita tener un criterio de convergencia para detener
el algoritmo Mean-Shift. Éste puede estar basado en un número máximo de iteraciones,
en una distancia máxima entre centros de masas consecutivos, etc. Además, en el caso
de que el momento M00 tenga un valor 0 el algoritmo también debe detenerse puesto que
ningún pı́xel tiene valor, lo que indica que el objeto se ha perdido.
20
Discusión
Este método de seguimiento de un objeto, en nuestro escenario, es muy inestable,
pero con una serie de pequeños cambios adaptados a la situación puede ser bastante
útil. Además, a diferencia del algoritmo de Viola & Jones , no se producen pérdidas en
la localización de la cabeza en ningún fotograma. El principal problema que provoca la
inestabilidad consiste en la confusión del objeto con otros elementos debido a una mala
imagen de probabilidad, la cual asigna excesivo valor a zonas donde no se encuentra la
cara.
Una primera solución, que además reduce el tiempo de cómputo, consiste en limitar la
imagen de búsqueda a una región alrededor de la ventana obtenida en la detección anterior.
Esto evita distracciones de objetos alejados en la imagen, aunque los más próximos pueden
seguir interfiriendo en el seguimiento.
Para conseguir que los objetos más próximos no interfieran se puede realizar una
substracción del fondo, de modo que los pı́xeles del fondo valgan cero y los pı́xeles donde
existe movimiento o está la persona mantengan su valor. Con esto se consigue que los
distractores del fondo no perjudiquen en la detección. Decidimos no actualizar el valor
del fondo a lo largo de la secuencia, ya que, al estar la persona todo el tiempo en la
misma zona, complica el proceso y los beneficios que se pueden obtener no compensan el
esfuerzo. Además, al tratarse de una secuencia no muy larga en un escenario controlado,
es previsible que no se produzcan grandes cambios de iluminación. Sin embargo, al no
actualizar el fondo, los cambios de iluminación pueden provocar que para el seguimiento
se tenga en cuenta parte del fondo. Aún ası́, es mayor el problema que se encuentra con
los distractores del propio cuerpo del sujeto, como puede ser la mano o la ropa que lleve.
La última mejora que se realiza es el empleo de los tres canales del modelo de color
HSV de manera proporcional. De este modo se pretende crear la imagen de probabilidad
con el histograma que mejores resultados aporte en cada momento. La utilidad de emplear
los tres canales en vez de sólo el canal H de color radica en que al tratarse de una secuencia
relativamente corta el cambio de iluminación no es muy relevante, y el brillo o saturación
en la piel puede ser un factor diferenciador del resto de elementos. Además, la ventaja que
aporta el canal H, frente al resto, está en que el color de la piel es muy constante entre
personas e iluminaciones, por lo que una vez aprendido se puede exportar a diferentes
21
escenarios y personas. Pero en nuestro caso los histogramas los creamos en el primer
fotograma con una selección manual y sólo se van a emplear en la propia secuencia.
Para combinar proporcionalmente las imágenes de probabilidad aportadas por cada
canal proponemos emplear la ecuación 3.4, en la que asignamos un peso a cada imagen:
I = Wh · Ih + Ws · Is + Wv · Iv
Wj =
Sum(Ijw )/Sum(Ij−w )
Sum(Ihw )/Sum(Ih−w ) + Sum(Isw )/Sum(Is−w ) + Sum(Ivw )/Sum(Iv−w )
(3.4)
j = h, s, v
Siendo I la imagen de probabilidad final, Ij la imagen de probabilidad del canal j,
Sum(Ijw ) la suma del valor de los pı́xeles de la imagen dentro de la ventana o (−w) fuera.
Existe la posibilidad igualmente de actualizar los histogramas con cada nueva imagen
o mantener los iniciales. La ventaja de actualizar radica en que los cambios de iluminación
en la cara son tenidos en cuenta, pero sin embargo tiene la desventaja de ir añadiendo
poco a poco información de elementos externos a la cara como puede ser el fondo o la
ropa. En las pruebas realizadas no hemos encontrado que un sistema sea mejor que otro,
y dependiendo de la secuencia es uno u otro el que mejor se comporta.
3.1.3.
Combinación de métodos
Teniendo en cuenta los dos métodos explicados hasta ahora, se puede conseguir uno
más robusto realizando una combinación de ambos.
Descripción
Como ya hemos visto, los resultados del algoritmo de Viola & Jones es muy fiable en su
detección, más aún si limitamos la búsqueda a una región próxima a la anterior detección
de la cara. Sin embargo, no es capaz de distinguir la cara con variaciones del ángulo de
proyección de ésta. Por otra parte, Cam-Shift siempre aporta un resultado, a cambio,
baja mucho su fiabilidad y es más fácil que pierda el seguimiento. La localización de la
22
cara en 2D la realizaremos finalmente combinando ambos métodos mediante el algoritmo
siguiente:
1. Inicialización manual.
2. Localización de la cara mediante el algoritmo de Cam-Shift.
3. Ampliación de la región localizada mediante Cam-Shift en un valor proporcional al
tamaño de la ventana obtenida.
4. Localización de la cara mediante el algoritmo de Viola & Jones dentro de la región
calculada.
5. Si Viola & Jones obtiene un resultado positivo se considera válido. En caso contrario,
se mantiene el resultado obtenido por Cam-Shift. Si la secuencia continúa, regreso
al segundo apartado, finalización del algoritmo en otro caso.
Discusión
Esta sencilla combinación permite compensar los problemas de ambos métodos. Aún
ası́, los errores cometidos por Cam-Shift se mantienen cuando no corrige Viola & Jones
por lo que se hace necesario un sistema de alarma que detenga el procesamiento cuando se
produzca un error y este pueda ser solventado manualmente. Un sistema sencillo aunque
eficaz, consiste en detener el procesamiento si el movimiento del centro de la cabeza es
superior a una proporción de su tamaño, y éste tamaño tampoco varı́a en una proporción
excesiva. La forma de calcular ambos umbrales es ad hoc, ya que la posición (no fijada)
en la que está grabando la cámara puede variar su valor. Para intentar conseguir que el
sistema sea portable se puede decidir poner un método de detención ajustable, y que el
propio revisor pueda variar los parámetros a conveniencia.
3.2.
Localización en 3D
Una vez que se conoce la localización de la cabeza en los planos proyectivos de ambas
cámaras es posible realizar una reconstrucción de la posición tridimensional de la cabeza.
23
El emplear esta localización y no sólo una en 2D aporta más información e independencia
de la posición de las cámaras.
3.2.1.
Estereovisión
La reconstrucción tridimensional mediante estereovisión está basada en la geometrı́a
epipolar [25]. Esta geometrı́a es también denominada de dos vistas (perspectivas) de una
escena.
Reconstrucción 3D
Para calcular la posición 3D de un punto es necesario que éste sea observado por ambas
cámaras. Tras el proceso de calibración que ya hemos realizado, tanto los parámetros
intrı́nsecos (calibración) como extrı́nsecos (posición de la cámara) son conocidos. Además,
conocemos la posición en la imagen del punto que buscamos, en nuestro caso el centroide
de la cabeza, gracias a la Localización 2D. Teniendo esta información se puede obtener
la localización tridimensional mediante la intersección de los rayos proyectantes, como se
observa en la figura 3.6.
Figura 3.6: Estereovisión - Obtención de la posición mediante intersección de los rayos
proyectantes
24
La forma de obtener la posición consiste en la triangulación entre los rayos proyectantes
y la posición entre cámaras. Como hemos visto, esto se puede obtener de conocer la
i
i
imagen del punto X en las cámaras i = 1, 2, ui = P i (X, θint
, θext
), obtenida mediante los
i
i
parámetros intrı́nsecos (θint
) y extrı́nsecos (θext
) de dicha cámara.
Sin embargo, lo visto hasta ahora es teórico, y en la práctica los rayos proyectantes
no se cortan, sino que se cruzan. Si los parámetros de las cámaras están bien calculados, y los puntos detectados en ambas imágenes son correspondientes, entonces los rayos
aproximadamente se cortan como se observa en la figura 3.7.
Figura 3.7: Cruce de rayos proyectantes - La posición X se obtiene mediante la minib = mı́nx (d2 + d2 )
mización de la distancia a los rayos X ∼
=X
1
2
Las reproyecciones (ub1 ,ub2 ) del punto reconstruido en los planos proyectivos no coinci-
den con los puntos imagen empleados (u1 ,u2 ). Para calcular finalmente el punto X en 3D
se realiza la optimización no lineal de la ecuación 3.5.
1
1
1
1
2
2
2
2
∼
b
X = X = mı́n (u − P (X, θint , θext ) + (u − P (X, θint , θext ))
x
(3.5)
25
Discusión
La reconstrucción tridimensional es muy exacta si los datos con los que se calcula
también lo son. El problema es que es una etapa muy dependiente de los datos de entrada.
Esto supone que, en nuestro caso, el resultado obtenido es muy dependiente de la posición
del centroide de la cabeza detectada en la etapa de Localización 2D, y esta detección no es
muy robusta. Para comprobar que la reconstrucción aporta resultados fiables etiquetamos
a mano los movimientos en una secuencia conocida, y comparamos con la información que
nos aporta la reconstrucción (figura 3.8).
Figura 3.8: Detección 3D - Las lı́neas rojas son detecciones manuales de cambio en el
movimiento, comienzos y finales. Cada gráfica representa el movimiento detectado en los
ejes (x, y, z) respectivamente
Se observa en los resultados una clara relación entre los datos obtenidos con la reconstrucción 3D y los datos que se pueden obtener manualmente. Esto indica que, aunque la
posición no sea exacta, el movimiento se puede obtener y es posible emplear la información
para el estudio.
3.2.2.
Cambio de coordenadas
En las gráficas observadas en la figura 3.8 están representados los tres ejes de coordenadas (x, y, z), pero para que esa información sea más comprensible debemos conocer
26
a qué dirección corresponde cada una. Con la transformación de coordenadas se pueden
referenciar a cualquier parte de la imagen que nos interese, pero para ello tenemos que
ser capaces de construir el eje de coordenadas deseado. Con este fin, creamos un eje de
coordenadas referenciado a la mesa donde se coloca el sujeto como se observa en la figura
3.9.
Figura 3.9: Coordenadas - Sistema de coordenadas referenciado a la mesa
Este sistema de coordenadas se puede obtener conociendo el punto origen de coordenadas y dos segmentos en la dirección X y Z. Una vez calculado el sistema de coordenadas
respecto al sistema de coordenadas con el que estamos obteniendo toda la información,
es posible realizar la transformación de uno a otro. La transformación de un origen de
coordenadas a otro ya la vimos en el apartado de Calibración del anterior capı́tulo, siendo
la ecuación 2.4 la que nos indica cómo realizarla.
Capı́tulo 4
Resultados
4.1.
Parámetros de análisis
De los datos obtenidos con el proceso explicado hasta ahora es posible analizar un
gran número de parámetros. Entre ellos se puede analizar el tiempo de reacción a los
estı́mulos (preguntas), las frecuencias del movimiento de la cabeza, cuánto se mueve la
persona, la velocidad a la que se desplaza, cantidad de información que tiene la señal de
desplazamiento, el ángulo que adopta la cabeza, etc. El último parámetro mencionado
pensamos que se podrı́a obtener del ajuste que realiza el proceso del Cam-Shift mediante
una elipse y su inclinación, pero los resultados que se han obtenido son poco fiables y no se
van a emplear. Finalmente, debido al escaso tiempo del que hemos dispuesto para realizar
el análisis, hemos considerado conveniente limitar el estudio a los siguientes parámetros.
Tiempo de reacción El tiempo de reacción lo calculamos como el intervalo de tiempo
que transcurre desde que se formula una pregunta o una orden, hasta que se comienza
una respuesta o un movimiento de respuesta. A lo largo del ECMM-30, tanto se formulan
preguntas como se manda realizar tareas. El cálculo de este tiempo es realizado manualmente ya que no hemos desarrollado ninguna herramienta de reconocimiento del habla
que pueda automatizarla. Lo que hay desarrollada es una herramienta de reproducción y
marcación de eventos que facilita marcar preguntas y respuestas.
A partir de los tiempos de respuesta a cada pregunta se pueden realizar diferentes
análisis. Ası́, un primer parámetro a analizar puede ser el tiempo medio de respuesta
(ecuación 4.1). Por otra parte, se puede analizar el tiempo de respuesta a cada uno de los
11 apartados existentes en el ECMM-30, y analizar los resultados de cada apartado por
separado. Otro parámetro que se puede emplear es el número de preguntas en las que ha
27
28
4. Resultados
tardado más tiempo en responder cada persona, ası́ analizaremos en cuántas preguntas
ha tardado más de 1 segundo, más de 2 y más de 3. Consideramos en este último análisis
que un tiempo inferior a 1 segundo corresponde a una respuesta continua a la pregunta y
su valor puede depender además del error de marcación.
T =
N
1 X
(tresp − test )
N i=1
(4.1)
Cantidad de movimiento La cantidad de movimiento la vamos a medir a partir de
los desplazamientos que realiza la cabeza. Ası́, primero obtenemos una señal que contiene
la información del desplazamiento que se produce en cada instante de tiempo mediante
la distancia euclı́dea entre posiciones consecutivas.
D[n] =
p
(x[n − 1] − x[n])2 + (y[n − 1] − y[n])2 + (z[n − 1] − z[n])2
(4.2)
A partir de esta señal de desplazamiento obtenemos su potencia, que será nuestra medida
de la cantidad de movimiento que realiza el paciente. Hay que tener en cuenta que si
queremos comparar los resultados con otros obtenidos en diferentes condiciones, habrá que
normalizar a la tasa de grabación.
N
1 X
P =
D[n]2
N i=1
(4.3)
Velocidad de movimiento El último parámetro que vamos a medir es la velocidad
de movimiento de cada sujeto. Realmente, la velocidad se puede obtener de transformar
la señal de desplazamiento que hemos calculado previamente (ecuación 4.2) dividiéndola
por el tiempo entre fotogramas (4t). Obteniendo los máximos locales de velocidad, vamos
a obtener la velocidad máxima media, ya que cada desplazamiento contiene un máximo
local. Hay que tener cuidado de filtrar los máximos locales debidos a ruido en la adquisición
de la señal.
n
1 X i
v
(4.4)
V =
N i=1 max
4.2 Estudio estadı́stico
4.2.
29
Estudio estadı́stico
Mediante la separación de los dos grupos de sujetos (controles sanos y pacientes con la
EA) intentamos comprobar si alguno de los parámetros de estudio es diferenciador entre
ambos. Para realizar este estudio, estadı́sticamente, se busca comprobar la separación
entre medias mediante un análisis de varianza ANOVA [26].
El ANOVA lo vamos a utilizar para analizar una respuesta cuantitativa de cada
parámetro, variable dependiente, medida bajo unas condiciones experimentales identificadas por una variable categórica (enfermo-sano) o variable independiente. Como la
variable independiente (enfermo, sano) solo permite dos valores, sólo existen dos medias
posibles y por tanto, el análisis de ANOVA es equivalente al análisis de t-Student.
Para poder realizar este estudio, previamente hay que garantizar tres condiciones de
las muestras obtenidas:
Independencia Las observaciones deben ser independientes entre si. En nuestro estudio
lo asumimos ya que cada dato proviene de una persona diferente.
Normalidad Los diferentes grupos de muestras deben ser distribuciones normales,
aunque no es tan importante como la independencia de las observaciones, pues el ANOVA
es robusto. Esto quiere decir que, aunque las observaciones no sean normales, las medias
de los tratamientos son aproximadamente normales debido al Teorema Central del Limite. Para comprobar la normalidad de las distribuciones se puede aplicar el método de
Kolmogorov-Smirnov (K-S) si los parámetros de la distribución normal a la que queremos
saber si pertenecen los datos son conocidos. En nuestro caso estos datos no son conocidos por lo que aplicaremos una adaptación de este test para una distribución normal
desconocida, llamada test de Lilliefors.
Homogeneidad La última condición que se debe cumplir es que las varianzas sean
iguales en ambos grupos. Para ello se realiza la prueba de Levene.
Una vez comprobadas las condiciones anteriores se puede proceder al estudio estadı́stico. Aunque nosotros solo estudiemos 2 grupos el ANOVA permite comparar las medias
30
4. Resultados
de n grupos con n ≥ 2. Con este estudio pretendemos confirmar o rechazar la hipótesis
nula.
H0 : Las medias de los grupos son iguales
H1 : Al menos una de las medias es diferente
La prueba está basada en la comparación entre las variabilidades entre-grupo y y las
variabilidades intra-grupos y sigue el siguiente proceso.
Cálculo de la suma de cuadrados Si se denota al número de grupos como n, al
número de individuos por grupo como nj con j = 1, ..., n y la media global como x.
Además, xij son los datos observados y xj las medias de los grupos. La suma de cuadrados
entre grupos SCE, la suma de cuadrados dentro de grupos SCD y la suma de cuadrados
total SCT se calcula del siguiente modo:
SCE =
n
X
nj (xj − x)2
(4.5a)
j=1
SCD =
nj
n X
X
(xij − xj ) =
XX
(xij − x)2
2
j=1 i=1
nj
n
SCT =
nj
n X
X
j=1 i=1
x2ij −
n
X
nj xj 2
(4.5b)
j=1
(4.5c)
j=1 i=1
Cálculo de los grados de libertad Los grados de libertad entre grupos GLE, dentro
de los grupos GLD y total GLT se calculan de la manera siguiente, sabiendo que N es el
número total de individuos:
GLE = n − 1
(4.6a)
GLD = N − n
(4.6b)
GLT = N − 1
(4.6c)
4.3 Resultados
31
Cálculo de los cuadrados medios El cuadrado medio entre grupos CME y el cuadrado medio dentro de los grupos CMD se calculan de la manera siguiente:
SCE
GLE
SCD
CMD =
GLD
CME =
Estadı́stico de contraste F
pleando el estadı́stico F .
(4.7a)
(4.7b)
Finalmente se puede realizar la prueba de ANOV A em-
CME
(4.8)
CMD
Este valor se distribuye según una distribución F − Snedecor con GLE grados de libertad
del numerador y GLD grados de libertad del denominador. Con estos valores se puede
F =
calcular el p − valor, que indica la probabilidad de que se produzca la observación si la
hipótesis nula es cierta. Para rechazar la hipótesis nula el p − valor debe ser inferior a
un α determinado previamente. Nosotros hemos decidido considerar un α = 0,05. Por lo
que si el resultado es inferior vamos a considerar que las medias de ambos grupos son
diferentes y por tanto el parámetro correspondiente será indicativo de la EA.
4.3.
Resultados
Para obtener los resultados deseados hemos considerado conveniente emplear 10 muestras de controles sanos y 10 de pacientes con la EA. Sin embargo, como ya hemos visto,
debido a la polı́tica interna del Hospital Clı́nico Universitario ”Lozano Blesa”, y tras
comenzar las sesiones de grabación en el mes de noviembre, éstas fueron suspendidas hasta que el Comité de Ética del Hospital aprobase el informe sobre el proyecto presentado.
En el mes de diciembre continuábamos sin respuesta de dicho comité, y con la necesidad de finalizar el proyecto (que no la investigación) para comienzos del mes de enero,
por lo que decidimos intentar obtener los sujetos de análisis personalmente. Esto ha imposibilitado obtener muestras suficientes al conseguir tan solo 11 sujetos mayores de 60
años buscando entre familiares y amigos, de los cuales tan solo 2 están diagnosticados
con demencia senil o principio de la EA. Además, dos de las muestras no ha sido posible
procesarlas debidamente ya que la ropa que llevaban interferı́a demasiado en el análisis o
la iluminación del escenario no era adecuada. Por tanto, finalmente sólo disponemos de
32
4. Resultados
7 sujetos sanos y 2 pacientes con EA, uno diagnosticado con principio de EA (EA+) y
el otro sin diagnóstico claro (EA?). Además, debido a problemas de disponibilidad de los
participantes y de los psicólogos, de las 9 sesiones, tan sólo dos han sido realizadas por
un psicólogo clı́nico, siendo el resto realizadas por mı́ bajo las indicaciones y supervisión
de los psicólogos. Hay que añadir además que las sesiones se han realizado en escenarios
diversos para adaptarse a las posibilidades de los participantes.
Teniendo en cuenta estos datos, los resultados obtenidos se muestran en la tabla 4.1. De
estos datos, ademas de observar la posible dependencia de factores como el escenario (a lo
que va asociado el entrevistador), existen dos variables (edad y sexo) que también pueden
influir en los resultados. El problema es que la muestra es excesivamente pequeña para
que, aún obteniendo un resultado positivo o negativo en el análisis de ANOVA podamos
realizar ninguna afirmación, y el resto de variables pueden ser tanto o más influyentes en
el resultado.
Sujeto
01
02
03
04
05
06
07
08
09
Edad
67
66
60
86
87
62
62
81
81
Sexo
V(♂)
V(♂)
M(♀)
M(♀)
M(♀)
M(♀)
V(♂)
M(♀)
V(♂)
Escenario
S1
S1
S2
S2
S2
S2
S2
S3
S3
Diagnostico
Sano
Sano
Sano
EA+
Sano
Sano
Sano
Sano
EA?
ECMM-30
29/30
28/30
30/30
20/30
28/30
30/30
29/30
30/30
24/30
T (s)
0’5964
0’8191
0’4473
1’3664
0’8800
0’6500
0’5655
0’6727
0’9936
P
V (cm/s)
0’1919
3’8574
0’2407
6’0484
0’3285
8’0484
0’1280
4’5512
0’3781
8’0540
0’3710
8’2536
0’2610
5’5216
0’1151
4’5513
0’1271
4’5320
Tabla 4.1: Datos obtenidos de las 9 sesiones procesadas
Tanto la Potencia P como la Velocidad V son datos obtenidos de forma no supervisada
(salvo las correcciones necesitadas por pérdida en el seguimiento). Esto significa que, en
caso de ser parámetros diferenciadores, se podrı́an emplear para obtener datos de ayuda
al diagnóstico sin suponer un trabajo laborioso. En la figura 4.1 vemos la distribución de
los resultados de estos parámetros frente al ECMM-30 y al diagnóstico.
Se puede observar que hay una tendencia general a estar separados los resultados de
los sujetos sanos y enfermos, pero algunas muestras se cruzan, por lo que realizamos el
análisis de ANOVA con el que verificar los resultados.
4.3 Resultados
33
0.45
8
0.4
0.35
7
0.3
6
P
V (cm/s)
0.25
0.2
5
0.15
4
0.1
3
0.05
0
0
5
10
15
ECMM−30
20
25
(a) Potencia de la señal
30
2
0
5
10
15
ECMM−30
20
25
30
(b) Velocidad
Figura 4.1: Parámetros automatizados - Representación del valor que adoptan estos
parámetros frente al resultado en el ECMM-30 en cada observación. En rojo sujetos con
EA y en azul sujetos sanos
Tanto en los resultados para la potencia como en los de la velocidad comprobamos las
condiciones previas. En el test de normalidad de Lilliefors obtenemos un p-valor mayor
a 00 5 para la potencia e igual a 00 187 para la velocidad, ambos superiores a α = 00 05
con lo que no podemos descartar la hipótesis nula H0 . H0 en este estudio consiste en
la pertenencia de la distribución a una normal. El análisis de normalidad sólo se puede
realizar con los sujetos sanos, ya que con dos observaciones no se puede aplicar, por lo que
tampoco se puede descartar H0 . Por otra parte, el test de Levene sobre la homogeneidad
obtiene un p-valor igual a 00 23 para la potencia e igual a 00 1 para la velocidad, por lo que
tampoco se puede descartar H0 . En este caso H0 consiste en que las varianzas son iguales.
Con los resultados obtenidos en las condiciones podemos pasar a evaluar el ANOVA
de cada variable (figuras 4.2 y 4.3).
Inter Grupos
Intra Grupos
Total
Suma de cuadrados Grados de libertad
0’0315
1
0’0565
7
0’088
8
Cuadrado medio
0’0315
0’0081
F
3’91
p
0’0886
Tabla 4.2: ANOVA con variable independiente la potencia
En ninguna de las dos podemos descartar la hipótesis nula H0 que supone que las
medias son iguales. De todas formas, el resultado obtenido con el parámetro de potencia no
está muy alejado de la condición de p < 00 05, y si esta fuese menos restrictiva sı́ se podrı́a
descartar H0 . Por lo tanto, con los resultados obtenidos, descartamos estos parámetros
para diferenciar enfermos de sanos. En la representación gráfica de los resultados (figura
34
4. Resultados
Inter Grupos
5’0745
1
Intra Grupos
19’5879
7
Total
24’6619
8
Cuadrado medio
5’0745
2’7982
F
p
1’81 0’22
Tabla 4.3: ANOVA con variable independiente la velocidad
4.2) se observa cómo están entrelazados los grupos. Sin embargo, sı́ que pueden ser útiles
como condición necesaria para ser EA. Por lo tanto, dependiendo del valor obtenido
se podrı́a descartar la enfermedad ya que los sujetos con EA obtienen unos resultados
parecidos. Como ya hemos dicho, un estudio más amplio serı́a necesario.
8
0.35
7.5
7
0.3
V (cm/s)
P
6.5
0.25
6
5.5
5
0.2
4.5
0.15
4
3.5
1
2
Grupo
(a) Potencia de la señal
1
2
Grupo
(b) Velocidad de la señal
Figura 4.2: Representación gráfica del ANOVA - Representación de la mediana (rojo),
cuartiles (azul) y valores extremos de los grupos (1-sanos, 2-EA)
También se pueden valorar ambos parámetros de forma conjunta. Con esto intentamos
observar si emplear ambos resultados aporta más información que uno sólo, pero se vuelve
a encontrar el mismo problema de que sujetos sanos se mezclan con EA (figura 4.3).
Finalmente evaluamos el parámetro tiempo. Este parámetro lo hemos obtenido de
forma totalmente manual, lo que supone dedicar demasiado tiempo a su medición como
para poder ser útil en el formato actual. Además, la dependencia de los criterios empleados
por el evaluador lo hace un parámetro no generalizable. Una vez dedicado este tiempo por
un mismo evaluador, podemos analizar los diferentes resultados obtenidos. En los análisis
de normalidad y homogeneidad obtenemos un p-valor mayor que 00 5 para normalidad e
igual a 00 34 para homogeneidad, por lo que podemos aplicar el análisis de ANOVA.
4.3 Resultados
35
8.5
8
7.5
7
V (cm/s)
6.5
6
5.5
5
4.5
4
3.5
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
P
Figura 4.3: Velocidad frente a Potencia - Representación de los resultados de la velocidad
media frente a la potencia de la señal. En rojo sujetos con EA y en azul sujetos sanos
Inter Grupos
0’4181
1
Intra Grupos
0’2017
7
Total
0’6198
8
Cuadrado medio
0’4181
0’0288
F
p
14’51 0’0066
Tabla 4.4: ANOVA con variable independiente el tiempo medio de reacción
En la tabla 4.4 se observa que el p-valor es inferior a α = 00 05, por lo que sı́ se
puede emplear para diferenciar. En la figura 4.4 vemos la representación gráfica de las
observaciones ası́ como de los resultados del ANOVA.
1.4
1.4
1.3
1.3
1.2
1.2
1.1
1.1
1
0.9
t(s)
t(s)
1
0.8
0.9
0.8
0.7
0.7
0.6
0.6
0.5
0.4
0
0.5
5
10
15
ECMM−30
20
25
(a) Tiempo de respuesta
30
1
2
Grupo
(b) Gráfica de ANOVA
Figura 4.4: Representación gráfica del tiempo - 4.4a Tiempo medio de respuesta frente
al resultado del ECMM-30. En rojo sujetos con EA y en azul sujetos sanos. 4.4b Representación de la mediana (rojo), cuartiles (azul) y valores extremos de los grupos (1-sanos,
2-EA)
La última evaluación del tiempo de reacción que realizamos es el número de veces que
este tiempo supera un umbral (tabla 4.5). Ası́, los pacientes diagnosticados tienen mayor
36
4. Resultados
número de veces una reacción más lenta. Sobre un umbral de 1s los enfermos de EA son
los que más observaciones tienen, aunque otro participante tiene resultados próximos. Si
subimos el umbral a tiempos superiores a 2 y 3 segundos, son los enfermos los únicos que
tienen alguna observación, aunque en general pocas.
Umbral
nt>1s
nt>2s
nt>3s
01
3
0
0
02 03 04 05 06 07
5 2 13 10 2 4
0 0 3 0 0 0
0 0 1 0 0 0
08 09
6 12
0 2
0 0
Tabla 4.5: Número de veces que el tiempo de reacción supera un umbral
No hemos considerado oportuno, hasta disponer de una base de datos mayor, pormenorizar el estudio de tiempos de reacción a cada uno de los apartados del ECMM-30,
ya que carecen de validez estadı́stica y la información obtenida por el tiempo medio global
y el número de veces que se supera un umbral son suficientes para evaluar el parámetro
tiempo.
Capı́tulo 5
Conclusiones y trabajo futuro
5.1.
Conclusiones
El desarrollo del Máster en Ingenierı́a Biomédica conlleva una serie de plazos de entrega del Trabajo Fin de Máster que no tienen por qué coincidir con el desarrollo de la
investigación. Además, debido a que la obtención de los datos en el Hospital debe cumplir
un proceso de aprobación, cuyo trámite es ajeno a quienes participamos en el proyecto, no
ha sido posible realizar las grabaciones dentro de los plazos necesarios para el Máster. Es
por ello que los resultados presentados en este proyecto carecen de una validez estadı́stica
fiable, pese a estar completamente desarrollado el método de adquisición y evaluación.
Hemos observado que existen estudios realizados con sólo muestras de 6 enfermos y 6
sujetos de control, lo que consideramos insuficiente para validar un parámetro de estudio,
de hecho nuestro objetivo de 20 muestras totales también lo consideramos poco fiable y
solamente útil para evaluar la metodologı́a. Al final, con las 9 observaciones conseguidas,
hemos intentado realizar dicha evaluación con el procedimiento desarrollado, pero como
ya hemos dicho, carece de validez.
Este contratiempo no impide, sin embargo, realizar una apreciación de dichos resultados, que pueden servir para valorar la metodologı́a cualitativamente. Ası́, observamos que
los métodos más automatizados, a pesar de no ser válidos numéricamente con el estudio
realizado, sı́ aportan una tendencia a la diferenciación, y con un estudio más amplio se
podrı́an validar o descartar. Además, como ya hemos comentado, sı́ parecen servir como
condición necesaria en los pacientes de EA.
Por otra parte, parece claro que el tiempo de reacción es el parámetro más significativo
de los evaluados ya que en esta pequeña base de datos sı́ es capaz de diferenciar entre
pacientes con la EA y sujetos sanos.
37
38
Igualmente podemos valorar el resultado obtenido de las herramientas de análisis. Se
ha conseguido obtener un sistema semiautomático de análisis del movimiento cefálico en
los sujetos. Ası́, es posible realizar dicho análisis con una pequeña supervisión manual, lo
que permitirı́a procesar una base de datos amplia sin un gran esfuerzo por parte de los
investigadores.
Se ha conseguido igualmente obtener un sistema mı́nimamente invasivo, ya que los
sujetos analizados no tienen que variar en nada el proceso en la entrevista psiquiátrica
habitual. Este sistema trabaja de forma independiente a dicha entrevista. Además, su
pequeño tamaño y funcionamiento independiente a la posición exacta de las cámaras
permite que sea realmente portable, y su utilización en diferentes escenarios sólo necesita
de una pequeña etapa de colocación y calibración.
Este proyecto interesó además en el V Encuentro de Neurociencias de la Universidad
de Zaragoza donde presentamos el estado de desarrollo en esas fechas:
Rodrı́guez-Martı́nez MF, López-Antón R, Roy JF, Herrero E, Orrite C, Saz P, Lobo
A. Análisis computarizado del movimiento cefálico en sujetos con deterioro cognoscitivo
(Enfermedad de Alzheimer): Proyecto ACMCA. V Encuentro de Neurociencias. 2008
5.2.
Trabajo futuro
Lógicamente, la primera tarea que se debe realizar a partir de este proyecto es finalizar
el estudio consiguiendo las 20 sesiones ya explicadas. En este proceso nos encontramos
actualmente y en cuanto obtengamos el visto bueno procederemos a su conclusión.
También es cierto, que si bien 10 observaciones de sujetos sanos y 10 de enfermos ya
comienzan a aportar una información estadı́stica relevante, pueden no ser suficientes para
independizar los resultados del resto de variables, por lo que, en la medida de lo posible,
se deberı́a procurar aumentar estas muestras. Además, también serı́a conveniente, una
vez conseguida una base de datos suficientemente extensa, ampliar el estudio a un mayor
número de parámetros.
Como ya hemos visto, la etapa menos robusta es la encargada de obtener la posición de
la cabeza en 2D. Para aumentar la automatización del sistema serı́a conveniente mejorar el
5.2 Trabajo futuro
39
sistema de detección de la cabeza, para ello se pueden aplicar otras técnicas. Por ejemplo,
en el seguimiento que hemos realizado, no tenemos en cuenta información dinámica de la
velocidad y dirección en instantes previos, y ésta es información que podrı́a mejorar el sistema. Serı́a conveniente por tanto, continuar implementando herramientas de seguimiento
y localización para conseguir un método que automatizase en todo lo posible el sistema,
además de que hiciese más robusta la localización. También podrı́a ser adecuado emplear
modelos en 3D para esta localización, trabajando directamente con la información en 3D.
Ademas de aumentar la automatización en la localización, el apartado de medida de
los tiempos de reacción es completamente manual. Para poder automatizar este apartado
se deben aplicar metodologı́as de segmentacion de locotor y, de forma más avanzada,
reconocimiento del habla que sean capaces de identificar una pregunta y su correspondiente
respuesta. De este modo, además de automatizar el sistema, se objetivarı́an los resultados
ya que no dependerı́an de la persona que analice los eventos.
De cara a un sistema más completo, se podrı́a analizar el movimiento de la persona
desde el momento en que entra en la consulta hasta que sale, con lo que se podrı́a obtener
información de, por ejemplo, el proceso de sentarse y levantarse, el cual puede ser más
relevante que la información analizada hasta el momento. También se podrı́an obtener medidas de otros aspectos, como puede ser digitalizar la parte escrita del ECMM u obtener
información de la dirección donde está mirando el sujeto. Desarrollando un método para
detectar la mirada se podrı́a evaluar si el sujeto mira al entrevistador o pierde el contacto
visual. Para poder conseguir esta información extra serı́a necesario un sistema más completo, con mayor resolución en las cámaras, una tableta digitalizadora para la escritura o
una iluminación infrarroja.
La mayor resolución de las cámaras podrı́a servir también para mejorar el análisis
actual, permitiendo detectar puntos caracterı́sticos de la cara como los ojos o nariz, lo que
posibilitarı́a conocer el vector normal al plano de la cara y con ello la posición adoptada
por la cabeza.
En este proyecto hemos enfocado el estudio a pacientes con la EA ya que era un grupo
al que, en principio, ı́bamos a tener acceso. Sin embargo el desarrollo tecnológico podrı́a
ser aplicado a estudiar otros trastornos de conducta como pueden ser niños con Trastorno
por Déficit de Atención, con o sin Hiperactividad(TDA/H) [1] [2].
40
Apéndice A
Aplicación
Para realizar los procesos de obtención de la Base de Datos y Localización 3D de la
posición de la cabeza, hemos desarrollado un programa basado en diálogos en el entorno de
desarrollo Microsoft Visual Studio .NET 2003 y en el lenguaje de programación orientado
a objetos C++.
El programa diseñado está dividido en tres apartados (figura A.1). Los dos primeros
corresponden a la grabación de la base de datos, siendo el primer apartado el encargado
de la calibración de las cámaras y el segundo realiza el proceso de grabación y eliminación
de la distorsión. El tercer y último apartado contiene los diálogos de procesamiento.
Figura A.1: Vista inicial de la aplicación-En el recuadro de la grabación, el primer botón
abre el diálogo de calibración y el segundo el de grabación. El botón de procesamiento
permite abrir diferentes diálogos
El diálogo de calibración (figura A.2) permite realizar este proceso indicando las caracterı́sticas de la plantilla de calibración que se va a emplear. Una vez indicadas estas
caracterı́sticas se puede comenzar el proceso, visualizando la imagen capturada por cada
41
42
A. Aplicación
cámara y desplazando la plantilla por el espacio de medición. Un contador nos va indicando cuántas veces se ha capturado la plantilla, y cuando se consigue el número deseado
(el diseño actual esta en 15 muestras) se realiza el cálculo de la calibración. Los datos de
calibración son almacenados en un fichero XML que serán empleados en etapas posteriores. Este diálogo pertenece a un programa desarrollado previamente por un investigador
del grupo (Elias Herrero), en el que está basado el estudio tridimensional.
Figura A.2: Calibración - Diálogo empleado para realizar el proceso de calibración de dos
cámaras
Posteriormente tenemos acceso al diálogo de grabación (figura A.3). En este diálogo cargamos el nombre del fichero de calibración correspondiente para ası́ almacenar los vı́deos
grabados referenciados a dicho nombre, igualmente etiquetamos la sesión de grabación,
pudiendo con ésto activar las cámaras. Con las cámaras activas se muestran las imágenes
capturadas por cada una, y se puede comenzar con la sesión de grabación. Para realizar
dicha grabación es tan sencillo como pulsar el botón de Grabar y una vez finalizada la
sesión pulsar el botón de Parar. Con ésto se graban dos ficheros de vı́deo, uno por cada
cámara, y un fichero con la señal de audio de la sesión.
El último diálogo perteneciente a la grabación de la sesión es el encargado de corregir la
distorsión de los vı́deos (figura A.4). A este diálogo se accede desde el diálogo de grabación
mediante el botón Procesar Distorsión. Se cargan tanto los vı́deos de ambas cámaras como
el fichero con los datos de calibración. Si se selecciona Ver Proceso se puede visualizar a
la izquierda los dos vı́deos originales, y a la derecha de estos sus correspondientes vı́deos
43
Figura A.3: Grabación - Diálogo empleado para realizar el proceso de grabación de las
sesiones
transformados sin distorsión. Se puede ademas realizar el proceso a mayor velocidad si no
se visualizan los vı́deos. Para realizar el proceso, una vez cargados todos los archivos se
pulsa el botón Corrige Distorsión.
Una vez realizado el proceso de grabación y quitada la distorsión a dichas grabaciones se
puede comenzar con el procesamiento de los datos.
Un primer diálogo está diseñado para la obtención de los tiempos de reacción (figura A.5).
Este diálogo permite seleccionar y reproducir uno de los vı́deos grabados en una sesión y
la señal de audio correspondiente. A su vez permite marcar los eventos deseados de forma
manual mediante el botón Evento y almacenar el fotograma correspondiente en un fichero
de texto. Cuando se acaba de procesar un vı́deo se puede cerrar con el botón Cerrar y
ası́ permite abrir un nuevo vı́deo y audio listo para su etiquetado.
El siguiente dialogo de procesamiento es el encargado de localizar la posición de la cara
en 2D (figura A.6). Primero se selecciona el vı́deo que se pretende analizar. Se carga el
primer fotograma en el recuadro principal, ası́ como diferentes datos necesarios para el
procesamiento, mediante el botón de Carga Datos. Se selecciona sobre la imagen cargada
la ventana empleada para realizar el histograma de color. Mediante el botón Crea histograma ademas de crear el histograma con la imagen seleccionada con la ventana, ésta
se representa en el recuadro colocado en la parte superior derecha de la imagen principal.
En la imagen del diálogo no vemos la imagen seleccionada para el histograma ya que
corresponde exactamente al rostro y éste no se puede publicar. Una vez llegado a este
punto, mediante los botones de Play y Stop se puede navegar por el análisis. A la derecha
44
A. Aplicación
Figura A.4: Distorsión - Diálogo empleado para realizar y visualizar el proceso de eliminación de la distorsión de las cámaras
45
Figura A.5: Procesamiento de eventos - Diálogo empleado para etiquetar los tiempos de
preguntas y respuestas
de la imagen, bajo el recuadro antes mencionado, se representa la imagen de probabilidad
empleada en el algoritmo del Cam-Shift, y observando esto podemos interpretar dónde
estamos teniendo los mayores problemas. En cualquier momento se puede parar el análisis
y corregir la detección automática de modo manual sobre la propia imagen, continuando
el análisis automático a partir de la detección manual. Los datos obtenidos de la posición
de la cabeza en la imagen son almacenados en un fichero de texto.
Finalmente, un último diálogo es el que se encarga de obtener la posición en 3D de la
cabeza a lo largo de toda la secuencia (figura A.7). En este diálogo es necesario cargar
cinco archivos diferentes: uno correspondiente a los datos de calibración de las cámaras,
dos correspondientes a las posiciones de la cabeza en 2D en cada cámara, y finalmente,
otros dos correspondientes al origen de coordenadas deseado, uno por cada cámara. Una
vez cargados los cinco archivos se puede proceder al procesamiento mediante el botón de
Procesa posición 3D. Finalmente se almacena la información tridimensional en un nuevo
fichero de texto que podrá ser empleado para los análisis estadı́sticos deseados.
Aunque hemos integrado todo el proceso en un solo programa, como hemos visto, los
diferentes apartados son totalmente independientes. Esto es útil para un trabajo donde
queramos ir modificando los apartados de forma separada, y revisando que cada uno
funciona correctamente. En un sistema más desarrollado esto deberı́a ser más automático
y no necesitarı́a almacenar tantos archivos. El resto del proceso para realizar el estudio
explicado en este proyecto se implementará empleando herramientas diferentes.
46
A. Aplicación
Figura A.6: Análisis 2D - Diálogo empleado para la localización de la cabeza en 2D
Figura A.7: Análisis 3D - Diálogo empleado para la localización de la cabeza en 3D
Apéndice B
Consentimiento Informado
Tı́tulo de la Investigación:
“Análisis computarizado del movimiento cefálico en sujetos con deterioro
cognoscitivo (Enfermedad de Alzheimer)”ACMCA
Investigador Principal: Mario F. Rodrı́guez Martı́nez
Lugar de Realización:
Hospital Clı́nico Universitario “Lozano Blesa”
Centro Politécnico Superior de la Universidad de Zaragoza
Propósito del estudio:
La realización de este estudio busca encontrar un patrón común en el movimiento de
pacientes que sean diagnosticados con demencia senil. Siendo este patrón diferenciador de
estos pacientes frente a sanos u otras patologı́as como depresiones. Partimos de la premisa
de que un paciente con demencia senil tiene un movimiento más lento y su tiempo de
reacción ante un estı́mulo (pregunta) es más elevado que en personas sanas.
El estudio pretende evaluar con los datos obtenidos la viabilidad de emplear un sistema
de apoyo al diagnóstico actual.
Le preguntamos por tanto si desea participar en este estudio de investigación. Para su
colaboración necesitarı́amos que nos cediese una grabación de video y audio del proceso de
evaluación que le realice su doctor. Grabaciones que en ningún caso serán empleadas para
otros fines que la investigación, y siendo eliminado el rostro en cualquier reproducción
pública a fin de mostrar los resultados obtenidos.
En cualquier caso, el que usted rechazase su participación, no implicarı́a cambios en la
atención que pudiera requerir por parte del Servicio Aragonés de Salud.
47
48
Procedimientos/explicación del estudio:
Realización de una grabación de la Entrevista Psiquiátrica en la que se emplea el examen
cognoscitivo Mini-Mental. Para la grabación se emplean dos cámaras de video y micrófono.
Los datos adquiridos se van a analizar mediante técnicas de visión por computador en
búsqueda de algún patrón común.
El procedimiento no variará en nada la Entrevista Psiquiátrica realizada habitualmente.
Riesgos/beneficios
El estudio no supone ningún riesgo adicional al no modificar en nada el tratamiento
recibido.
Igualmente tampoco supone un beneficio directo al paciente, ya que los datos obtenidos no
afectarán en ningún caso al diagnóstico recibido. Tan sólo podrán ser útiles en diagnósticos
futuros.
Confidencialidad:
Tanto su nombre como su rostro no aparecerá en ningún escrito ni publicación. Los datos
biométricos se almacenarán en un lugar protegido y se tomarán las medidas necesarias
para mantener su carácter confidencial. El acceso a los datos clı́nicos procedentes del
estudio estará restringido a personal investigador. En cualquier caso, y en virtud a lo
recogido en la Ley Orgánica 15/1999 de Protección de Datos de Carácter Personal y a la
Ley 41/2002 de Autonomı́a del Paciente, Vd., tiene derecho a revocar este consentimiento
en cualquier momento y a que los datos adquiridos sean eliminados de nuestra base de
datos mediante un escrito dirigido al investigador principal del proyecto (Dr. Carlos Orrite
Uruñuela) expresando su deseo de revocar su consentimiento.
Coste/compensación:
No existe ningún coste por participar en este estudio y, aunque no exista un beneficio
directo de su participación, sı́ está previsto que, si Vd. ası́ lo desea, se le entreguen todos
los informes que se deriven.
Alternativas a la participación:
La participación en este estudio es completamente voluntaria. Una vez realizadas las
grabaciones, todavı́a podrá negarse a que se analicen y solicitar que se destruyan sus
datos, o que se excluyan del estudio los resultados o datos obtenidos con ellos en cualquier
momento del desarrollo del trabajo. Naturalmente, ni la decisión de no participar, ni
49
el abandono en cualquiera de las fases del estudio, repercutirán de forma alguna en la
atención que pudiera requerir por parte del Servicio Aragonés de Salud.
Derecho al abandono del estudio:
Tendrá derecho a abandonar el estudio en cualquier momento sin que ello suponga perjuicio alguno ni repercusión sobre la atención que pudiera requerir por parte del Servicio
Aragonés de Salud.
Datos de contacto del Investigador Responsable:
Prof. Dr. D. Carlos Orrite Uruñuela
Centro Politécnico Superior
Departamento de Electrónica y Comunicaciones
c/Maria Luna, 2
50018 Zaragoza
Nombre del Participante:
Nombre del Investigador:
Firma del Participante:
He leido y comprendido este consentimiento informado.
La información de este consentimiento informado me ha sido explicada.
Firma del investigador:
Fecha:
NOTA: Se harán dos copias del consentimiento informado: una será para el investigador
principal y la otra para el participante.
50
MODELO DE CONSENTIMIENTO INFORMADO POR ESCRITO PARA
EL PACIENTE
Tı́tulo del PROYECTO: “Análisis computarizado del movimiento cefálico en
sujetos con deterioro cognoscitivo (Enfermedad de Alzheimer)”
Yo,.................................................................................(Nombre y Apellidos)
He leı́do la hoja de información que se me ha entregado.
He podido hacer preguntas sobre el estudio y he recibido suficiente información sobre el
mismo.
He hablado con: .................................................................. (Nombre del investigador)
Comprendo que mi participación es voluntaria.
Comprendo que puedo retirarme del estudio:
1. Cuando quiera
2. Sin tener que dar explicaciones
3. Sin que esto repercuta en mis cuidados médicos
Presto libremente mi conformidad para participar en el estudio.
Deseo ser informado sobre los resultados del estudio:
si no
Acepto que los datos derivados de este estudio puedan ser utilizados en futuras investigaciones (relacionadas con esta):
si no
Doy mi conformidad para que mis datos clı́nicos sean revisados por personal ajeno al centro, para los fines del estudio, y soy consciente de que este consentimiento es revocable.
He recibido una copia firmada de este Consentimiento Informado.
Firma del Participante:
Fecha:
He explicado la naturaleza y el propósito del estudio al paciente.
Firma del investigador:
Fecha:
Consentimiento informado del estudio: “Análisis computarizado del movimiento cefálico
en sujetos con deterioro cognoscitivo (Enfermedad de Alzheimer)”
Apéndice C
Examen Cognoscitivo Mini-Mental
51
52
53
54
Glosario
Algoritmo
Angulo de paralaje
C++
Cognoscitivo
Coordenadas homogéneas
Cuartil
Cámara estenopeica
Distancia focal
Distribución Normal
Lista ordenada y finita de operaciones que permite hallar la solución a un problema, 13
Angulo formado desde un punto hacia la posición de las dos cámaras, 5
Lenguaje de programación orientado a objetos, 9
Que es capaz de conocer, 1
Representación de un punto bidimensional
(x, y) mediante tres valores (x, y, w), siendo el
valor real la división de x/w e y/w, 8
Dada una serie de valores ordenados: primer
cuartil, mediana de la primera mitad de valores; segundo cuartil, mediana de la serie; tercer cuartil, mediana de la segunda mitad de
valores, 34
Cámara sin lentes donde la luz penetra a
través de un pequeño agujero, 7
Distancia entre el plano proyectivo y el punto
de entrada de luz a la cámara, 8
Distribución Gaussiana, 29
Geometrı́a epipolar
Geometrı́a proyectiva
imágenes, 23
Memoria Semántica
Memoria de la información referida a conceptos extrapolados de situaciones vividas, 1
Plano proyectivo
Plano donde se forma la imagen que
será grabada, plano de imagen, 8
55
intrı́nseca
de
dos
Sı́ndrome
Conjunto sintomático con cierto significado y
que por sus caracterı́sticas posee cierta identidad, 1
Teorema Central del Lı́mite Si tenemos un grupo numeroso de variables
independientes y todas ellas siguen el mismo
modelo de distribución (cualquiera que éste
sea), la suma de ellas se distribuye según una
distribución normal, 29
56
Bibliografı́a
[1] American P. Association. Diagnostic and Statistical Manual of Mental Disorders
DSM-IV-TR Fourth Edition (Text Revision). American Psychiatric Publishing, July
1994.
[2] National Centre for Classification in Health (Australia). ICD-10-AM mental health
manual : an integrated classification and diagnostic tool for community-based mental
health services. National Centre for Classification in Health, Sydney :, 1st ed. edition,
2002.
[3] A Di Carlo, M Baldereschi, L Amaducci, V Lepore, L Bracco, S Maggi, S Bonaiuto,
E Perissinotto, G Scarlato, G Farchi, D Inzitari, and ILSA Working Grp. Incidence of dementia, Alzheimer’s disease, and vascular dementia in Italy. The ILSA
study. JOURNAL OF THE AMERICAN GERIATRICS SOCIETY, 50(1):41–48,
JAN 2002.
[4] MF Folstein, SE Folstein, and PR Mchugh. Mini-Mental State -Practical method
for grading cognitive state of patients for clinician. JOURNAL OF PSYCHIATRIC
RESEARCH, 12(3):189–198, 1975.
[5] Myron F. Weiner, Katherine E. Neubecker, Mary E. Bret, and Linda S. Hynan. Language in Alzheimer’s disease. JOURNAL OF CLINICAL PSYCHIATRY,
69(8):1223–1227, AUG 2008.
[6] Ozioma C. Okonkwo, Virginia G. Wadley, Karlene Ball, David E. Vance, and Michael
Crowe. Dissociations in visual attention deficits among persons with mild cognitive
impairment. AGING NEUROPSYCHOLOGY AND COGNITION, 15(4):492–505,
2008.
[7] AD Baddeley, HA Baddeley, RS Bucks, and GK Wilcock. Attentional control in
Alzheimer’s disease. BRAIN, 124(Part 8):1492–1508, AUG 2001.
[8] RJ Perry and JR Hodges. Attention and executive deficits in Alzheimer’s disease A critical review. BRAIN, 122(Part 3):383–404, MAR 1999.
[9] MF Ghilardi, M Alberoni, M Rossi, M Franceschi, C Mariani, and F Fazio. Visual feedback has differential effects on reaching movements in Parkinson’s and
Alzheimer’s disease. BRAIN RESEARCH, 876(1-2):112–123, SEP 8 2000.
57
[10] William J. Tippett and Lauren E. Sergio. Visuomotor integration is impaired in early
stage Alzheimer’s disease. BRAIN RESEARCH, 1102:92–102, AUG 2 2006.
[11] MF Ghilardi, M Alberoni, S Marelli, M Rossi, M Franceschi, C Ghez, and F Fazio.
Impaired movement control in Alzheimer’s disease. NEUROSCIENCE LETTERS,
260(1):45–48, JAN 22 1999.
[12] P Manckoundia, F Mourey, P Pfitzenmeyer, and C Papaxanthis. Comparison of motor strategies in sit-to-stand and back-to-sit motions between healthy and Alzheimer’s
disease elderly subjects. NEUROSCIENCE, 137(2):385–392, 2006.
[13] Jing-Jung Chen, Alice-M K. Wong, and Jin-Jang Wong. Motion analysis in dual-task
on patients with mild dementias. In Ibrahim, F and Osman, NAA and Usman, J
and Kadri, NA, editor, 3rd Kuala Lumpur International Conference on Biomedical
Engineering 2006, volume 15 of IFMBE Proceedings, pages 208–210, 233 SPRING
STREET, NEW YORK, NY 10013, UNITED STATES, 2007. Int Federat Med &
Biol Engn, SPRINGER. 3rd Kuala Lumpur International Conference on Biomedical
Engineering 2006 (BioMed 2006), Kuala Lumpur, MALAYSIA, DEC 11-14, 2006.
[14] A Lobo, P Saz, G Marcos, JL Dia, C de la Camara, T Ventura, FM Asin, LF Pascual, JA Montanes, and S Aznar. Re-validation of the Mini-Examen Cognoscitivo
(first Spanish version of the Mini-Mental Status Examination) in the elderly people.
MEDICINA CLINICA, 112(20):767–774, JUN 5 1999.
[15] J Heikkila and O Silven. A four-step camera calibration procedure with implicit image
correction. In 1997 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, PROCEEDINGS, PROCEEDINGS
/ CVPR, IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION
AND PATTERN RECOGNITION, pages 1106–1112, 10662 LOS VAQUEROS CIRCLE, LOS ALAMITOS, CA 90720, 1997. IEEE Comp Soc, Tech Comm Pattern Anal
& Machine Intelligence, I E E E, COMPUTER SOC PRESS. 1997 IEEE Computer
Society Conference on Computer Vision and Pattern Recognition (CVPR 97), SAN
JUAN, PR, JUN 17-19, 1997.
[16] Gary Bradski and Adrian Kaehler. Learning OpenCV: Computer Vision with the
OpenCV Library. O’Reilly, Cambridge, MA, 2008.
[17] ZY Zhang. A flexible new technique for camera calibration. IEEE TRANSACTIONS
ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 22(11):1330–1334,
NOV 2000.
[18] P Viola and M Jones. Rapid object detection using a boosted cascade of simple features. In Jacobs, A and Baldwin, T, editor, 2001 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, VOL 1, PROCEEDINGS, PROCEEDINGS - IEEE COMPUTER SOCIETY
CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION,
pages 511–518, 10662 LOS VAQUEROS CIRCLE, PO BOX 3014, LOS ALAMITOS,
58
CA 90720-1264 USA, 2001. IEEE Comp Soc, IEEE COMPUTER SOC. Conference
on Computer Vision and Pattern Recognition, KAUAI, HI, DEC 08-14, 2001.
[19] R Lienhart and J Maydt. An extended set of haar-like features for rapid object
detection. In 2002 INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, VOL I, PROCEEDINGS, IEEE International Conference on Image Processing (ICIP), pages 900–903, 345 E 47TH ST, NEW YORK, NY 10017 USA, 2002.
IEEE Signal Proc Soc, IEEE. IEEE International Conference on Image Processing,
ROCHESTER, NY, SEP 22-25, 2002.
[20] Ludmila I. Kuncheva. Combining Pattern Classifiers: Methods and Algorithms.
Wiley-Interscience, 2004.
[21] Y Freund and RE Schapire. A decision-theoretic generalization of on-line learning
and an application to boosting. JOURNAL OF COMPUTER AND SYSTEM SCIENCES, 55(1):119–139, AUG 1997. 26th Annual ACM Symposium on the Theory
of Computing (STOC), MONTREAL, CANADA, MAY 23-25, 1994.
[22] CP Papageorgiou, M Oren, and T Poggio. A general framework for object detection.
In SIXTH INTERNATIONAL CONFERENCE ON COMPUTER VISION, pages
555–562, 22 DARYAGANJ, DELHI MEDICAL ASSOCIATION RD, NEW DELHI
110 002, INDIA, 1998. IEEE Comp Soc, NAROSA PUBLISHING HOUSE. 6th
International Conference on Computer Vision, BOMBAY, INDIA, JAN 04-07, 1998.
[23] John G. Allen, Richard Y. D. Xu, and Jesse S. Jin. Object tracking using camshift
algorithm and multiple quantized feature spaces. In Massimo Piccardi, Tom Hintz,
Sean He, Mao Lin Huang, and David Dagan Feng, editors, 2003 Pan-Sydney Area
Workshop on Visual Information Processing (VIP2003), volume 36 of CRPIT, pages
3–7, Sydney, Australia, 2004. ACS.
[24] Keinosuke Fukunaga. Introduction to statistical pattern recognition (2nd ed.). Academic Press Professional, Inc., San Diego, CA, USA, 1990.
[25] R. I. Hartley and A. Zisserman. Multiple View Geometry in Computer Vision. Cambridge University Press, ISBN: 0521623049, 2000.
[26] Wayne W Daniel. Biostatistics : a foundation for analysis in the health sciences.
Wiley, New York, 2 ed edition, 1978.
59

AN´ALISIS COMPUTARIZADO DEL MOVIMIENTO CEF´ALICO EN

Transcripción

Documentos relacionados

Tema 3: maras y pandillas 17

110802 Problema del puzzle de 15 piezas