AN´ALISIS COMPUTARIZADO DEL MOVIMIENTO CEF´ALICO EN
Transcripción
AN´ALISIS COMPUTARIZADO DEL MOVIMIENTO CEF´ALICO EN
Universidad de Zaragoza Centro Politécnico Superior ANÁLISIS COMPUTARIZADO DEL MOVIMIENTO CEFÁLICO EN SUJETOS CON DETERIORO COGNOSCITIVO (ENFERMEDAD DE ALZHEIMER) Tesis Fin de Máster INGENIERÍA BIOMÉDICA Programa Oficial de Posgrado en Ingenierı́as Transversales Enero 2009 Autor: Mario F. Rodrı́guez Martı́nez Director: Carlos Orrite Uruñuela Análisis Computarizado del Movimiento Cefálico en Sujetos con Deterioro Cognoscitivo (Enfermedad de Alzheimer) RESUMEN La obtención de un correcto y temprano diagnóstico sirve para conseguir mejores resultados en los tratamientos de muchas enfermedades. En la Enfermedad de Alzheimer, esto sirve para paliar y retrasar sus efectos. En este proyecto hemos desarrollado una metodologı́a para evaluar diferentes aspectos de los pacientes que ayuden en dicho diagnóstico. Para ello, en primer lugar hemos desarrollado herramientas de visión por computador que permiten localizar la posición de la cabeza en la imagen. Empleando la posición de la cabeza en dos imágenes desde dos posiciones distintas (dos cámaras), hemos calculado la posición tridimensional. Después, hemos empleado estas herramientas para obtener el desplazamiento de la cabeza del paciente a lo largo de una entrevista psiquiátrica, en la que se le realizaba el examen cognoscitivo ECMM-30. Esta información la hemos complementado con el tiempo de reacción del paciente a las preguntas. Con todo esto hemos obtenido tres parámetros principales por sujeto evaluado (tiempo de reacción, cantidad de movimiento y velocidad de movimiento). Finalmente, para valorar los parámetros, pretendı́amos utilizar una muestra amplia tanto de sujetos sanos como de pacientes. Debido a la necesidad de obtener permisos para adquirir las muestras y no tener respuesta en la fecha de realización de este informe, solamente hemos dispuesto de 7 sujetos sanos y 2 enfermos a los que hemos realizado un estudio estadı́stico basado en ANOVA, que carece de validez generalizable por la escasez de muestras. Aún ası́, con los resultados obtenidos, parece conveniente finalizar el estudio, ya que sı́ se observan tendencias y la metodologı́a puede resultar interesante para futuros estudios y finalmente, para la ayuda al diagnóstico. i En estas lı́neas me gustarı́a agradecer a aquellas personas que me han apoyado en estos meses. A mi director, Carlos, por la oportunidad de realizar este proyecto. A los psicólogos clı́nicos, Raúl y Curro, por su contribución al trabajo. A mis compañeros de laboratorio por su ayuda en los problemas que me iban surgiendo, o por los ratos de descanso brindados. Especialmente a Miguel y su ayuda en la programación. Un agradecimiento especial a los voluntarios que se han prestado para el análisis. Finalmente, no quiero olvidar a mi familia y amigos que siempre están ahı́. Gracias a todos. iii Índice general 1. Introducción 1 1.1. Contexto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3. Problemática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4. Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2. Base de Datos 5 2.1. Escenario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2. Protocolo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2.1. Legalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2.2. Pasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3. Montaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3. Localización de la cabeza 13 3.1. Localización en 2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.1.1. Algoritmo Viola & Jones . . . . . . . . . . . . . . . . . . . . . . . . 13 v 3.1.2. Cam-Shift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.1.3. Combinación de métodos . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2. Localización en 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.1. Estereovisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2.2. Cambio de coordenadas . . . . . . . . . . . . . . . . . . . . . . . . 25 4. Resultados 27 4.1. Parámetros de análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.2. Estudio estadı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 5. Conclusiones y trabajo futuro 37 5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 A. Aplicación 41 B. Consentimiento Informado 47 C. Examen Cognoscitivo Mini-Mental 51 vi Índice de figuras 2.1. Escenario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2. Distorsiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3. Cambio de coordenadas 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Plantilla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.1. Cascada de clasificadores 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2. Harr-like features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3. Cascada de clasificadores 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 3.4. Mean-Shift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.5. Modelo de color HSV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 3.6. Estereovisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.7. Cruce de rayos proyectantes . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.8. Detección 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.9. Coordenadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.1. Parámetros automatizados . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2. Representación gráfica del ANOVA . . . . . . . . . . . . . . . . . . . . . . 34 4.3. Velocidad frente a Potencia . . . . . . . . . . . . . . . . . . . . . . . . . . 35 vii 4.4. Representación gráfica del tiempo . . . . . . . . . . . . . . . . . . . . . . . 35 A.1. Vista inicial de la aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . 41 A.2. Calibración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 A.3. Grabación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 A.4. Distorsión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 A.5. Procesamiento de eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 A.6. Análisis 2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 A.7. Análisis 3D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 viii Capı́tulo 1 Introducción 1.1. Contexto La Enfermedad de Alzheimer (EA) [1] [2] es una enfermedad neurodegenerativa que afecta a la mitad de la población diagnosticada con algún tipo de demencia [3]. Aunque esta enfermedad no dispone de cura conocida, sı́ existen tratamientos paliativos que retrasan los efectos y permiten llevar una vida autosuficiente durante más tiempo. Como sucede en casi todas las enfermedades, un diagnóstico temprano permite que el tratamiento sea más efectivo. El problema se encuentra en que en algunos casos, y sobre todo en etapas iniciales de la enfermedad, es complicado realizar un diagnóstico acertado, pudiendo ser confundida con varios tipos de depresión. Esto no impide, sin embargo, tener herramientas para realizar el diagnóstico, siendo una entrevista psiquiátrica el método principal, pero complementada con otras pruebas y observaciones tanto de confirmación de la enfermedad como de descarte de otras: análisis de sangre, historial, etc. Dentro de la entrevista se suele realizar el Mini-Mental State Examination (MMSE)[4] el cual aporta unos buenos resultados. Sin embargo, actualmente se continúa investigando en definir mejor el sı́ndrome que permita realizar un correcto diagnóstico al comienzo de la enfermedad. En estas etapas iniciales de la EA aparece un deterioro en la memoria, provocando principalmente un sı́ndrome de amnesia. Es esta discapacidad en la memoria la más estudiada por ser fácilmente reconocible. Otros deterioros cognoscitivos van apareciendo según avanza la enfermedad [5] [6]: problemas con el lenguaje, pérdida de memoria semántica, deficiencia en la visión espacial, etc. También hay estudios que han sugerido la aparición de estas deficiencias cognoscitivas en las etapas iniciales. Aunque dichas deficiencias existan no implica necesariamente padecer la EA, por lo que su empleo en el diagnóstico debe ser complementada con otras pruebas. 1 2 1. Introducción Uno de los principales factores analizados en la EA es el déficit de atención [7] [8]. Para su estudio se suele dividir la atención en varios niveles: atención focal, evalúa la atención sobre un estı́mulo; resistencia a distracciones, evalúa la capacidad de atender un estı́mulo desechando los distractores; y, atención a dos tareas simultáneas. El método de evaluación se suele basar en tiempos de reacción, viéndose que los pacientes de EA necesitan un tiempo mayor para preparar una respuesta que los controles sanos. Otro factor importante que se encuentra en la literatura es el deterioro visomotor [9] [10]. El movimiento generalmente está guiado por la información visual [11], dependiendo su precisión de la representación en la memoria del espacio y la biomecánica empleada para calcular las trayectorias. Un deterioro en esta parte de la memoria provoca que las trayectorias de movimiento calculadas difieran con las calculadas por pacientes sanos. Esto provoca que en pacientes con la EA se produzca un deterioro al planear los movimientos que incide tanto en sus trayectorias como en sus tiempos de reacción. 1.2. Motivación Como hemos visto, la EA afecta a diversos procesos cognoscitivos, muchos de los cuales no están evaluados con suficiente precisión como para poder ser utilizados en un diagnóstico. El realizar una evaluación amplia supone un esfuerzo tanto para los pacientes como para el personal médico. Por una parte, los pacientes deben realizar tareas especı́ficas que los médicos evaluarán, por otra, los médicos deben analizar estas tareas lo que en muchos casos puede suponer un trabajo tedioso en el que se invierte mucho tiempo. Dentro del Máster en Ingenierı́a Biomédica de la Universidad de Zaragoza se nos plantea realizar un proyecto al finalizar los estudios en colaboración con algún centro médico. Teniendo en cuenta mi trabajo en el grupo de visión por computador cvLab de la Universidad de Zaragoza y su colaboración previa con el departamento de psiquiatrı́a del Hospital Clı́nico Universitario “Lozano Blesa”, decidimos realizar un trabajo conjunto multidisciplinar. Ası́, planteamos emplear las herramientas que la visión por computador puede aportar en el análisis del movimiento de personas para estudiar los desplazamientos realizados por pacientes con la EA. 1.3 Problemática 3 Tras una revisión de la literatura que hace referencia al análisis en el movimiento de pacientes con enfermedades neurodegenerativas, y en especial con la EA, encontramos varios estudios que analizan este aspecto. Para la realización de estos estudios hay algunos que emplean técnicas de visión por computador y reconstrucción tridimensional del movimiento, empleando para ello marcadores colocados sobre los sujetos [12] [13]. Esta colocación de elementos externos puede provocar una alteración en el comportamiento natural del sujeto, lo que no invalida la medición, pero sı́ la limita a las condiciones del experimento. La idea que nos surgió de esto fue realizar un análisis, lo menos invasivo posible, sobre el movimiento del sujeto. Además, este análisis estarı́a computarizado, de tal forma que el trabajo de procesamiento desarrollado por una persona se limitase a validar la corrección de los datos obtenidos automáticamente por el sistema. 1.3. Problemática El trabajo planteado conlleva la necesidad de resolver varios aspectos: Descripción de objetivos: La parte más básica en el comienzo de un proyecto es describir el objetivo principal. Aunque puede parecer algo trivial, muchas veces se comienza el desarrollo sin tener este apartado bien definido. Esto puede provocar un desvı́o en el trabajo que provoca invertir un esfuerzo innecesario. Tras el objetivo principal se describen objetivos secundarios dividiendo y ası́ facilitando el trabajo. Obtención de una Base de Datos: En nuestro caso es necesario obtener muestras de pacientes con la EA ası́ como sujetos sanos de control. El emplear visión por computador para el análisis de movimiento supone tener que grabar vı́deos de los sujetos realizando el movimiento que queremos analizar. Para ello hay que definir un protocolo de adquisición de imágenes. Problemática legal: El realizar una Base de Datos de imágenes de personas implica además tener que cumplir la ley de protección de datos vigente. Análisis de datos: Finalmente hay que realizar el análisis de datos. Para ello hay que realizar primero un procesamiento de la base de datos de tal forma que se obtengan los parámetros adecuados. Estos parámetros obtenidos se deben analizar mediante métodos estadı́sticos que permitan validar su utilidad. 4 1. Introducción 1.4. Objetivo Como objetivo principal se ha planteado el diseño de un sistema informático de ayuda a la valoración de la EA. Para ello el sistema deberá medir diferentes parámetros del sujeto que el personal medico pueda emplear posteriormente en un diagnóstico. Al ser una aplicación informática la que realiza la obtención de los parámetros, éstos son objetivos y no dependen de la valoración de una persona concreta. Para conseguir el objetivo diseñamos el procedimiento teniendo en cuenta los medios disponibles: Una consulta en el Hospital Clı́nico ”Lozano Blesa” donde se realiza una entrevista psiquiátrica para diagnosticar enfermos de la EA. Dos cámaras de vı́deo digitales. Un ordenador portátil para realizar la adquisición de datos, y el procesado. Con estos medios de partida el procedimiento decidido ha sido el siguiente. Emplear una parte de las sesiones de la entrevista para analizar el movimiento de los pacientes en ese periodo de tiempo. En concreto se pretende realizar un seguimiento del movimiento de la cabeza durante el rato en el que se realiza el Examen Cognoscitivo Mini-Mental (ECMM), la adaptación del MMSE al español [14]. Si el seguimiento lo realizamos sobre la imagen de una cámara, esto puede provocar que los parámetros medidos sean muy dependientes del ángulo formado entre la proyección de la cara sobre la cámara y la normal de la cara. Por ello, para independizar los resultados del montaje realizado, proponemos emplear estereovisión y realizar una reconstrucción en tres dimensiones (3D) de la posición de la cabeza. A partir de las coordenadas de la cabeza a lo largo del tiempo se pretenden obtener parámetros diferenciadores entre enfermos con la EA y sujetos sanos. Sin concretar exactamente los parámetros por desconocer a priori los datos obtenidos, sı́ que proponemos fijarnos en tres aspectos concretos: el tiempo de reacción, la velocidad, y la cantidad de movimiento. La definición de cómo medimos estos datos se encuentra en apartados más especı́ficos. Finalmente, la utilidad de estos parámetros se analizará mediante métodos estadı́sticos. Capı́tulo 2 Base de Datos 2.1. Escenario Antes de proceder a las grabaciones hay que diseñar el escenario donde queremos realizarlas. Para ello se debe tener en cuenta el lugar y los medios de los que se dispone. Ası́, conocemos que las grabaciones se van a realizar en una consulta del hospital, dónde tendremos que colocar las cámaras y sistemas correspondientes. Figura 2.1: Escenario - A la izquierda se muestra un esquema de la consulta. A la derecha la consulta y el montaje real. En la parte de la izquierda de la figura 2.1 hay un esquema de la colocación de las cámaras respecto a la posición esperada de la cabeza del sujeto. Esta colocación se basa en intentar minimizar en lo posible el error de reconstrucción 3D. Conociendo que un ángulo de paralaje próximo a 45o es adecuado para este propósito, buscamos una posición próxima a este ángulo. Como se puede observar a la derecha de la figura, en la fotografı́a del escenario, las cámaras están sujetas en la ventana, a ambos lados de la posición donde se pondrá el entrevistador. Se busca ası́, tanto el ángulo de paralaje como evitar la oclusión del entrevistado por parte del entrevistador. 5 6 2. Base de Datos En la fotografı́a, ademas de las cámaras, observamos que hay dos micrófonos conectados al ordenador portátil empleado para la adquisición de datos. Estos micrófonos están encargados de adquirir la señal de audio de la entrevista, uno enfocado para grabar la conversación del entrevistado y otro la del entrevistador. La razón de esta grabación radica en la necesidad de conocer cuándo se realizan las preguntas y cuándo se responde, para ası́ tener indicadores del tiempo de reacción del sujeto evaluado. 2.2. Protocolo En esta sección se explica el proceso de adquisición de la base de datos y los diferentes pasos que lo componen. 2.2.1. Legalidad Una parte muy importante para realizar una base de datos con información de personas es cumplir con la legislación vigente sobre protección de datos. Esta información está regulada actualmente por la Ley Orgánica 15/1999 de Protección de Datos de Carácter Personal. Según dicha ley, las personas que participen en este proyecto deben ser informadas previamente de varios aspectos: el propósito de la investigación; el procedimiento que se seguirá para obtener los datos, y qué datos serán almacenados; la legislación que le ampara al respecto de la confidencialidad de los datos; el coste que le puede provocar la participación y la compensación que obtendrá por ello; las alternativas que tiene si no participa; y finalmente su derecho a abandonar el estudio cuando considere oportuno, con el correspondiente borrado de sus datos. Al tratarse a su vez de datos médicos, es necesario también cumplir con la Ley 41/2002 de Autonomı́a del Paciente, por la cual el paciente puede decidir si participar o no en el estudio, sin que ello repercuta, en ningún caso, en un perjuicio sobre la atención que requiera del sistema de salud correspondiente, en este caso, el Servicio Aragonés de Salud. Para cumplir con esta normativa se ha redactado un documento informativo, ası́ como un consentimiento informado. Ambos documentos deberán ser explicados al participante, el cual los cumplimentará y firmará si está conforme con su participación. En caso negativo, si se trata de un paciente, se procederá con el tratamiento habitual. 2.2 Protocolo 2.2.2. 7 Pasos A lo largo de este apartado vamos a ver las diferentes fases que hay que seguir para realizar la obtención de la base de datos. Calibración La calibración de las cámaras es un paso previo a las grabaciones necesario para obtener una correcta reconstrucción 3D. Para que ésta sea útil, una vez calibradas, las cámaras deben permanecer en una posición fija, ya que un movimiento de éstas cambia los parámetros propios del escenario. La imagen grabada en el sensor de cualquier cámara está distorsionada respecto al modelo de cámara con el que se trabaje en la reconstrucción. En nuestro caso el modelo para la reconstrucción 3D es una cámara estenopeica, y mediante la calibración se busca conocer los parámetros que modifican la imagen para adaptarla a dicho modelo. Como existen muchos factores que influyen en la distorsión, se realizan diferentes aproximaciones que permiten corregir las distorsiones más tı́picas. En la figura 2.2 están descritos los dos tipos de distorsión que vamos a corregir (distorsión radial y distorsión tangencial). Figura 2.2: Distorsiones - A la izquierda se muestra un esquema de las distorsiones radiales (barril y cojı́n). A la derecha una figura de la distorsión tangencial y su causa. La distorsión radial es producida por las lentes de la cámara, y dependiendo de su forma se denomina comúnmente distorsión de barril o de cojı́n. Para corregirla se emplea el modelo matemático siguiente, el cual introduce tres parámetros de incertidumbre desconocidos, siendo r la variable radio dependiente de la posición (x, y): 8 2. Base de Datos xcorrected = x(1 + k1 r 2 + k2 r 4 + k3 r 6 ) ycorrected = y(1 + k1 r 2 + k2 r 4 + k3 r 6 ) (2.1) La distorsión tangencial es producida por el ángulo de inclinación del plano sensor sobre el plano proyectivo del modelo. Para corregirla se emplea este otro modelo con dos nuevos parámetros desconocidos: xcorrected = x + [2p1 y + p2 (r 2 + 2x2 )] ycorrected = y + [p1 (r 2 + 2y 2 ) + 2p2 x] (2.2) Hasta ahora hemos corregido la distorsión producida en la imagen. Una vez realizado este proceso, queremos conocer la proyección de un punto en el espacio real sobre el plano proyectivo. Para conseguir esto se emplea la matriz intrı́nseca de la cámara [15] donde está incluida la información de distancia focal, tamaño de los pı́xeles y posición del centro óptico en la imagen. Toda esta información se codifica en cuatro parámetros dentro de la matriz. X fx 0 cx x y = 0 fy cy Y Z 0 0 1 w (2.3) El primer vector representa el punto visto en la cámara en coordenadas homogéneas. Este valor está en pı́xeles, mientras que el último vector representa el punto en el espacio referenciado a la cámara, en la medida que deseemos (nosotros empleamos centı́metros). Hasta ahora hemos visto los parámetros intrı́nsecos de la cámara, o propios de ésta. Pero para realizar una reconstrucción 3D hace falta tener la información de la posición y orientación de las cámaras con respecto a unas coordenadas propias del escenario. Esta − → conversión de coordenadas se consigue mediante el vector de traslación t representado por tres parámetros y la matriz de rotación R con otros tres parámetros correspondientes a los ángulos de inclinación en cada plano. Para obtener la información de este vector y 2.2 Protocolo 9 esta matriz es necesario emplear puntos de referencia distribuidos en más de un plano. − → Pc = R(Po − t ) (2.4) Donde Pc representa el punto en coordenadas de la cámara y Po el punto en coordenadas del origen seleccionado. Figura 2.3: Cambio de coordenadas - Rotación y traslación de un origen de coordenadas a otro Todos los parámetros explicados hasta ahora son obtenidos mediante el proceso de calibración. Para realizar éste utilizaremos la librerı́a de visión por computador para C++ OpenCV [16]. Con esta librerı́a se realiza un proceso de calibración simplificado [17] el cual emplea una plantilla de calibración plana. El método consigue los parámetros necesarios a través de, una vez fijadas las cámaras, obtener varias imágenes de la plantilla de calibración en ambas cámaras. Para ello las cámaras deben estar sincronizadas, y en instantes de tiempo diferente obtenemos una imagen de la plantilla en cada cámara. En total obtendremos imágenes en 15 instantes diferentes, adoptando la plantilla una posición distinta en cada uno, ası́ se consiguen muchas más ecuaciones de las estrictamente necesarias para resolver el sistema de ecuaciones con los 15 parámetros desconocidos (5 debidos a la distorsión, 4 intrı́nsecos de la cámara y, 6 extrı́nsecos o de posición y orientación). De esta forma se consigue dotar de robustez a los datos obtenidos. La plantilla es como la mostrada en la figura 2.4, y como el tamaño de los recuadros es fijo y conocido es posible reconstruir todos los parámetros deseados. El proceso de calibración se realiza una sola vez mientras no se muevan las cámaras. En principio éstas están fijas, pero como pueden pasar varios dı́as entre sesiones lo realizaremos cada dı́a que se obtengan grabaciones. 10 2. Base de Datos Figura 2.4: Plantilla de calibración - Cinco filas y seis columnas Consentimiento informado La obtención del consentimiento informado debe ser previa a la primera sesión de cada sujeto. Como en este estudio sólo se realiza una sesión por paciente, siempre antes de cada sesión hay que realizar el proceso de información y obtención del consentimiento. En el apartado de Legalidad hemos visto la necesidad de este paso. Grabación La grabación es el paso principal. Este proceso está diseñado para que no influya en el devenir habitual del desarrollo del examen cognoscitivo. Un programa permite al entrevistador activar y desactivar la grabación de forma sencilla, por lo que una vez montado el sistema no es necesario que nadie más permanezca en la sala. El proceso consiste en que el entrevistador activa la grabación, acto seguido comienza el desarrollo del ECMM-30 y, una vez finalizado éste, para la grabación. Durante la entrevista se graba la imagen del sujeto desde ambas cámaras ası́ como un fichero de audio de toda la entrevista. En el fichero de audio se graba tanto las preguntas del entrevistador como las respuestas del entrevistado. Las imágenes obtenidas de este proceso están distorsionadas lo que hace necesario procesarlas para quitarles dicha distorsión. Este procesamiento lo realiza otra aplicación empleando los parámetros obtenidos en el proceso de calibración. 2.3 Montaje 11 Copia de seguridad Este es un proceso muy corto, pero muy importante. Se debe realizar una copia de seguridad de cada sesión para poder garantizar la integridad de la base de datos en todo momento. El acceso tanto a la grabación original como a la copia de seguridad debe estar restringido a los investigadores para poder garantizar la seguridad de los datos de las personas participantes. 2.3. Montaje El sistema de grabación está compuesto de las dos cámaras modelo ”Fire-i” de la empresa Unibrain ası́ como dos micrófonos con respuesta direccional cardioide. Como hemos visto, las cámaras enfocan al entrevistado y los micrófonos, al tratarse de direccionales, están enfocados tanto al entrevistador como al entrevistado. Toda la información es grabada en un ordenador donde está el programa de grabación instalado. El ordenador del que disponemos posee una conexión IEEE-1394 FireWire al que se conectan las cámaras en modo serie. Igualmente posee una entrada de micrófono. Esta entrada de micrófono sólo admite un canal mono a través de una conexión minijack, por lo que tenemos que juntar la señal de ambos micrófonos en uno. Para esto empleamos un adaptador de dos conectores minijack hembra (donde se conectarán ambos micrófonos) a un minijack macho (para la conexión con el ordenador). 2.4. Resultados La base de datos que vamos a obtener consta de los siguientes elementos por cada sesión: 1. Dos ficheros de vı́deo (uno por cada cámara) de una resolución de 320x240 pı́xeles a una tasa de grabación de 10 fps. 2. Un fichero de audio con la señal de ambos micrófonos en un solo canal a una frecuencia de muestreo de 16 KHz y una codificación de 16 bits. 12 2. Base de Datos 3. El resultado del ECMM-30 del sujeto entrevistado. 4. El diagnóstico médico sobre la EA. Buscamos tener una muestra de 10 sujetos sanos y 10 pacientes con la EA para realizar el estudio estadı́stico y poder detectar alguna diferencia en el movimiento. Como veremos en los apartados de resultados y conclusiones, no ha sido posible obtener esta base de datos debido a la necesidad de contar con el permiso del Comité de Ética del Hospital, y el retraso en la tramitación de dicho permiso por el cual continuamos a la espera de respuesta. Finalmente la base de datos con la que hemos trabajado es mucho más reducida, con 7 sujetos sanos y 2 pacientes de EA. Capı́tulo 3 Localización de la cabeza A lo largo de este capı́tulo veremos las diferentes técnicas empleadas para localizar la posición de la cabeza. 3.1. Localización en 2D La localización en dos dimensiones (2D) consiste en encontrar la posición en la imagen. Disponemos de una imagen de la cabeza por cada cámara en un instante de tiempo determinado. A partir de la imagen se busca conocer la posición en ella de la cabeza en coordenadas pixélicas. Para realizar esta búsqueda de forma automática hemos implementado dos técnicas ya conocidas. 3.1.1. Algoritmo Viola & Jones El primer método que vamos a ver para la detección de la cabeza es el desarrollado por Paul Viola y Michael Jones [18], conocido como algoritmo de Viola & Jones. Este método realiza una detección de la posición del objeto buscado. Se ha comprobado que ofrece muy buenos resultados en la detección de caras de frente. En concreto una mejora del algoritmo realizada por Lienhart [19] es uno de los métodos más utilizados para la detección de caras. Conocer la posición de la cara o de la cabeza es equivalente, por lo que este algoritmo nos es útil para el objetivo buscado. Además, no solo se emplea en caras de frente, sino que se puede entrenar para detectar cualquier objeto, siendo posible por tanto entrenarlo con 13 14 3. Localización de la cabeza caras de perfil u otras posiciones. Sin embargo, los resultados obtenidos en estas posiciones son bastante pobres, lo que no permite utilizarlo como método de detección robusto. Descripción Viola & Jones está basado en el empleo de clasificadores débiles, esto quiere decir que un solo clasificador no aporta unos resultados muy fiables. Estos clasificadores se diseñan para tener una Tasa de Falso Rechazo (FRR) muy baja, próxima a cero, lo que provoca que tengan una Tasa de Falsa Aceptación (FAR) alta. Para realizar la clasificación completa se emplea una cascada de clasificadores como la mostrada en la figura 3.1, con el objetivo de dar una detección positiva si todos los clasificadores lo detectan, pero rechazar con que uno solo lo rechace. Este sistema permite aumentar la velocidad de procesamiento con respecto a técnicas que necesitan procesar todos los clasificadores, como puede ser la Regla del Más Votado [20]. Figura 3.1: Cascada de clasificadores - Cada elemento representa un clasificador que, si acepta, continúa con el siguiente y, si rechaza, se detiene Si consideramos que los clasificadores son independientes y con las mismas caracterı́sticas (suposición poco probable pero aceptable para entender el ejemplo siguiente), podemos considerar una cascada de 20 clasificadores con una F RR = 0,001 y una F AR = 0,5, el clasificador en cascada obtendrá los siguientes resultados. F RRtot = F RR + (1 − F RR) · F RR + ... + (1 − F RR)19 · F RR ≈ 0,02 F ARtot = F AR20 ≈ 0, 00001 Mediante este ejemplo vemos que a pesar de que un solo clasificador da muchos falsos positivos, el conjunto tiene una tasa F AR incluso mucho más baja que la F RR. 3.1 Localización en 2D 15 Para que este sistema funcione es necesario disponer de los clasificadores adecuados. A continuación están explicados los clasificadores que se emplean, pero sabiendo que se dispone de miles posibles es fácil comprender que hay que realizar una selección. Esta selección se realiza mediante la técnica de AdaBoost [21]. Una vez seleccionados se suelen emplear dos ordenamientos posibles para intentar aumentar la velocidad en el procesamiento: ordenar de clasificador más rápido de procesamiento a más lento, u ordenar de clasificador con F AR menor a F AR mayor. Los clasificadores empleados utilizan las caracterı́sticas Harr-like features [22]. Estas caracterı́sticas consisten en la diferencia entre la suma de los pı́xeles de unos rectángulos con otros. En la figura 3.2 vemos sombreados unos rectángulos y blancos los otros. Figura 3.2: Harr-like features - A la izquierda las caracterı́sticas empleadas en el algoritmo original de Viola & Jones y a la derecha las empleadas en la mejora de Lienhart Estos rectángulos se desplazan y se escalan en el área donde se considera que está el objeto. Por ello, partiendo de estos pocos ejemplos se consiguen miles de clasificadores diferentes. Para conseguir estos clasificadores, la selección realizada mediante AdaBoost, y la cascada final, es necesario realizar un entrenamiento muy costoso. Este entrenamiento necesita muchos ejemplos del objeto buscado (recordemos que en nuestro caso se trata de caras) que no siempre es posible obtener, además de mucho tiempo de procesamiento para obtener el clasificador. Debido a estos problemas se pueden emplear clasificadores ya entrenados previamente por otros grupos. Nosotros hemos encontrado 14 clasificadores entrenados entre caras de frente y caras de perfil. Para poder utilizar todos ellos en nuestro beneficio, siendo que nuestro procesamiento no requiere una alta velocidad, y con la idea de la cascada de clasificadores, hemos diseñado otra cascada de clasificadores pero 16 3. Localización de la cabeza invirtiendo la idea. Sabemos que en cada imagen hay una cara, por lo que cada clasificador deberá encontrar una cara como máximo. Como hemos visto en un ejemplo anterior, cada clasificador completo tiene una F AR muy baja (intentamos bajarla todo lo posible sin que se aumente en exceso el rechazo), por lo que si detecta una cara es muy probable que sea correcta. Ası́, vamos recorriendo los clasificadores mientras no detecten una cara, y en el momento que la detecten detenemos el proceso, como se observa en la figura 3.3. Figura 3.3: Cascada de clasificadores - Cada elemento representa un clasificador que, si rechaza, continúa con el siguiente y, si acepta, se detiene Discusión Este método tiene la ventaja de que la detección es muy fiable, cuando una cara se detecta es porque está allı́. Sin embargo tiene el inconveniente de que en muchas ocasiones la cara no es detectada y por tanto en esos momentos es perdida por completo la posición. Si esto ocurriese en fotogramas salteados y sabiendo que la cabeza no se mueve mucho entre fotogramas se podrı́a suponer que la posición en los fotogramas perdidos es la posición anterior. El problema en nuestro sistema es que la cara no está solo de frente o de perfil, sino que también se agacha cuando la persona escribe, o es ocultada por la mano o algún papel empleado en la entrevista. En estos momentos la localización es perdida por completo y el mantener la posición anterior no es viable. Por ello, el empleo de este sistema no es razonable, ya que se necesita la posición en todo momento, siendo necesario emplear algún otro método. 3.1.2. Cam-Shift Otro procedimiento que vamos a utilizar para la detección de la posición de la cabeza en 2D es el Cam-Shift [23]. Este método está basado en uno desarrollado previamente, denominado Mean-Shift [24] en el que se desplaza una ventana en la dirección del gradiente 3.1 Localización en 2D 17 dentro de una imagen de probabilidad, hasta alcanzar un máximo. De esta forma si se consigue una imagen de la probabilidad de encontrar el objeto deseado se puede buscar la de dicho objeto. A continuación está explicado el sistema en más profundidad. Descripción El algoritmo de Cam-Shift sigue una serie de pasos: 1. Se selecciona una Región de Interés (ROI) dentro de la imagen donde se espera encontrar el objeto. 2. Se selecciona una localización inicial donde colocar la ventana empleada para MeanShift. Esta ventana se emplea para calcular la distribución de probabilidad empleada en la creación de la imagen de probabilidad, si no se dispone previamente de ella. 3. Se calcula la distribución de probabilidad de la imagen. 4. Se itera el algoritmo Mean-Shift hasta encontrar el centroide de la imagen de probabilidad y se almacena la posición del centroide y el momento de orden cero. 5. Para el siguiente fotograma se centra la ventana en la posición del centroide y se actualiza su tamaño en función del momento de orden cero. Se vuelve al punto 3. En la figura 3.4 vemos el desarrollo del algoritmo Mean-Shift que sigue los pasos siguientes: 1. Consideramos la selección de la ventana donde se encuentra el objeto como primer paso, aunque realmente es el segundo o último paso de Cam-Shift. 2. Se calcula el centro de masas de la ventana dentro de la imagen de probabilidad. 3. Se centra y escala la ventana en el centro de masas obtenido en el paso previo. 4. Se vuelve al paso 2 mientras no se cumpla el criterio de convergencia seleccionado. 18 3. Localización de la cabeza Figura 3.4: Mean-Shift - Desplazamiento de la ventana hacia el centro de masas, hasta cumplir el criterio de convergencia Imagen de probabilidad Para calcular la imagen de probabilidad se puede emplear cualquier método que asocie a un valor de pı́xel una probabilidad. El método comúnmente empleado es una retroproyección de histograma. Para su cálculo se suele emplear un histograma obtenido del canal de color H del modelo HSV (Figura 3.5) dentro de la ventana seleccionada. El histograma obtenido se escala de forma que el mayor valor tenga probabilidad 1 y a cada pı́xel de la imagen real se le asocia el valor del histograma que corresponda a su color. Figura 3.5: Modelo de color HSV - H→Canal de Color. S→Canal de Saturación. V→Canal de Brillo 3.1 Localización en 2D 19 En este caso se ha empleado el canal H del modelo HSV pero se puede emplear cualquier otro color o modelo ası́ como emplear un histograma multidimensional. El cálculo del histograma se puede tener almacenado o calcular en la propia secuencia. En este trabajo vamos a crear el histograma de forma manual al inicio de cada secuencia, seleccionando una ventana donde se encuentra la cabeza. Como es probable seleccionar elementos externos a la cabeza en los extremos de la ventana vamos a ponderar los pı́xeles centrales más que los exteriores. Para ello, vamos obteniendo imágenes reduciendo la ventana cada vez en un pı́xel por extremo hasta que desaparezca. Ası́, con todas estas imágenes creamos el histograma. Centro de masas Como ya hemos visto, tenemos que calcular el centro de masas de una ventana, para ello se emplean los momentos. En el cálculo de los momentos se emplea la intensidad de la imagen de probabilidad en el punto (x, y) denominada I(x, y): 1. Cálculo del momento de nivel cero: M00 = XX x I(x, y) (3.1) y 2. Cálculo de los momentos de primer nivel: M10 = XX x M01 = XX x xI(x, y) y yI(x, y) (3.2) y 3. Cálculo del centro de masas: xc = M01 M10 ; yc = M00 M00 (3.3) Convergencia Finalmente se necesita tener un criterio de convergencia para detener el algoritmo Mean-Shift. Éste puede estar basado en un número máximo de iteraciones, en una distancia máxima entre centros de masas consecutivos, etc. Además, en el caso de que el momento M00 tenga un valor 0 el algoritmo también debe detenerse puesto que ningún pı́xel tiene valor, lo que indica que el objeto se ha perdido. 20 3. Localización de la cabeza Discusión Este método de seguimiento de un objeto, en nuestro escenario, es muy inestable, pero con una serie de pequeños cambios adaptados a la situación puede ser bastante útil. Además, a diferencia del algoritmo de Viola & Jones , no se producen pérdidas en la localización de la cabeza en ningún fotograma. El principal problema que provoca la inestabilidad consiste en la confusión del objeto con otros elementos debido a una mala imagen de probabilidad, la cual asigna excesivo valor a zonas donde no se encuentra la cara. Una primera solución, que además reduce el tiempo de cómputo, consiste en limitar la imagen de búsqueda a una región alrededor de la ventana obtenida en la detección anterior. Esto evita distracciones de objetos alejados en la imagen, aunque los más próximos pueden seguir interfiriendo en el seguimiento. Para conseguir que los objetos más próximos no interfieran se puede realizar una substracción del fondo, de modo que los pı́xeles del fondo valgan cero y los pı́xeles donde existe movimiento o está la persona mantengan su valor. Con esto se consigue que los distractores del fondo no perjudiquen en la detección. Decidimos no actualizar el valor del fondo a lo largo de la secuencia, ya que, al estar la persona todo el tiempo en la misma zona, complica el proceso y los beneficios que se pueden obtener no compensan el esfuerzo. Además, al tratarse de una secuencia no muy larga en un escenario controlado, es previsible que no se produzcan grandes cambios de iluminación. Sin embargo, al no actualizar el fondo, los cambios de iluminación pueden provocar que para el seguimiento se tenga en cuenta parte del fondo. Aún ası́, es mayor el problema que se encuentra con los distractores del propio cuerpo del sujeto, como puede ser la mano o la ropa que lleve. La última mejora que se realiza es el empleo de los tres canales del modelo de color HSV de manera proporcional. De este modo se pretende crear la imagen de probabilidad con el histograma que mejores resultados aporte en cada momento. La utilidad de emplear los tres canales en vez de sólo el canal H de color radica en que al tratarse de una secuencia relativamente corta el cambio de iluminación no es muy relevante, y el brillo o saturación en la piel puede ser un factor diferenciador del resto de elementos. Además, la ventaja que aporta el canal H, frente al resto, está en que el color de la piel es muy constante entre personas e iluminaciones, por lo que una vez aprendido se puede exportar a diferentes 3.1 Localización en 2D 21 escenarios y personas. Pero en nuestro caso los histogramas los creamos en el primer fotograma con una selección manual y sólo se van a emplear en la propia secuencia. Para combinar proporcionalmente las imágenes de probabilidad aportadas por cada canal proponemos emplear la ecuación 3.4, en la que asignamos un peso a cada imagen: I = Wh · Ih + Ws · Is + Wv · Iv Wj = Sum(Ijw )/Sum(Ij−w ) Sum(Ihw )/Sum(Ih−w ) + Sum(Isw )/Sum(Is−w ) + Sum(Ivw )/Sum(Iv−w ) (3.4) j = h, s, v Siendo I la imagen de probabilidad final, Ij la imagen de probabilidad del canal j, Sum(Ijw ) la suma del valor de los pı́xeles de la imagen dentro de la ventana o (−w) fuera. Existe la posibilidad igualmente de actualizar los histogramas con cada nueva imagen o mantener los iniciales. La ventaja de actualizar radica en que los cambios de iluminación en la cara son tenidos en cuenta, pero sin embargo tiene la desventaja de ir añadiendo poco a poco información de elementos externos a la cara como puede ser el fondo o la ropa. En las pruebas realizadas no hemos encontrado que un sistema sea mejor que otro, y dependiendo de la secuencia es uno u otro el que mejor se comporta. 3.1.3. Combinación de métodos Teniendo en cuenta los dos métodos explicados hasta ahora, se puede conseguir uno más robusto realizando una combinación de ambos. Descripción Como ya hemos visto, los resultados del algoritmo de Viola & Jones es muy fiable en su detección, más aún si limitamos la búsqueda a una región próxima a la anterior detección de la cara. Sin embargo, no es capaz de distinguir la cara con variaciones del ángulo de proyección de ésta. Por otra parte, Cam-Shift siempre aporta un resultado, a cambio, baja mucho su fiabilidad y es más fácil que pierda el seguimiento. La localización de la 22 3. Localización de la cabeza cara en 2D la realizaremos finalmente combinando ambos métodos mediante el algoritmo siguiente: 1. Inicialización manual. 2. Localización de la cara mediante el algoritmo de Cam-Shift. 3. Ampliación de la región localizada mediante Cam-Shift en un valor proporcional al tamaño de la ventana obtenida. 4. Localización de la cara mediante el algoritmo de Viola & Jones dentro de la región calculada. 5. Si Viola & Jones obtiene un resultado positivo se considera válido. En caso contrario, se mantiene el resultado obtenido por Cam-Shift. Si la secuencia continúa, regreso al segundo apartado, finalización del algoritmo en otro caso. Discusión Esta sencilla combinación permite compensar los problemas de ambos métodos. Aún ası́, los errores cometidos por Cam-Shift se mantienen cuando no corrige Viola & Jones por lo que se hace necesario un sistema de alarma que detenga el procesamiento cuando se produzca un error y este pueda ser solventado manualmente. Un sistema sencillo aunque eficaz, consiste en detener el procesamiento si el movimiento del centro de la cabeza es superior a una proporción de su tamaño, y éste tamaño tampoco varı́a en una proporción excesiva. La forma de calcular ambos umbrales es ad hoc, ya que la posición (no fijada) en la que está grabando la cámara puede variar su valor. Para intentar conseguir que el sistema sea portable se puede decidir poner un método de detención ajustable, y que el propio revisor pueda variar los parámetros a conveniencia. 3.2. Localización en 3D Una vez que se conoce la localización de la cabeza en los planos proyectivos de ambas cámaras es posible realizar una reconstrucción de la posición tridimensional de la cabeza. 3.2 Localización en 3D 23 El emplear esta localización y no sólo una en 2D aporta más información e independencia de la posición de las cámaras. 3.2.1. Estereovisión La reconstrucción tridimensional mediante estereovisión está basada en la geometrı́a epipolar [25]. Esta geometrı́a es también denominada de dos vistas (perspectivas) de una escena. Reconstrucción 3D Para calcular la posición 3D de un punto es necesario que éste sea observado por ambas cámaras. Tras el proceso de calibración que ya hemos realizado, tanto los parámetros intrı́nsecos (calibración) como extrı́nsecos (posición de la cámara) son conocidos. Además, conocemos la posición en la imagen del punto que buscamos, en nuestro caso el centroide de la cabeza, gracias a la Localización 2D. Teniendo esta información se puede obtener la localización tridimensional mediante la intersección de los rayos proyectantes, como se observa en la figura 3.6. Figura 3.6: Estereovisión - Obtención de la posición mediante intersección de los rayos proyectantes 24 3. Localización de la cabeza La forma de obtener la posición consiste en la triangulación entre los rayos proyectantes y la posición entre cámaras. Como hemos visto, esto se puede obtener de conocer la i i imagen del punto X en las cámaras i = 1, 2, ui = P i (X, θint , θext ), obtenida mediante los i i parámetros intrı́nsecos (θint ) y extrı́nsecos (θext ) de dicha cámara. Sin embargo, lo visto hasta ahora es teórico, y en la práctica los rayos proyectantes no se cortan, sino que se cruzan. Si los parámetros de las cámaras están bien calculados, y los puntos detectados en ambas imágenes son correspondientes, entonces los rayos aproximadamente se cortan como se observa en la figura 3.7. Figura 3.7: Cruce de rayos proyectantes - La posición X se obtiene mediante la minib = mı́nx (d2 + d2 ) mización de la distancia a los rayos X ∼ =X 1 2 Las reproyecciones (ub1 ,ub2 ) del punto reconstruido en los planos proyectivos no coinci- den con los puntos imagen empleados (u1 ,u2 ). Para calcular finalmente el punto X en 3D se realiza la optimización no lineal de la ecuación 3.5. 1 1 1 1 2 2 2 2 ∼ b X = X = mı́n (u − P (X, θint , θext ) + (u − P (X, θint , θext )) x (3.5) 3.2 Localización en 3D 25 Discusión La reconstrucción tridimensional es muy exacta si los datos con los que se calcula también lo son. El problema es que es una etapa muy dependiente de los datos de entrada. Esto supone que, en nuestro caso, el resultado obtenido es muy dependiente de la posición del centroide de la cabeza detectada en la etapa de Localización 2D, y esta detección no es muy robusta. Para comprobar que la reconstrucción aporta resultados fiables etiquetamos a mano los movimientos en una secuencia conocida, y comparamos con la información que nos aporta la reconstrucción (figura 3.8). Figura 3.8: Detección 3D - Las lı́neas rojas son detecciones manuales de cambio en el movimiento, comienzos y finales. Cada gráfica representa el movimiento detectado en los ejes (x, y, z) respectivamente Se observa en los resultados una clara relación entre los datos obtenidos con la reconstrucción 3D y los datos que se pueden obtener manualmente. Esto indica que, aunque la posición no sea exacta, el movimiento se puede obtener y es posible emplear la información para el estudio. 3.2.2. Cambio de coordenadas En las gráficas observadas en la figura 3.8 están representados los tres ejes de coordenadas (x, y, z), pero para que esa información sea más comprensible debemos conocer 26 3. Localización de la cabeza a qué dirección corresponde cada una. Con la transformación de coordenadas se pueden referenciar a cualquier parte de la imagen que nos interese, pero para ello tenemos que ser capaces de construir el eje de coordenadas deseado. Con este fin, creamos un eje de coordenadas referenciado a la mesa donde se coloca el sujeto como se observa en la figura 3.9. Figura 3.9: Coordenadas - Sistema de coordenadas referenciado a la mesa Este sistema de coordenadas se puede obtener conociendo el punto origen de coordenadas y dos segmentos en la dirección X y Z. Una vez calculado el sistema de coordenadas respecto al sistema de coordenadas con el que estamos obteniendo toda la información, es posible realizar la transformación de uno a otro. La transformación de un origen de coordenadas a otro ya la vimos en el apartado de Calibración del anterior capı́tulo, siendo la ecuación 2.4 la que nos indica cómo realizarla. Capı́tulo 4 Resultados 4.1. Parámetros de análisis De los datos obtenidos con el proceso explicado hasta ahora es posible analizar un gran número de parámetros. Entre ellos se puede analizar el tiempo de reacción a los estı́mulos (preguntas), las frecuencias del movimiento de la cabeza, cuánto se mueve la persona, la velocidad a la que se desplaza, cantidad de información que tiene la señal de desplazamiento, el ángulo que adopta la cabeza, etc. El último parámetro mencionado pensamos que se podrı́a obtener del ajuste que realiza el proceso del Cam-Shift mediante una elipse y su inclinación, pero los resultados que se han obtenido son poco fiables y no se van a emplear. Finalmente, debido al escaso tiempo del que hemos dispuesto para realizar el análisis, hemos considerado conveniente limitar el estudio a los siguientes parámetros. Tiempo de reacción El tiempo de reacción lo calculamos como el intervalo de tiempo que transcurre desde que se formula una pregunta o una orden, hasta que se comienza una respuesta o un movimiento de respuesta. A lo largo del ECMM-30, tanto se formulan preguntas como se manda realizar tareas. El cálculo de este tiempo es realizado manualmente ya que no hemos desarrollado ninguna herramienta de reconocimiento del habla que pueda automatizarla. Lo que hay desarrollada es una herramienta de reproducción y marcación de eventos que facilita marcar preguntas y respuestas. A partir de los tiempos de respuesta a cada pregunta se pueden realizar diferentes análisis. Ası́, un primer parámetro a analizar puede ser el tiempo medio de respuesta (ecuación 4.1). Por otra parte, se puede analizar el tiempo de respuesta a cada uno de los 11 apartados existentes en el ECMM-30, y analizar los resultados de cada apartado por separado. Otro parámetro que se puede emplear es el número de preguntas en las que ha 27 28 4. Resultados tardado más tiempo en responder cada persona, ası́ analizaremos en cuántas preguntas ha tardado más de 1 segundo, más de 2 y más de 3. Consideramos en este último análisis que un tiempo inferior a 1 segundo corresponde a una respuesta continua a la pregunta y su valor puede depender además del error de marcación. T = N 1 X (tresp − test ) N i=1 (4.1) Cantidad de movimiento La cantidad de movimiento la vamos a medir a partir de los desplazamientos que realiza la cabeza. Ası́, primero obtenemos una señal que contiene la información del desplazamiento que se produce en cada instante de tiempo mediante la distancia euclı́dea entre posiciones consecutivas. D[n] = p (x[n − 1] − x[n])2 + (y[n − 1] − y[n])2 + (z[n − 1] − z[n])2 (4.2) A partir de esta señal de desplazamiento obtenemos su potencia, que será nuestra medida de la cantidad de movimiento que realiza el paciente. Hay que tener en cuenta que si queremos comparar los resultados con otros obtenidos en diferentes condiciones, habrá que normalizar a la tasa de grabación. N 1 X P = D[n]2 N i=1 (4.3) Velocidad de movimiento El último parámetro que vamos a medir es la velocidad de movimiento de cada sujeto. Realmente, la velocidad se puede obtener de transformar la señal de desplazamiento que hemos calculado previamente (ecuación 4.2) dividiéndola por el tiempo entre fotogramas (4t). Obteniendo los máximos locales de velocidad, vamos a obtener la velocidad máxima media, ya que cada desplazamiento contiene un máximo local. Hay que tener cuidado de filtrar los máximos locales debidos a ruido en la adquisición de la señal. n 1 X i v (4.4) V = N i=1 max 4.2 Estudio estadı́stico 4.2. 29 Estudio estadı́stico Mediante la separación de los dos grupos de sujetos (controles sanos y pacientes con la EA) intentamos comprobar si alguno de los parámetros de estudio es diferenciador entre ambos. Para realizar este estudio, estadı́sticamente, se busca comprobar la separación entre medias mediante un análisis de varianza ANOVA [26]. El ANOVA lo vamos a utilizar para analizar una respuesta cuantitativa de cada parámetro, variable dependiente, medida bajo unas condiciones experimentales identificadas por una variable categórica (enfermo-sano) o variable independiente. Como la variable independiente (enfermo, sano) solo permite dos valores, sólo existen dos medias posibles y por tanto, el análisis de ANOVA es equivalente al análisis de t-Student. Para poder realizar este estudio, previamente hay que garantizar tres condiciones de las muestras obtenidas: Independencia Las observaciones deben ser independientes entre si. En nuestro estudio lo asumimos ya que cada dato proviene de una persona diferente. Normalidad Los diferentes grupos de muestras deben ser distribuciones normales, aunque no es tan importante como la independencia de las observaciones, pues el ANOVA es robusto. Esto quiere decir que, aunque las observaciones no sean normales, las medias de los tratamientos son aproximadamente normales debido al Teorema Central del Limite. Para comprobar la normalidad de las distribuciones se puede aplicar el método de Kolmogorov-Smirnov (K-S) si los parámetros de la distribución normal a la que queremos saber si pertenecen los datos son conocidos. En nuestro caso estos datos no son conocidos por lo que aplicaremos una adaptación de este test para una distribución normal desconocida, llamada test de Lilliefors. Homogeneidad La última condición que se debe cumplir es que las varianzas sean iguales en ambos grupos. Para ello se realiza la prueba de Levene. Una vez comprobadas las condiciones anteriores se puede proceder al estudio estadı́stico. Aunque nosotros solo estudiemos 2 grupos el ANOVA permite comparar las medias 30 4. Resultados de n grupos con n ≥ 2. Con este estudio pretendemos confirmar o rechazar la hipótesis nula. H0 : Las medias de los grupos son iguales H1 : Al menos una de las medias es diferente La prueba está basada en la comparación entre las variabilidades entre-grupo y y las variabilidades intra-grupos y sigue el siguiente proceso. Cálculo de la suma de cuadrados Si se denota al número de grupos como n, al número de individuos por grupo como nj con j = 1, ..., n y la media global como x. Además, xij son los datos observados y xj las medias de los grupos. La suma de cuadrados entre grupos SCE, la suma de cuadrados dentro de grupos SCD y la suma de cuadrados total SCT se calcula del siguiente modo: SCE = n X nj (xj − x)2 (4.5a) j=1 SCD = nj n X X (xij − xj ) = XX (xij − x)2 2 j=1 i=1 nj n SCT = nj n X X j=1 i=1 x2ij − n X nj xj 2 (4.5b) j=1 (4.5c) j=1 i=1 Cálculo de los grados de libertad Los grados de libertad entre grupos GLE, dentro de los grupos GLD y total GLT se calculan de la manera siguiente, sabiendo que N es el número total de individuos: GLE = n − 1 (4.6a) GLD = N − n (4.6b) GLT = N − 1 (4.6c) 4.3 Resultados 31 Cálculo de los cuadrados medios El cuadrado medio entre grupos CME y el cuadrado medio dentro de los grupos CMD se calculan de la manera siguiente: SCE GLE SCD CMD = GLD CME = Estadı́stico de contraste F pleando el estadı́stico F . (4.7a) (4.7b) Finalmente se puede realizar la prueba de ANOV A em- CME (4.8) CMD Este valor se distribuye según una distribución F − Snedecor con GLE grados de libertad del numerador y GLD grados de libertad del denominador. Con estos valores se puede F = calcular el p − valor, que indica la probabilidad de que se produzca la observación si la hipótesis nula es cierta. Para rechazar la hipótesis nula el p − valor debe ser inferior a un α determinado previamente. Nosotros hemos decidido considerar un α = 0,05. Por lo que si el resultado es inferior vamos a considerar que las medias de ambos grupos son diferentes y por tanto el parámetro correspondiente será indicativo de la EA. 4.3. Resultados Para obtener los resultados deseados hemos considerado conveniente emplear 10 muestras de controles sanos y 10 de pacientes con la EA. Sin embargo, como ya hemos visto, debido a la polı́tica interna del Hospital Clı́nico Universitario ”Lozano Blesa”, y tras comenzar las sesiones de grabación en el mes de noviembre, éstas fueron suspendidas hasta que el Comité de Ética del Hospital aprobase el informe sobre el proyecto presentado. En el mes de diciembre continuábamos sin respuesta de dicho comité, y con la necesidad de finalizar el proyecto (que no la investigación) para comienzos del mes de enero, por lo que decidimos intentar obtener los sujetos de análisis personalmente. Esto ha imposibilitado obtener muestras suficientes al conseguir tan solo 11 sujetos mayores de 60 años buscando entre familiares y amigos, de los cuales tan solo 2 están diagnosticados con demencia senil o principio de la EA. Además, dos de las muestras no ha sido posible procesarlas debidamente ya que la ropa que llevaban interferı́a demasiado en el análisis o la iluminación del escenario no era adecuada. Por tanto, finalmente sólo disponemos de 32 4. Resultados 7 sujetos sanos y 2 pacientes con EA, uno diagnosticado con principio de EA (EA+) y el otro sin diagnóstico claro (EA?). Además, debido a problemas de disponibilidad de los participantes y de los psicólogos, de las 9 sesiones, tan sólo dos han sido realizadas por un psicólogo clı́nico, siendo el resto realizadas por mı́ bajo las indicaciones y supervisión de los psicólogos. Hay que añadir además que las sesiones se han realizado en escenarios diversos para adaptarse a las posibilidades de los participantes. Teniendo en cuenta estos datos, los resultados obtenidos se muestran en la tabla 4.1. De estos datos, ademas de observar la posible dependencia de factores como el escenario (a lo que va asociado el entrevistador), existen dos variables (edad y sexo) que también pueden influir en los resultados. El problema es que la muestra es excesivamente pequeña para que, aún obteniendo un resultado positivo o negativo en el análisis de ANOVA podamos realizar ninguna afirmación, y el resto de variables pueden ser tanto o más influyentes en el resultado. Sujeto 01 02 03 04 05 06 07 08 09 Edad 67 66 60 86 87 62 62 81 81 Sexo V(♂) V(♂) M(♀) M(♀) M(♀) M(♀) V(♂) M(♀) V(♂) Escenario S1 S1 S2 S2 S2 S2 S2 S3 S3 Diagnostico Sano Sano Sano EA+ Sano Sano Sano Sano EA? ECMM-30 29/30 28/30 30/30 20/30 28/30 30/30 29/30 30/30 24/30 T (s) 0’5964 0’8191 0’4473 1’3664 0’8800 0’6500 0’5655 0’6727 0’9936 P V (cm/s) 0’1919 3’8574 0’2407 6’0484 0’3285 8’0484 0’1280 4’5512 0’3781 8’0540 0’3710 8’2536 0’2610 5’5216 0’1151 4’5513 0’1271 4’5320 Tabla 4.1: Datos obtenidos de las 9 sesiones procesadas Tanto la Potencia P como la Velocidad V son datos obtenidos de forma no supervisada (salvo las correcciones necesitadas por pérdida en el seguimiento). Esto significa que, en caso de ser parámetros diferenciadores, se podrı́an emplear para obtener datos de ayuda al diagnóstico sin suponer un trabajo laborioso. En la figura 4.1 vemos la distribución de los resultados de estos parámetros frente al ECMM-30 y al diagnóstico. Se puede observar que hay una tendencia general a estar separados los resultados de los sujetos sanos y enfermos, pero algunas muestras se cruzan, por lo que realizamos el análisis de ANOVA con el que verificar los resultados. 4.3 Resultados 33 0.45 8 0.4 0.35 7 0.3 6 P V (cm/s) 0.25 0.2 5 0.15 4 0.1 3 0.05 0 0 5 10 15 ECMM−30 20 25 (a) Potencia de la señal 30 2 0 5 10 15 ECMM−30 20 25 30 (b) Velocidad Figura 4.1: Parámetros automatizados - Representación del valor que adoptan estos parámetros frente al resultado en el ECMM-30 en cada observación. En rojo sujetos con EA y en azul sujetos sanos Tanto en los resultados para la potencia como en los de la velocidad comprobamos las condiciones previas. En el test de normalidad de Lilliefors obtenemos un p-valor mayor a 00 5 para la potencia e igual a 00 187 para la velocidad, ambos superiores a α = 00 05 con lo que no podemos descartar la hipótesis nula H0 . H0 en este estudio consiste en la pertenencia de la distribución a una normal. El análisis de normalidad sólo se puede realizar con los sujetos sanos, ya que con dos observaciones no se puede aplicar, por lo que tampoco se puede descartar H0 . Por otra parte, el test de Levene sobre la homogeneidad obtiene un p-valor igual a 00 23 para la potencia e igual a 00 1 para la velocidad, por lo que tampoco se puede descartar H0 . En este caso H0 consiste en que las varianzas son iguales. Con los resultados obtenidos en las condiciones podemos pasar a evaluar el ANOVA de cada variable (figuras 4.2 y 4.3). Inter Grupos Intra Grupos Total Suma de cuadrados Grados de libertad 0’0315 1 0’0565 7 0’088 8 Cuadrado medio 0’0315 0’0081 F 3’91 p 0’0886 Tabla 4.2: ANOVA con variable independiente la potencia En ninguna de las dos podemos descartar la hipótesis nula H0 que supone que las medias son iguales. De todas formas, el resultado obtenido con el parámetro de potencia no está muy alejado de la condición de p < 00 05, y si esta fuese menos restrictiva sı́ se podrı́a descartar H0 . Por lo tanto, con los resultados obtenidos, descartamos estos parámetros para diferenciar enfermos de sanos. En la representación gráfica de los resultados (figura 34 4. Resultados Suma de cuadrados Grados de libertad Inter Grupos 5’0745 1 Intra Grupos 19’5879 7 Total 24’6619 8 Cuadrado medio 5’0745 2’7982 F p 1’81 0’22 Tabla 4.3: ANOVA con variable independiente la velocidad 4.2) se observa cómo están entrelazados los grupos. Sin embargo, sı́ que pueden ser útiles como condición necesaria para ser EA. Por lo tanto, dependiendo del valor obtenido se podrı́a descartar la enfermedad ya que los sujetos con EA obtienen unos resultados parecidos. Como ya hemos dicho, un estudio más amplio serı́a necesario. 8 0.35 7.5 7 0.3 V (cm/s) P 6.5 0.25 6 5.5 5 0.2 4.5 0.15 4 3.5 1 2 Grupo (a) Potencia de la señal 1 2 Grupo (b) Velocidad de la señal Figura 4.2: Representación gráfica del ANOVA - Representación de la mediana (rojo), cuartiles (azul) y valores extremos de los grupos (1-sanos, 2-EA) También se pueden valorar ambos parámetros de forma conjunta. Con esto intentamos observar si emplear ambos resultados aporta más información que uno sólo, pero se vuelve a encontrar el mismo problema de que sujetos sanos se mezclan con EA (figura 4.3). Finalmente evaluamos el parámetro tiempo. Este parámetro lo hemos obtenido de forma totalmente manual, lo que supone dedicar demasiado tiempo a su medición como para poder ser útil en el formato actual. Además, la dependencia de los criterios empleados por el evaluador lo hace un parámetro no generalizable. Una vez dedicado este tiempo por un mismo evaluador, podemos analizar los diferentes resultados obtenidos. En los análisis de normalidad y homogeneidad obtenemos un p-valor mayor que 00 5 para normalidad e igual a 00 34 para homogeneidad, por lo que podemos aplicar el análisis de ANOVA. 4.3 Resultados 35 8.5 8 7.5 7 V (cm/s) 6.5 6 5.5 5 4.5 4 3.5 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 P Figura 4.3: Velocidad frente a Potencia - Representación de los resultados de la velocidad media frente a la potencia de la señal. En rojo sujetos con EA y en azul sujetos sanos Suma de cuadrados Grados de libertad Inter Grupos 0’4181 1 Intra Grupos 0’2017 7 Total 0’6198 8 Cuadrado medio 0’4181 0’0288 F p 14’51 0’0066 Tabla 4.4: ANOVA con variable independiente el tiempo medio de reacción En la tabla 4.4 se observa que el p-valor es inferior a α = 00 05, por lo que sı́ se puede emplear para diferenciar. En la figura 4.4 vemos la representación gráfica de las observaciones ası́ como de los resultados del ANOVA. 1.4 1.4 1.3 1.3 1.2 1.2 1.1 1.1 1 0.9 t(s) t(s) 1 0.8 0.9 0.8 0.7 0.7 0.6 0.6 0.5 0.4 0 0.5 5 10 15 ECMM−30 20 25 (a) Tiempo de respuesta 30 1 2 Grupo (b) Gráfica de ANOVA Figura 4.4: Representación gráfica del tiempo - 4.4a Tiempo medio de respuesta frente al resultado del ECMM-30. En rojo sujetos con EA y en azul sujetos sanos. 4.4b Representación de la mediana (rojo), cuartiles (azul) y valores extremos de los grupos (1-sanos, 2-EA) La última evaluación del tiempo de reacción que realizamos es el número de veces que este tiempo supera un umbral (tabla 4.5). Ası́, los pacientes diagnosticados tienen mayor 36 4. Resultados número de veces una reacción más lenta. Sobre un umbral de 1s los enfermos de EA son los que más observaciones tienen, aunque otro participante tiene resultados próximos. Si subimos el umbral a tiempos superiores a 2 y 3 segundos, son los enfermos los únicos que tienen alguna observación, aunque en general pocas. Umbral nt>1s nt>2s nt>3s 01 3 0 0 02 03 04 05 06 07 5 2 13 10 2 4 0 0 3 0 0 0 0 0 1 0 0 0 08 09 6 12 0 2 0 0 Tabla 4.5: Número de veces que el tiempo de reacción supera un umbral No hemos considerado oportuno, hasta disponer de una base de datos mayor, pormenorizar el estudio de tiempos de reacción a cada uno de los apartados del ECMM-30, ya que carecen de validez estadı́stica y la información obtenida por el tiempo medio global y el número de veces que se supera un umbral son suficientes para evaluar el parámetro tiempo. Capı́tulo 5 Conclusiones y trabajo futuro 5.1. Conclusiones El desarrollo del Máster en Ingenierı́a Biomédica conlleva una serie de plazos de entrega del Trabajo Fin de Máster que no tienen por qué coincidir con el desarrollo de la investigación. Además, debido a que la obtención de los datos en el Hospital debe cumplir un proceso de aprobación, cuyo trámite es ajeno a quienes participamos en el proyecto, no ha sido posible realizar las grabaciones dentro de los plazos necesarios para el Máster. Es por ello que los resultados presentados en este proyecto carecen de una validez estadı́stica fiable, pese a estar completamente desarrollado el método de adquisición y evaluación. Hemos observado que existen estudios realizados con sólo muestras de 6 enfermos y 6 sujetos de control, lo que consideramos insuficiente para validar un parámetro de estudio, de hecho nuestro objetivo de 20 muestras totales también lo consideramos poco fiable y solamente útil para evaluar la metodologı́a. Al final, con las 9 observaciones conseguidas, hemos intentado realizar dicha evaluación con el procedimiento desarrollado, pero como ya hemos dicho, carece de validez. Este contratiempo no impide, sin embargo, realizar una apreciación de dichos resultados, que pueden servir para valorar la metodologı́a cualitativamente. Ası́, observamos que los métodos más automatizados, a pesar de no ser válidos numéricamente con el estudio realizado, sı́ aportan una tendencia a la diferenciación, y con un estudio más amplio se podrı́an validar o descartar. Además, como ya hemos comentado, sı́ parecen servir como condición necesaria en los pacientes de EA. Por otra parte, parece claro que el tiempo de reacción es el parámetro más significativo de los evaluados ya que en esta pequeña base de datos sı́ es capaz de diferenciar entre pacientes con la EA y sujetos sanos. 37 38 5. Conclusiones y trabajo futuro Igualmente podemos valorar el resultado obtenido de las herramientas de análisis. Se ha conseguido obtener un sistema semiautomático de análisis del movimiento cefálico en los sujetos. Ası́, es posible realizar dicho análisis con una pequeña supervisión manual, lo que permitirı́a procesar una base de datos amplia sin un gran esfuerzo por parte de los investigadores. Se ha conseguido igualmente obtener un sistema mı́nimamente invasivo, ya que los sujetos analizados no tienen que variar en nada el proceso en la entrevista psiquiátrica habitual. Este sistema trabaja de forma independiente a dicha entrevista. Además, su pequeño tamaño y funcionamiento independiente a la posición exacta de las cámaras permite que sea realmente portable, y su utilización en diferentes escenarios sólo necesita de una pequeña etapa de colocación y calibración. Este proyecto interesó además en el V Encuentro de Neurociencias de la Universidad de Zaragoza donde presentamos el estado de desarrollo en esas fechas: Rodrı́guez-Martı́nez MF, López-Antón R, Roy JF, Herrero E, Orrite C, Saz P, Lobo A. Análisis computarizado del movimiento cefálico en sujetos con deterioro cognoscitivo (Enfermedad de Alzheimer): Proyecto ACMCA. V Encuentro de Neurociencias. 2008 5.2. Trabajo futuro Lógicamente, la primera tarea que se debe realizar a partir de este proyecto es finalizar el estudio consiguiendo las 20 sesiones ya explicadas. En este proceso nos encontramos actualmente y en cuanto obtengamos el visto bueno procederemos a su conclusión. También es cierto, que si bien 10 observaciones de sujetos sanos y 10 de enfermos ya comienzan a aportar una información estadı́stica relevante, pueden no ser suficientes para independizar los resultados del resto de variables, por lo que, en la medida de lo posible, se deberı́a procurar aumentar estas muestras. Además, también serı́a conveniente, una vez conseguida una base de datos suficientemente extensa, ampliar el estudio a un mayor número de parámetros. Como ya hemos visto, la etapa menos robusta es la encargada de obtener la posición de la cabeza en 2D. Para aumentar la automatización del sistema serı́a conveniente mejorar el 5.2 Trabajo futuro 39 sistema de detección de la cabeza, para ello se pueden aplicar otras técnicas. Por ejemplo, en el seguimiento que hemos realizado, no tenemos en cuenta información dinámica de la velocidad y dirección en instantes previos, y ésta es información que podrı́a mejorar el sistema. Serı́a conveniente por tanto, continuar implementando herramientas de seguimiento y localización para conseguir un método que automatizase en todo lo posible el sistema, además de que hiciese más robusta la localización. También podrı́a ser adecuado emplear modelos en 3D para esta localización, trabajando directamente con la información en 3D. Ademas de aumentar la automatización en la localización, el apartado de medida de los tiempos de reacción es completamente manual. Para poder automatizar este apartado se deben aplicar metodologı́as de segmentacion de locotor y, de forma más avanzada, reconocimiento del habla que sean capaces de identificar una pregunta y su correspondiente respuesta. De este modo, además de automatizar el sistema, se objetivarı́an los resultados ya que no dependerı́an de la persona que analice los eventos. De cara a un sistema más completo, se podrı́a analizar el movimiento de la persona desde el momento en que entra en la consulta hasta que sale, con lo que se podrı́a obtener información de, por ejemplo, el proceso de sentarse y levantarse, el cual puede ser más relevante que la información analizada hasta el momento. También se podrı́an obtener medidas de otros aspectos, como puede ser digitalizar la parte escrita del ECMM u obtener información de la dirección donde está mirando el sujeto. Desarrollando un método para detectar la mirada se podrı́a evaluar si el sujeto mira al entrevistador o pierde el contacto visual. Para poder conseguir esta información extra serı́a necesario un sistema más completo, con mayor resolución en las cámaras, una tableta digitalizadora para la escritura o una iluminación infrarroja. La mayor resolución de las cámaras podrı́a servir también para mejorar el análisis actual, permitiendo detectar puntos caracterı́sticos de la cara como los ojos o nariz, lo que posibilitarı́a conocer el vector normal al plano de la cara y con ello la posición adoptada por la cabeza. En este proyecto hemos enfocado el estudio a pacientes con la EA ya que era un grupo al que, en principio, ı́bamos a tener acceso. Sin embargo el desarrollo tecnológico podrı́a ser aplicado a estudiar otros trastornos de conducta como pueden ser niños con Trastorno por Déficit de Atención, con o sin Hiperactividad(TDA/H) [1] [2]. 40 5. Conclusiones y trabajo futuro Apéndice A Aplicación Para realizar los procesos de obtención de la Base de Datos y Localización 3D de la posición de la cabeza, hemos desarrollado un programa basado en diálogos en el entorno de desarrollo Microsoft Visual Studio .NET 2003 y en el lenguaje de programación orientado a objetos C++. El programa diseñado está dividido en tres apartados (figura A.1). Los dos primeros corresponden a la grabación de la base de datos, siendo el primer apartado el encargado de la calibración de las cámaras y el segundo realiza el proceso de grabación y eliminación de la distorsión. El tercer y último apartado contiene los diálogos de procesamiento. Figura A.1: Vista inicial de la aplicación-En el recuadro de la grabación, el primer botón abre el diálogo de calibración y el segundo el de grabación. El botón de procesamiento permite abrir diferentes diálogos El diálogo de calibración (figura A.2) permite realizar este proceso indicando las caracterı́sticas de la plantilla de calibración que se va a emplear. Una vez indicadas estas caracterı́sticas se puede comenzar el proceso, visualizando la imagen capturada por cada 41 42 A. Aplicación cámara y desplazando la plantilla por el espacio de medición. Un contador nos va indicando cuántas veces se ha capturado la plantilla, y cuando se consigue el número deseado (el diseño actual esta en 15 muestras) se realiza el cálculo de la calibración. Los datos de calibración son almacenados en un fichero XML que serán empleados en etapas posteriores. Este diálogo pertenece a un programa desarrollado previamente por un investigador del grupo (Elias Herrero), en el que está basado el estudio tridimensional. Figura A.2: Calibración - Diálogo empleado para realizar el proceso de calibración de dos cámaras Posteriormente tenemos acceso al diálogo de grabación (figura A.3). En este diálogo cargamos el nombre del fichero de calibración correspondiente para ası́ almacenar los vı́deos grabados referenciados a dicho nombre, igualmente etiquetamos la sesión de grabación, pudiendo con ésto activar las cámaras. Con las cámaras activas se muestran las imágenes capturadas por cada una, y se puede comenzar con la sesión de grabación. Para realizar dicha grabación es tan sencillo como pulsar el botón de Grabar y una vez finalizada la sesión pulsar el botón de Parar. Con ésto se graban dos ficheros de vı́deo, uno por cada cámara, y un fichero con la señal de audio de la sesión. El último diálogo perteneciente a la grabación de la sesión es el encargado de corregir la distorsión de los vı́deos (figura A.4). A este diálogo se accede desde el diálogo de grabación mediante el botón Procesar Distorsión. Se cargan tanto los vı́deos de ambas cámaras como el fichero con los datos de calibración. Si se selecciona Ver Proceso se puede visualizar a la izquierda los dos vı́deos originales, y a la derecha de estos sus correspondientes vı́deos 43 Figura A.3: Grabación - Diálogo empleado para realizar el proceso de grabación de las sesiones transformados sin distorsión. Se puede ademas realizar el proceso a mayor velocidad si no se visualizan los vı́deos. Para realizar el proceso, una vez cargados todos los archivos se pulsa el botón Corrige Distorsión. Una vez realizado el proceso de grabación y quitada la distorsión a dichas grabaciones se puede comenzar con el procesamiento de los datos. Un primer diálogo está diseñado para la obtención de los tiempos de reacción (figura A.5). Este diálogo permite seleccionar y reproducir uno de los vı́deos grabados en una sesión y la señal de audio correspondiente. A su vez permite marcar los eventos deseados de forma manual mediante el botón Evento y almacenar el fotograma correspondiente en un fichero de texto. Cuando se acaba de procesar un vı́deo se puede cerrar con el botón Cerrar y ası́ permite abrir un nuevo vı́deo y audio listo para su etiquetado. El siguiente dialogo de procesamiento es el encargado de localizar la posición de la cara en 2D (figura A.6). Primero se selecciona el vı́deo que se pretende analizar. Se carga el primer fotograma en el recuadro principal, ası́ como diferentes datos necesarios para el procesamiento, mediante el botón de Carga Datos. Se selecciona sobre la imagen cargada la ventana empleada para realizar el histograma de color. Mediante el botón Crea histograma ademas de crear el histograma con la imagen seleccionada con la ventana, ésta se representa en el recuadro colocado en la parte superior derecha de la imagen principal. En la imagen del diálogo no vemos la imagen seleccionada para el histograma ya que corresponde exactamente al rostro y éste no se puede publicar. Una vez llegado a este punto, mediante los botones de Play y Stop se puede navegar por el análisis. A la derecha 44 A. Aplicación Figura A.4: Distorsión - Diálogo empleado para realizar y visualizar el proceso de eliminación de la distorsión de las cámaras 45 Figura A.5: Procesamiento de eventos - Diálogo empleado para etiquetar los tiempos de preguntas y respuestas de la imagen, bajo el recuadro antes mencionado, se representa la imagen de probabilidad empleada en el algoritmo del Cam-Shift, y observando esto podemos interpretar dónde estamos teniendo los mayores problemas. En cualquier momento se puede parar el análisis y corregir la detección automática de modo manual sobre la propia imagen, continuando el análisis automático a partir de la detección manual. Los datos obtenidos de la posición de la cabeza en la imagen son almacenados en un fichero de texto. Finalmente, un último diálogo es el que se encarga de obtener la posición en 3D de la cabeza a lo largo de toda la secuencia (figura A.7). En este diálogo es necesario cargar cinco archivos diferentes: uno correspondiente a los datos de calibración de las cámaras, dos correspondientes a las posiciones de la cabeza en 2D en cada cámara, y finalmente, otros dos correspondientes al origen de coordenadas deseado, uno por cada cámara. Una vez cargados los cinco archivos se puede proceder al procesamiento mediante el botón de Procesa posición 3D. Finalmente se almacena la información tridimensional en un nuevo fichero de texto que podrá ser empleado para los análisis estadı́sticos deseados. Aunque hemos integrado todo el proceso en un solo programa, como hemos visto, los diferentes apartados son totalmente independientes. Esto es útil para un trabajo donde queramos ir modificando los apartados de forma separada, y revisando que cada uno funciona correctamente. En un sistema más desarrollado esto deberı́a ser más automático y no necesitarı́a almacenar tantos archivos. El resto del proceso para realizar el estudio explicado en este proyecto se implementará empleando herramientas diferentes. 46 A. Aplicación Figura A.6: Análisis 2D - Diálogo empleado para la localización de la cabeza en 2D Figura A.7: Análisis 3D - Diálogo empleado para la localización de la cabeza en 3D Apéndice B Consentimiento Informado Tı́tulo de la Investigación: “Análisis computarizado del movimiento cefálico en sujetos con deterioro cognoscitivo (Enfermedad de Alzheimer)”ACMCA Investigador Principal: Mario F. Rodrı́guez Martı́nez Lugar de Realización: Hospital Clı́nico Universitario “Lozano Blesa” Centro Politécnico Superior de la Universidad de Zaragoza Propósito del estudio: La realización de este estudio busca encontrar un patrón común en el movimiento de pacientes que sean diagnosticados con demencia senil. Siendo este patrón diferenciador de estos pacientes frente a sanos u otras patologı́as como depresiones. Partimos de la premisa de que un paciente con demencia senil tiene un movimiento más lento y su tiempo de reacción ante un estı́mulo (pregunta) es más elevado que en personas sanas. El estudio pretende evaluar con los datos obtenidos la viabilidad de emplear un sistema de apoyo al diagnóstico actual. Le preguntamos por tanto si desea participar en este estudio de investigación. Para su colaboración necesitarı́amos que nos cediese una grabación de video y audio del proceso de evaluación que le realice su doctor. Grabaciones que en ningún caso serán empleadas para otros fines que la investigación, y siendo eliminado el rostro en cualquier reproducción pública a fin de mostrar los resultados obtenidos. En cualquier caso, el que usted rechazase su participación, no implicarı́a cambios en la atención que pudiera requerir por parte del Servicio Aragonés de Salud. 47 48 B. Consentimiento Informado Procedimientos/explicación del estudio: Realización de una grabación de la Entrevista Psiquiátrica en la que se emplea el examen cognoscitivo Mini-Mental. Para la grabación se emplean dos cámaras de video y micrófono. Los datos adquiridos se van a analizar mediante técnicas de visión por computador en búsqueda de algún patrón común. El procedimiento no variará en nada la Entrevista Psiquiátrica realizada habitualmente. Riesgos/beneficios El estudio no supone ningún riesgo adicional al no modificar en nada el tratamiento recibido. Igualmente tampoco supone un beneficio directo al paciente, ya que los datos obtenidos no afectarán en ningún caso al diagnóstico recibido. Tan sólo podrán ser útiles en diagnósticos futuros. Confidencialidad: Tanto su nombre como su rostro no aparecerá en ningún escrito ni publicación. Los datos biométricos se almacenarán en un lugar protegido y se tomarán las medidas necesarias para mantener su carácter confidencial. El acceso a los datos clı́nicos procedentes del estudio estará restringido a personal investigador. En cualquier caso, y en virtud a lo recogido en la Ley Orgánica 15/1999 de Protección de Datos de Carácter Personal y a la Ley 41/2002 de Autonomı́a del Paciente, Vd., tiene derecho a revocar este consentimiento en cualquier momento y a que los datos adquiridos sean eliminados de nuestra base de datos mediante un escrito dirigido al investigador principal del proyecto (Dr. Carlos Orrite Uruñuela) expresando su deseo de revocar su consentimiento. Coste/compensación: No existe ningún coste por participar en este estudio y, aunque no exista un beneficio directo de su participación, sı́ está previsto que, si Vd. ası́ lo desea, se le entreguen todos los informes que se deriven. Alternativas a la participación: La participación en este estudio es completamente voluntaria. Una vez realizadas las grabaciones, todavı́a podrá negarse a que se analicen y solicitar que se destruyan sus datos, o que se excluyan del estudio los resultados o datos obtenidos con ellos en cualquier momento del desarrollo del trabajo. Naturalmente, ni la decisión de no participar, ni 49 el abandono en cualquiera de las fases del estudio, repercutirán de forma alguna en la atención que pudiera requerir por parte del Servicio Aragonés de Salud. Derecho al abandono del estudio: Tendrá derecho a abandonar el estudio en cualquier momento sin que ello suponga perjuicio alguno ni repercusión sobre la atención que pudiera requerir por parte del Servicio Aragonés de Salud. Datos de contacto del Investigador Responsable: Prof. Dr. D. Carlos Orrite Uruñuela Centro Politécnico Superior Departamento de Electrónica y Comunicaciones c/Maria Luna, 2 50018 Zaragoza Nombre del Participante: Nombre del Investigador: Firma del Participante: He leido y comprendido este consentimiento informado. La información de este consentimiento informado me ha sido explicada. Firma del investigador: Fecha: NOTA: Se harán dos copias del consentimiento informado: una será para el investigador principal y la otra para el participante. 50 B. Consentimiento Informado MODELO DE CONSENTIMIENTO INFORMADO POR ESCRITO PARA EL PACIENTE Tı́tulo del PROYECTO: “Análisis computarizado del movimiento cefálico en sujetos con deterioro cognoscitivo (Enfermedad de Alzheimer)” Yo,.................................................................................(Nombre y Apellidos) He leı́do la hoja de información que se me ha entregado. He podido hacer preguntas sobre el estudio y he recibido suficiente información sobre el mismo. He hablado con: .................................................................. (Nombre del investigador) Comprendo que mi participación es voluntaria. Comprendo que puedo retirarme del estudio: 1. Cuando quiera 2. Sin tener que dar explicaciones 3. Sin que esto repercuta en mis cuidados médicos Presto libremente mi conformidad para participar en el estudio. Deseo ser informado sobre los resultados del estudio: si no Acepto que los datos derivados de este estudio puedan ser utilizados en futuras investigaciones (relacionadas con esta): si no Doy mi conformidad para que mis datos clı́nicos sean revisados por personal ajeno al centro, para los fines del estudio, y soy consciente de que este consentimiento es revocable. He recibido una copia firmada de este Consentimiento Informado. Firma del Participante: Fecha: He explicado la naturaleza y el propósito del estudio al paciente. Firma del investigador: Fecha: Consentimiento informado del estudio: “Análisis computarizado del movimiento cefálico en sujetos con deterioro cognoscitivo (Enfermedad de Alzheimer)” Apéndice C Examen Cognoscitivo Mini-Mental 51 52 C. Examen Cognoscitivo Mini-Mental 53 54 C. Examen Cognoscitivo Mini-Mental Glosario Algoritmo Angulo de paralaje C++ Cognoscitivo Coordenadas homogéneas Cuartil Cámara estenopeica Distancia focal Distribución Normal Lista ordenada y finita de operaciones que permite hallar la solución a un problema, 13 Angulo formado desde un punto hacia la posición de las dos cámaras, 5 Lenguaje de programación orientado a objetos, 9 Que es capaz de conocer, 1 Representación de un punto bidimensional (x, y) mediante tres valores (x, y, w), siendo el valor real la división de x/w e y/w, 8 Dada una serie de valores ordenados: primer cuartil, mediana de la primera mitad de valores; segundo cuartil, mediana de la serie; tercer cuartil, mediana de la segunda mitad de valores, 34 Cámara sin lentes donde la luz penetra a través de un pequeño agujero, 7 Distancia entre el plano proyectivo y el punto de entrada de luz a la cámara, 8 Distribución Gaussiana, 29 Geometrı́a epipolar Geometrı́a proyectiva imágenes, 23 Memoria Semántica Memoria de la información referida a conceptos extrapolados de situaciones vividas, 1 Plano proyectivo Plano donde se forma la imagen que será grabada, plano de imagen, 8 55 intrı́nseca de dos Sı́ndrome Conjunto sintomático con cierto significado y que por sus caracterı́sticas posee cierta identidad, 1 Teorema Central del Lı́mite Si tenemos un grupo numeroso de variables independientes y todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se distribuye según una distribución normal, 29 56 Bibliografı́a [1] American P. Association. Diagnostic and Statistical Manual of Mental Disorders DSM-IV-TR Fourth Edition (Text Revision). American Psychiatric Publishing, July 1994. [2] National Centre for Classification in Health (Australia). ICD-10-AM mental health manual : an integrated classification and diagnostic tool for community-based mental health services. National Centre for Classification in Health, Sydney :, 1st ed. edition, 2002. [3] A Di Carlo, M Baldereschi, L Amaducci, V Lepore, L Bracco, S Maggi, S Bonaiuto, E Perissinotto, G Scarlato, G Farchi, D Inzitari, and ILSA Working Grp. Incidence of dementia, Alzheimer’s disease, and vascular dementia in Italy. The ILSA study. JOURNAL OF THE AMERICAN GERIATRICS SOCIETY, 50(1):41–48, JAN 2002. [4] MF Folstein, SE Folstein, and PR Mchugh. Mini-Mental State -Practical method for grading cognitive state of patients for clinician. JOURNAL OF PSYCHIATRIC RESEARCH, 12(3):189–198, 1975. [5] Myron F. Weiner, Katherine E. Neubecker, Mary E. Bret, and Linda S. Hynan. Language in Alzheimer’s disease. JOURNAL OF CLINICAL PSYCHIATRY, 69(8):1223–1227, AUG 2008. [6] Ozioma C. Okonkwo, Virginia G. Wadley, Karlene Ball, David E. Vance, and Michael Crowe. Dissociations in visual attention deficits among persons with mild cognitive impairment. AGING NEUROPSYCHOLOGY AND COGNITION, 15(4):492–505, 2008. [7] AD Baddeley, HA Baddeley, RS Bucks, and GK Wilcock. Attentional control in Alzheimer’s disease. BRAIN, 124(Part 8):1492–1508, AUG 2001. [8] RJ Perry and JR Hodges. Attention and executive deficits in Alzheimer’s disease A critical review. BRAIN, 122(Part 3):383–404, MAR 1999. [9] MF Ghilardi, M Alberoni, M Rossi, M Franceschi, C Mariani, and F Fazio. Visual feedback has differential effects on reaching movements in Parkinson’s and Alzheimer’s disease. BRAIN RESEARCH, 876(1-2):112–123, SEP 8 2000. 57 [10] William J. Tippett and Lauren E. Sergio. Visuomotor integration is impaired in early stage Alzheimer’s disease. BRAIN RESEARCH, 1102:92–102, AUG 2 2006. [11] MF Ghilardi, M Alberoni, S Marelli, M Rossi, M Franceschi, C Ghez, and F Fazio. Impaired movement control in Alzheimer’s disease. NEUROSCIENCE LETTERS, 260(1):45–48, JAN 22 1999. [12] P Manckoundia, F Mourey, P Pfitzenmeyer, and C Papaxanthis. Comparison of motor strategies in sit-to-stand and back-to-sit motions between healthy and Alzheimer’s disease elderly subjects. NEUROSCIENCE, 137(2):385–392, 2006. [13] Jing-Jung Chen, Alice-M K. Wong, and Jin-Jang Wong. Motion analysis in dual-task on patients with mild dementias. In Ibrahim, F and Osman, NAA and Usman, J and Kadri, NA, editor, 3rd Kuala Lumpur International Conference on Biomedical Engineering 2006, volume 15 of IFMBE Proceedings, pages 208–210, 233 SPRING STREET, NEW YORK, NY 10013, UNITED STATES, 2007. Int Federat Med & Biol Engn, SPRINGER. 3rd Kuala Lumpur International Conference on Biomedical Engineering 2006 (BioMed 2006), Kuala Lumpur, MALAYSIA, DEC 11-14, 2006. [14] A Lobo, P Saz, G Marcos, JL Dia, C de la Camara, T Ventura, FM Asin, LF Pascual, JA Montanes, and S Aznar. Re-validation of the Mini-Examen Cognoscitivo (first Spanish version of the Mini-Mental Status Examination) in the elderly people. MEDICINA CLINICA, 112(20):767–774, JUN 5 1999. [15] J Heikkila and O Silven. A four-step camera calibration procedure with implicit image correction. In 1997 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, PROCEEDINGS, PROCEEDINGS / CVPR, IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, pages 1106–1112, 10662 LOS VAQUEROS CIRCLE, LOS ALAMITOS, CA 90720, 1997. IEEE Comp Soc, Tech Comm Pattern Anal & Machine Intelligence, I E E E, COMPUTER SOC PRESS. 1997 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 97), SAN JUAN, PR, JUN 17-19, 1997. [16] Gary Bradski and Adrian Kaehler. Learning OpenCV: Computer Vision with the OpenCV Library. O’Reilly, Cambridge, MA, 2008. [17] ZY Zhang. A flexible new technique for camera calibration. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 22(11):1330–1334, NOV 2000. [18] P Viola and M Jones. Rapid object detection using a boosted cascade of simple features. In Jacobs, A and Baldwin, T, editor, 2001 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, VOL 1, PROCEEDINGS, PROCEEDINGS - IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, pages 511–518, 10662 LOS VAQUEROS CIRCLE, PO BOX 3014, LOS ALAMITOS, 58 CA 90720-1264 USA, 2001. IEEE Comp Soc, IEEE COMPUTER SOC. Conference on Computer Vision and Pattern Recognition, KAUAI, HI, DEC 08-14, 2001. [19] R Lienhart and J Maydt. An extended set of haar-like features for rapid object detection. In 2002 INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, VOL I, PROCEEDINGS, IEEE International Conference on Image Processing (ICIP), pages 900–903, 345 E 47TH ST, NEW YORK, NY 10017 USA, 2002. IEEE Signal Proc Soc, IEEE. IEEE International Conference on Image Processing, ROCHESTER, NY, SEP 22-25, 2002. [20] Ludmila I. Kuncheva. Combining Pattern Classifiers: Methods and Algorithms. Wiley-Interscience, 2004. [21] Y Freund and RE Schapire. A decision-theoretic generalization of on-line learning and an application to boosting. JOURNAL OF COMPUTER AND SYSTEM SCIENCES, 55(1):119–139, AUG 1997. 26th Annual ACM Symposium on the Theory of Computing (STOC), MONTREAL, CANADA, MAY 23-25, 1994. [22] CP Papageorgiou, M Oren, and T Poggio. A general framework for object detection. In SIXTH INTERNATIONAL CONFERENCE ON COMPUTER VISION, pages 555–562, 22 DARYAGANJ, DELHI MEDICAL ASSOCIATION RD, NEW DELHI 110 002, INDIA, 1998. IEEE Comp Soc, NAROSA PUBLISHING HOUSE. 6th International Conference on Computer Vision, BOMBAY, INDIA, JAN 04-07, 1998. [23] John G. Allen, Richard Y. D. Xu, and Jesse S. Jin. Object tracking using camshift algorithm and multiple quantized feature spaces. In Massimo Piccardi, Tom Hintz, Sean He, Mao Lin Huang, and David Dagan Feng, editors, 2003 Pan-Sydney Area Workshop on Visual Information Processing (VIP2003), volume 36 of CRPIT, pages 3–7, Sydney, Australia, 2004. ACS. [24] Keinosuke Fukunaga. Introduction to statistical pattern recognition (2nd ed.). Academic Press Professional, Inc., San Diego, CA, USA, 1990. [25] R. I. Hartley and A. Zisserman. Multiple View Geometry in Computer Vision. Cambridge University Press, ISBN: 0521623049, 2000. [26] Wayne W Daniel. Biostatistics : a foundation for analysis in the health sciences. Wiley, New York, 2 ed edition, 1978. 59