Desarrollo de un Sistema de Análisis Automático de Imágenes de
Transcripción
Desarrollo de un Sistema de Análisis Automático de Imágenes de
Desarrollo de un Sistema de Análisis Automático de Imágenes de Extendidos Sanguíneos Roberto Pinzón 1, Giovanny Garavito 1, Yoshie Hata 1, Lucía Arteaga 1, Juan David García 2, 1 Universidad Nacional de Colombia, Facultad de Ciencias, Departamento de Farmacia. Apartado Aéreo 14490, Bogotá, Colombia. E-mail: [email protected] 2 Universidad Politécnica de Cataluña, Centre de Recerca en Enginyeria Biomèdica C. Pau Gargallo 5, 08028, Barcelona, España. E-mail: [email protected] Resumen En el presente trabajo presentamos un breve resumen de la problemática asociada a la malaria y los trabajos de screening de plantas con potencial actividad antimalárica. Se presentan los resultados obtenidos con la utilización de un programa de análisis de imágenes de extendidos sanguíneos. El programa ha sido desarrollado para correr automáticamente sin la intervención del operador y obtiene una medida de la parasitemia y la segmentación inicial de las células infectadas por trofozoitos jóvenes. 1. Introducción La malaria es una enfermedad prevenible y curable que sin embargo afecta a entre 300 y 500 millones de personas y mata entre 1 y 2 millones anualmente, según datos de la OMS [1]. La mayoría de estas personas proviene de poblaciones vulnerables ubicadas en países en vía de desarrollo. En la actualidad existe una problemática en torno al tratamiento de la malaria debido a factores geográficos, sociales y terapéuticos, lo cual hace de la búsqueda de nuevos agentes una importante tarea para el mejoramiento de la calidad de vida de las comunidades afectadas. Es importante resaltar que en la actualidad las principales herramientas de control de la enfermedad son los medicamentos, debido a la creciente resistencia de los parásitos responsables de la patología y de los mosquitos transmisores y a que la perspectiva de una vacuna no es inmediata. Por todo lo anterior existe un interés cada vez mayor por realizar screening farmacológico de actividad antimalárica en plantas medicinales, más aun si se tiene en cuenta la importante biodiversidad y amplia gama de posibles agentes bio activos sin catalogar con los que cuenta Colombia [2]. Los modelos farmacológicos más utilizados en la actualidad (el modelo de inhibición del desarrollo y el test supresivo de cuatro días) son evaluados generalmente mediante la tinción de láminas de extendidos sanguíneos con colorante de Giemsa y la observación y conteo diferenciado de glóbulos rojos infectados contra glóbulos rojos normales. Los glóbulos infectados se caracterizan por cambios en su morfología y por la presencia del parásito “teñido” por el Giemsa. Este conteo es un proceso largo, tedioso, altamente subjetivo y poco repetible. Si se hacen pruebas sobre varias muestras, esta etapa se convierte rápidamente en un cuello de botella en gasto de personal y tiempo, además de ser una fuente de incertidumbre por su baja repetibilidad. En el área de procesado de imágenes la cuantificación e identificación de células y estructuras subcelulares en imágenes de patología y citología (i.e. extendidos de malaria) es un problema abierto y ampliamente investigado para distintos tipos de células y de sistemas de adquisición como la microscopía confocal [3], de fluorescencia [4] u óptica [5], entre otros. Debido a la gran variabilidad de las imágenes y de las condiciones de captura hasta ahora y a pesar de los esfuerzos no se han hallado algoritmos suficientemente genéricos para resolver el problema [6]. La producción para análisis de frotis de malaria ha sido particularmente escasa [7]. En el presente trabajo presentamos los resultados de la implementación de un sistema que, basado en las imágenes del extendido y sin la intervención del operador humano, obtiene el número de glóbulos rojos e identifica las células y racimos sospechosos de estar infectados con parásitos inmaduros. El sistema ha sido concebido para ser robusto ante diversas condiciones de captura utilizando una combinación de métodos establecidos (como la transformada Hough o la morfología matemática) y un modelo intuitivo a partir de las características más perceptibles de los objetos de interés (forma, tamaño y contraste). El uso de estas características evita usar otras, como el color, que se pueden ver influidas por factores externos costosos de armonizar en laboratorios separados físicamente. 2. Materiales y Métodos Se utilizaron imágenes obtenidas en el laboratorio de Productos Naturales de la Universidad Nacional de Colombia de extendidos de sangre de ratones infectados con Plasmodium berghei y de cultivos in vitro de Plasmodium falciparum tratados con sustancias de prueba y teñidas con colorante de Giemsa. Además se usaron imágenes de diversas bases de datos para simular condiciones de laboratorio y captura variables. Las imágenes son leídas directamente de ficheros en diversos formatos sin influir en su proceso de adquisición. Se implementó un programa auto ejecutable en Visual C++ utilizando las librerías OpenCV de Intel para las funciones de procesado de bajo nivel y despliegue de los resultados y las librerías ITK del NIH [8] para las funciones de alto nivel (Principalmente el watershed). 3. Cálculo del Radio Promedio Uno de los principales parámetros para un programa de reconocimiento de formas es el tamaño de los objetos de interés. Este puede llegar como un parámetro externo o ser calculado directamente por el programa. Para este tipo de imágenes se ha utilizado anteriormente [7] la granulometría morfológica de niveles de gris. El sistema sin embargo es lento para los elementos estructurantes de mayor tamaño y solo mide objetos sólidos (granos). Si los objetos de la imagen tienen otra topología, como pueden ser los glóbulos con una palidez central, esta se debe alterar, pudiendo borrar elementos importantes para el reconocimiento como los espacios y grietas intercelulares. Se ha empleado, en su lugar, una forma modificada de la transformada de Hough para localizar objetos circulares. Las transformadas de Hough convierten de un espacio explicito (imagen) a un espacio de características, en el que los valores más alto corresponden a la probabilidad de encontrar la primitiva buscada (líneas, círculos, elipses, etc.) La formula 1 define una transformada de Hough de un espacio discreto [i j] a un espacio discreto [u v r]: H (u , v , r ) = altura ancho ∑ ∑ 1{∀i, j | [u , v] ≈ [i, j ] + ∇f ([i, j ])* r } i =1 j =1 En este caso el operador ˜ corresponde a la aproximación a la grilla NxN. Los ejes u y v coinciden con los ejes de la imagen real y el eje r, perpendicular al plano [u v], es el tamaño calculado de los objetos. La idea es desplazar un “voto” por cada píxel de la imagen en la dirección del gradiente y sumar los resultados para cada punto de H. Así el valor de H (u, v, r) es proporcional a la probabilidad de que en la imagen haya un circulo de radio r con centro en [i=u, j=v]. En [3] se propone usar un método similar para hallar el radio de una célula en un corte histológico y calcular su centroide. Usando una medida de enfocado en cada plano r, los planos más próximos al radio promedio de los glóbulos tendrán los valores más altos de enfocado (los puntos estarán más agrupados). Esto se puede ver en la figura 1. La medida de enfoque usada en nuestro caso fue la sumatoria del cuadrado del gradiente Se ha usado operador gradiente de Sobel sobre la componente verde de la imagen RGB, pero existen otros operadores interesantes que se podrían usar para futuras mejoras, en particular aquellos con componentes (e interpretación) en color. 4. Calculo del Número de Glóbulos rojos Para problemas similares de conteo la estrategia de fuerza bruta consiste en segmentar y separar todos los objetos que se tocan y proceder a contarlos. Esta estrategia es válida para imágenes en las que los objetos están bien separados y el solapamiento es ocasional. Desafortunadamente para nuestro caso no siempre son estas las imágenes que contienen los objetos mas interesantes (células parasitadas) y se puede inducir un sesgo en el conteo al solo elegir las zonas más separadas (feather side). Teniendo esto en cuenta, optamos por usar información de alto nivel y dar una aproximación al número de glóbulos rojos sin tener que segmentarlos. Tomamos la imagen H (u, v, R) con R igual al radio promedio calculado en el paso anterior. Como ya se mostró antes, las zonas de mayor concentración de puntos corresponderán a los centros, así que separamos los picos más aislados. Hemos utilizado para esto la transformación de h-domo [9] que extrae los picos con una resolución mayor a un parámetro l, en este caso calculado como un porcentaje del máximo de H (u, v, R). El número de picos disyuntos es en si mismo un conteo del número aproximado de glóbulos rojos. Este conteo puede ser mejorado fusionando marcadores que se encuentren próximos (menos de R/4, por ejemplo). Figura 2. Glóbulos infectados de P. Vivax con solapamiento (arriba), H (u, v, R) filtrrada para R=24 (abajo). Imagen cortesía CDC y Dr. Mae Melvin 5. Detección de las áreas sospechosas Figura 1. Esquema del análisis. Imagen inicial (arriba). Magnitud del Gradiente (medio) Transformada H para distintos R (abajo) Los trofozoitos jóvenes se presentan alojados dentro del hematíe como pequeños anillos oscuros con uno o dos puntos de cromatina. Los parásitos son pequeños en tamaño e incidencia con respecto a los glóbulos rojos (parasitemias del 10% para el plasmodium falciparum y menores para otros tipos de malaria), su presencia en el histograma carece de peso comparado con los otros objetos. Hemos optado por descomponer la imagen mediante filtros morfológicos (no lineales) para resaltar los objetos de interés (parásitos en estadio de anillo). Una operación de clausura morfológica por un elemento estructurante Str ( ϕ Str ( f ) ) elimina de f las estructuras oscuras que, por tamaño, no pueden contener a Str. El residuo de esta operación (el filtro bottom hat) resalta los objetos oscuros de menor tamaño que Str: rec rec rec bHatStr ( f ) = ϕ Str (f )− f El elemento estructurante que hemos utilizado ha sido un disco de radio menor al radio promedio. En la figura 3 se ve como este residuo realza los parásitos inmaduros. También están presentes bordes delgados de células y texturas, que se eliminan mediante un umbral seleccionado a partir del algoritmo del triangulo, mas apropiada para imágenes mono modales como esta. no existen bordes o gradientes significativos entre los objetos se puede recurrir a la separación basada en forma. La técnica de watershed, que separa la imagen en regiones asociadas a los mínimos locales, puede ser aplicada en estos casos sobre la transformada distancia de la máscara binaria de los objetos. Distintos trabajos han utilizado esta técnica en él área de microscopía y citología de imagen [4] [5] [7] [10]. En nuestro programa nos hemos limitado a hacer una separación inicial de las células asociados a zonas sospechosas cuya forma es importante para la futura clasificación. Utilizando la implementación de las librerías ITK [8], el resultado de una operación de watershed es un árbol binario de particiones de la imagen en la que los niveles de las ramas corresponden a la profundidad de los mínimos locales. Esto permite, una vez hecha la segmentación inicial, recorrer rápidamente los niveles del árbol para obtener nuevas particiones de distintos tamaños. Esto evita la sobre segmentación, problema común de este método. La imagen utilizada es el mapa de distancia de la máscara binaria FONDO-CÉLULAS. Para obtener la máscara se corrige retrospectivamente el sombreado y se elige automáticamente un umbral basado en el contraste de los picos del histograma [10]. Los huecos que quedan después de binarizar son rellenados selectivamente con base en su tamaño, forma y coincidencia con los centros calculados anteriormente. Esto busca rellenar únicamente los huecos debidos a las palideces centrales y evita rellenar los espacios y grietas intercelulares. Después de aplicar el watershed se usa información local (posición de los parásitos) e información de alto nivel sobre las células (forma y tamaño) para elegir el nivel del árbol binario en el que se desea hacer el corte. Hemos elegido empíricamente un valor que se ajusta a la mayoría de las imágenes, pero se planea automatizar este proceso hacia el futuro para que se ajuste a cada célula en la imagen. Los resultados se pueden ver en la figura 4. En la segunda fila se ve el resultado del llenado selectivo que distingue palideces de grietas. También se ven dos células en la última fila imposibles de separar basados en la función distancia. Resultados Figura 3. Lámina infectada (arriba). Resultado de aplicar una clausura y reconstrucción (medio). Diferencia entre las dos imágenes (abajo) 6. Separación de Células Sospechosas La separación de las células que se tocan es una tarea dispendiosa y subjetiva debido a las diferencias de morfología, tinción, oclusiones y artefactos ópticos. Cuando El sistema ha sido probado con imágenes de distintos laboratorios y de distintas calidades. Se obtienen consistentemente buenas aproximaciones al número de glóbulos rojos y a su localización. Hemos comparado la varianza de los conteos de siete imágenes entre tres operadores humanos y entre los tres operadores humanos y el sistema (tabla 1). Para todas las imágenes salvo una la varianza disminuye al usar el conteo del sistema., es decir, los operadores humanos presentan mayor varianza entre ellos que el sistema con respecto a su promedio. Vale anotar que para la imagen img1 el conteo del sistema difiere en menos de 4 células del promedio de los operadores humanos (48 contra 44.6). Para la imagen LoMag, que es la imagen con menor magnificación y mayor cantidad de células, aparentemente hay un error sistemático pues difieren mucho los conteos de los operadores 2 y 3 (361 y 363) y los del operador 1 y el sistema (407 y 409). La inspección visual de los resultados nos lleva a creer que el cálculo del sistema y el operador 3 son los correctos. Los resultados indican que, a pesar de ser útil en los conteos a baja magnificación, la utilidad del sistema será mayor para los grandes conteos a alta magnificación, cuando la varianza inter e intra operador aumenta significativamente. Un conteo típico consta de entre 500 y 2000 glóbulos rojos. Se obtienen resultados comparables a los de expertos en el conteo automático de glóbulos rojos, siendo robusto a las condiciones de captura, digitalización y preparado de la muestra. Evita los errores asociados a la fatiga. Hemos demostrado la utilidad de usar características elementales e intuitivas de los objetos junto con técnicas básicas por su flexibilidad ante un amplio rango de condiciones. Nuestra experiencia con los modelos más sofisticados es que tienden a estar sobre adaptados a un laboratorio o equipo determinado y a ser inestables en condiciones desfavorables (como pueden ser las muestras recogidas en campo). Pensando en futuras aplicaciones hemos optado por desarrollar implementaciones robustas. Las futuras líneas de desarrollo están enfocadas a utilizar las medidas intermedias (contraste, enfocado, cantidad de objetos solapados, etc.) como indicadores para armonizar los procesos de preparación de la muestra y obtener mejores imágenes Será necesario desarrollar un protocolo para separar los objetos de interés en zonas densas y diseñar un clasificador para las células segmentadas por este. Referencias [1] Medicines for Malaria Venture (MMV), http://www.mmv.org/pages/content_frame.asp?ThePage=pag e1_0002_1.htm&Nav=0002, 2004. Figura 4. Máscaras Binarias (columna izquierda), transformada de Distancia (columna central) y resultado de la reconstrucción (columna derecha) de células infectadas. Imágenes 1 a 3 cortesía CDC y Dr. Mae Melvin Para comprobar la localización de zonas sospechosas hemos usado imágenes previamente diagnosticadas con malaria. En todas las imágenes el sistema marca como zona sospechosa al menos uno de los puntos de cromatina del parásito dentro de la célula. Hace también falsas detecciones, sobre todo de plaquetas, que deberán ser detectadas en etapas de clasificación posteriores (aun en desarrollo). Imagen Número de Glóbulos Rojos (Sistema) Desviación Estándar Operadores Humanos Desviación Estándar Op. Humanos + Sistema Img1 48 1,155 1,915 Img2 69 4,583 3,873 Img3 54 7,000 5,737 Img4 78 2,517 2,449 LoMag 402 27,154 26,583 Unal-1 59 6,351 5,354 Unal-2 57 9,165 9,000 [2] G. Garavito, “Estandarización de los modelos de actividad antimalárica como herramientas para la evaluación farmacológica de sustancias o extractos de origen vegetal”, Tesis de Maestría en Farmacología. Universidad Nacional de Colombia, Bogotá, 2003, [3] C. Ortiz de Solorzano, E. García Rodriguez, A. Jones, D. Pinkel, J.W. Gray, D. Sudar, S.J.Locket , “Segmentation of confocal microscope images of cell nuclei in thick tissue sections”, Journal of Microscopy, Vol 193, pt. 3 March 1999, pp. 212-226 [4] N. Malpica, C. Ortiz de Solorzano, J.J. Vaquero, A. Santos, I. Vallcorba, J.M. García Sagredo, F. Del Pozo “Applying Watershed Algorithms to the Segmentation of Clustered Nuclei”, Cytometry, 28, 1997, pp. 289-297 [5] L. Lifeng; S. Sclaroff, “Medical image segmentation and retrieval via deformable models”, Image Processing, 2001. Proceedings. 2001 International Conference on, 7-10 October 2001, pp. 1071-1074. [6] Q. Yang, B. Parvin “Harmonic Cut and Regularizad Centroid Transform for Localization of Subcellular structures”, IEEE Transactions on Biomedical Engineering, Vol. 50, no. 4, pp. 469-475 [7] C. Di Ruberto, A. Dempster, S. Khan, B. Jarra. “Analysis of infected blood cell images using morphological operators”, Image and Vision Computing, Volume 20, no. 2, February 2002, pp. 133-146 [8] L. Ibañez, W. Schroeder, L. Ng, J. Cates, “The ITK Software Guide: The Insight Segmentation and Registration Toolkit (version 1.4)”, Kitware Inc.; September 11, 2003 [9] L. Vincent, “Morphological grayscale reconstruction in image analysis: applications and efficient algorithms”, IEEE Transactions on Image Processing,Volume 2 , no. 2 , Abril 1993 pp.:176 - 201 Tabla 1. Comparación de los conteos 7. Conclusiones y Trabajo Futuro El sistema presentado ha demostrado ser una valiosa herramienta en el screening de compuestos antimaláricos, tanto para una automatización total del proceso como para un uso supervisado por un experto, aliviando la carga de este. La reducción del tiempo de lectura de las láminas es aproximadamente del 90% comparado con la lectura directa del microscopio que hace un operador entrenado. [10] J. Angulo, “Morphologie mathématique et indexation d’images couleur. Application à la microscopie en biomédicine”, Tesis Doctoral, Escuela de Minas de Paris, Diciembre 2003