Desarrollo de un Sistema de Análisis Automático de Imágenes de

Transcripción

Desarrollo de un Sistema de Análisis Automático de Imágenes de
Desarrollo de un Sistema de Análisis Automático de
Imágenes de Extendidos Sanguíneos
Roberto Pinzón 1, Giovanny Garavito 1, Yoshie Hata 1, Lucía Arteaga 1, Juan David García 2,
1
Universidad Nacional de Colombia, Facultad de Ciencias, Departamento de Farmacia.
Apartado Aéreo 14490, Bogotá, Colombia. E-mail: [email protected]
2
Universidad Politécnica de Cataluña, Centre de Recerca en Enginyeria Biomèdica
C. Pau Gargallo 5, 08028, Barcelona, España. E-mail: [email protected]
Resumen
En el presente trabajo presentamos un breve resumen de la
problemática asociada a la malaria y los trabajos de
screening de plantas con potencial actividad antimalárica.
Se presentan los resultados obtenidos con la utilización de
un programa de análisis de imágenes de extendidos
sanguíneos. El programa ha sido desarrollado para correr
automáticamente sin la intervención del operador y obtiene
una medida de la parasitemia y la segmentación inicial de
las células infectadas por trofozoitos jóvenes.
1. Introducción
La malaria es una enfermedad prevenible y curable que sin
embargo afecta a entre 300 y 500 millones de personas y
mata entre 1 y 2 millones anualmente, según datos de la
OMS [1]. La mayoría de estas personas proviene de
poblaciones vulnerables ubicadas en países en vía de
desarrollo.
En la actualidad existe una problemática en torno al
tratamiento de la malaria debido a factores geográficos,
sociales y terapéuticos, lo cual hace de la búsqueda de
nuevos agentes una importante tarea para el mejoramiento
de la calidad de vida de las comunidades afectadas. Es
importante resaltar que en la actualidad las principales
herramientas de control de la enfermedad son los
medicamentos, debido a la creciente resistencia de los
parásitos responsables de la patología y de los mosquitos
transmisores y a que la perspectiva de una vacuna no es
inmediata.
Por todo lo anterior existe un interés cada vez mayor por
realizar screening farmacológico de actividad antimalárica
en plantas medicinales, más aun si se tiene en cuenta la
importante biodiversidad y amplia gama de posibles agentes
bio activos sin catalogar con los que cuenta Colombia [2].
Los modelos farmacológicos más utilizados en la actualidad
(el modelo de inhibición del desarrollo y el test supresivo
de cuatro días) son evaluados generalmente mediante la
tinción de láminas de extendidos sanguíneos con colorante
de Giemsa y la observación y conteo diferenciado de
glóbulos rojos infectados contra glóbulos rojos normales.
Los glóbulos infectados se caracterizan por cambios en su
morfología y por la presencia del parásito “teñido” por el
Giemsa. Este conteo es un proceso largo, tedioso, altamente
subjetivo y poco repetible. Si se hacen pruebas sobre varias
muestras, esta etapa se convierte rápidamente en un cuello
de botella en gasto de personal y tiempo, además de ser una
fuente de incertidumbre por su baja repetibilidad.
En el área de procesado de imágenes la cuantificación e
identificación de células y estructuras subcelulares en
imágenes de patología y citología (i.e. extendidos de
malaria) es un problema abierto y ampliamente investigado
para distintos tipos de células y de sistemas de adquisición
como la microscopía confocal [3], de fluorescencia [4] u
óptica [5], entre otros. Debido a la gran variabilidad de las
imágenes y de las condiciones de captura hasta ahora y a
pesar de los esfuerzos no se han hallado algoritmos
suficientemente genéricos para resolver el problema [6]. La
producción para análisis de frotis de malaria ha sido
particularmente escasa [7].
En el presente trabajo presentamos los resultados de la
implementación de un sistema que, basado en las imágenes
del extendido y sin la intervención del operador humano,
obtiene el número de glóbulos rojos e identifica las células
y racimos sospechosos de estar infectados con parásitos
inmaduros. El sistema ha sido concebido para ser robusto
ante diversas condiciones de captura utilizando una
combinación de métodos establecidos (como la
transformada Hough o la morfología matemática) y un
modelo intuitivo a partir de las características más
perceptibles de los objetos de interés (forma, tamaño y
contraste). El uso de estas características evita usar otras,
como el color, que se pueden ver influidas por factores
externos costosos de armonizar en laboratorios separados
físicamente.
2. Materiales y Métodos
Se utilizaron imágenes obtenidas en el laboratorio de
Productos Naturales de la Universidad Nacional de
Colombia de extendidos de sangre de ratones infectados
con Plasmodium berghei y de cultivos in vitro de
Plasmodium falciparum tratados con sustancias de prueba y
teñidas con colorante de Giemsa. Además se usaron
imágenes de diversas bases de datos para simular
condiciones de laboratorio y captura variables. Las
imágenes son leídas directamente de ficheros en diversos
formatos sin influir en su proceso de adquisición.
Se implementó un programa auto ejecutable en Visual C++
utilizando las librerías OpenCV de Intel para las funciones
de procesado de bajo nivel y despliegue de los resultados y
las librerías ITK del NIH [8] para las funciones de alto
nivel (Principalmente el watershed).
3. Cálculo del Radio Promedio
Uno de los principales parámetros para un programa de
reconocimiento de formas es el tamaño de los objetos de
interés. Este puede llegar como un parámetro externo o ser
calculado directamente por el programa. Para este tipo de
imágenes se ha utilizado anteriormente [7] la granulometría
morfológica de niveles de gris. El sistema sin embargo es
lento para los elementos estructurantes de mayor tamaño y
solo mide objetos sólidos (granos). Si los objetos de la
imagen tienen otra topología, como pueden ser los glóbulos
con una palidez central, esta se debe alterar, pudiendo
borrar elementos importantes para el reconocimiento como
los espacios y grietas intercelulares.
Se ha empleado, en su lugar, una forma modificada de la
transformada de Hough para localizar objetos circulares.
Las transformadas de Hough convierten de un espacio
explicito (imagen) a un espacio de características, en el que
los valores más alto corresponden a la probabilidad de
encontrar la primitiva buscada (líneas, círculos, elipses,
etc.) La formula 1 define una transformada de Hough de un
espacio discreto [i j] a un espacio discreto [u v r]:
H (u , v , r ) =
altura ancho
∑ ∑ 1{∀i, j | [u , v] ≈ [i, j ] + ∇f ([i, j ])* r }
i =1
j =1
En este caso el operador ˜ corresponde a la aproximación a
la grilla NxN. Los ejes u y v coinciden con los ejes de la
imagen real y el eje r, perpendicular al plano [u v], es el
tamaño calculado de los objetos. La idea es desplazar un
“voto” por cada píxel de la imagen en la dirección del
gradiente y sumar los resultados para cada punto de H. Así
el valor de H (u, v, r) es proporcional a la probabilidad de
que en la imagen haya un circulo de radio r con centro en
[i=u, j=v]. En [3] se propone usar un método similar para
hallar el radio de una célula en un corte histológico y
calcular su centroide. Usando una medida de enfocado en
cada plano r, los planos más próximos al radio promedio de
los glóbulos tendrán los valores más altos de enfocado (los
puntos estarán más agrupados). Esto se puede ver en la
figura 1. La medida de enfoque usada en nuestro caso fue
la sumatoria del cuadrado del gradiente Se ha usado
operador gradiente de Sobel sobre la componente verde de
la imagen RGB, pero existen otros operadores interesantes
que se podrían usar para futuras mejoras, en particular
aquellos con componentes (e interpretación) en color.
4. Calculo del Número de Glóbulos rojos
Para problemas similares de conteo la estrategia de fuerza
bruta consiste en segmentar y separar todos los objetos que
se tocan y proceder a contarlos. Esta estrategia es válida
para imágenes en las que los objetos están bien separados y
el solapamiento es ocasional. Desafortunadamente para
nuestro caso no siempre son estas las imágenes que
contienen los objetos mas interesantes (células parasitadas)
y se puede inducir un sesgo en el conteo al solo elegir las
zonas más separadas (feather side).
Teniendo esto en cuenta, optamos por usar información de
alto nivel y dar una aproximación al número de glóbulos
rojos sin tener que segmentarlos. Tomamos la imagen H (u,
v, R) con R igual al radio promedio calculado en el paso
anterior. Como ya se mostró antes, las zonas de mayor
concentración de puntos corresponderán a los centros, así
que separamos los picos más aislados. Hemos utilizado para
esto la transformación de h-domo [9] que extrae los picos
con una resolución mayor a un parámetro l, en este caso
calculado como un porcentaje del máximo de H (u, v, R). El
número de picos disyuntos es en si mismo un conteo del
número aproximado de glóbulos rojos. Este conteo puede
ser mejorado fusionando marcadores que se encuentren
próximos (menos de R/4, por ejemplo).
Figura 2. Glóbulos infectados de P. Vivax con solapamiento
(arriba), H (u, v, R) filtrrada para R=24 (abajo). Imagen cortesía
CDC y Dr. Mae Melvin
5. Detección de las áreas sospechosas
Figura 1. Esquema del análisis. Imagen inicial (arriba).
Magnitud del Gradiente (medio) Transformada H para
distintos R (abajo)
Los trofozoitos jóvenes se presentan alojados dentro del
hematíe como pequeños anillos oscuros con uno o dos
puntos de cromatina. Los parásitos son pequeños en tamaño
e incidencia con respecto a los glóbulos rojos (parasitemias
del 10% para el plasmodium falciparum y menores para
otros tipos de malaria), su presencia en el histograma carece
de peso comparado con los otros objetos. Hemos optado
por descomponer la imagen mediante filtros morfológicos
(no lineales) para resaltar los objetos de interés (parásitos
en estadio de anillo). Una operación de clausura
morfológica por un elemento estructurante Str ( ϕ Str ( f ) )
elimina de f las estructuras oscuras que, por tamaño, no
pueden contener a Str. El residuo de esta operación (el filtro
bottom hat) resalta los objetos oscuros de menor tamaño
que Str:
rec
rec
rec
bHatStr
( f ) = ϕ Str
(f )− f
El elemento estructurante que hemos utilizado ha sido un
disco de radio menor al radio promedio. En la figura 3 se
ve como este residuo realza los parásitos inmaduros.
También están presentes bordes delgados de células y
texturas, que se eliminan mediante un umbral seleccionado
a partir del algoritmo del triangulo, mas apropiada para
imágenes mono modales como esta.
no existen bordes o gradientes significativos entre los
objetos se puede recurrir a la separación basada en forma.
La técnica de watershed, que separa la imagen en regiones
asociadas a los mínimos locales, puede ser aplicada en estos
casos sobre la transformada distancia de la máscara binaria
de los objetos. Distintos trabajos han utilizado esta técnica
en él área de microscopía y citología de imagen [4] [5] [7]
[10]. En nuestro programa nos hemos limitado a hacer una
separación inicial de las células asociados a zonas
sospechosas cuya forma es importante para la futura
clasificación.
Utilizando la implementación de las librerías ITK [8], el
resultado de una operación de watershed es un árbol binario
de particiones de la imagen en la que los niveles de las
ramas corresponden a la profundidad de los mínimos
locales. Esto permite, una vez hecha la segmentación
inicial, recorrer rápidamente los niveles del árbol para
obtener nuevas particiones de distintos tamaños. Esto evita
la sobre segmentación, problema común de este método.
La imagen utilizada es el mapa de distancia de la máscara
binaria FONDO-CÉLULAS. Para obtener la máscara se
corrige retrospectivamente el sombreado y se elige
automáticamente un umbral basado en el contraste de los
picos del histograma [10]. Los huecos que quedan después
de binarizar son rellenados selectivamente con base en su
tamaño, forma y coincidencia con los centros calculados
anteriormente. Esto busca rellenar únicamente los huecos
debidos a las palideces centrales y evita rellenar los
espacios y grietas intercelulares. Después de aplicar el
watershed se usa información local (posición de los
parásitos) e información de alto nivel sobre las células
(forma y tamaño) para elegir el nivel del árbol binario en el
que se desea hacer el corte. Hemos elegido empíricamente
un valor que se ajusta a la mayoría de las imágenes, pero se
planea automatizar este proceso hacia el futuro para que se
ajuste a cada célula en la imagen. Los resultados se pueden
ver en la figura 4. En la segunda fila se ve el resultado del
llenado selectivo que distingue palideces de grietas.
También se ven dos células en la última fila imposibles de
separar basados en la función distancia.
Resultados
Figura 3. Lámina infectada (arriba). Resultado de aplicar
una clausura y reconstrucción (medio). Diferencia entre las
dos imágenes (abajo)
6. Separación de Células Sospechosas
La separación de las células que se tocan es una tarea
dispendiosa y subjetiva debido a las diferencias de
morfología, tinción, oclusiones y artefactos ópticos. Cuando
El sistema ha sido probado con imágenes de distintos
laboratorios y de distintas calidades. Se obtienen
consistentemente buenas aproximaciones al número de
glóbulos rojos y a su localización. Hemos comparado la
varianza de los conteos de siete imágenes entre tres
operadores humanos y entre los tres operadores humanos y
el sistema (tabla 1). Para todas las imágenes salvo una la
varianza disminuye al usar el conteo del sistema., es decir,
los operadores humanos presentan mayor varianza entre
ellos que el sistema con respecto a su promedio. Vale
anotar que para la imagen img1 el conteo del sistema difiere
en menos de 4 células del promedio de los operadores
humanos (48 contra 44.6). Para la imagen LoMag, que es la
imagen con menor magnificación y mayor cantidad de
células, aparentemente hay un error sistemático pues
difieren mucho los conteos de los operadores 2 y 3 (361 y
363) y los del operador 1 y el sistema (407 y 409). La
inspección visual de los resultados nos lleva a creer que el
cálculo del sistema y el operador 3 son los correctos. Los
resultados indican que, a pesar de ser útil en los conteos a
baja magnificación, la utilidad del sistema será mayor para
los grandes conteos a alta magnificación, cuando la
varianza inter e intra operador aumenta significativamente.
Un conteo típico consta de entre 500 y 2000 glóbulos rojos.
Se obtienen resultados comparables a los de expertos en el
conteo automático de glóbulos rojos, siendo robusto a las
condiciones de captura, digitalización y preparado de la
muestra. Evita los errores asociados a la fatiga.
Hemos demostrado la utilidad de usar características
elementales e intuitivas de los objetos junto con técnicas
básicas por su flexibilidad ante un amplio rango de
condiciones. Nuestra experiencia con los modelos más
sofisticados es que tienden a estar sobre adaptados a un
laboratorio o equipo determinado y a ser inestables en
condiciones desfavorables (como pueden ser las muestras
recogidas en campo). Pensando en futuras aplicaciones
hemos optado por desarrollar implementaciones robustas.
Las futuras líneas de desarrollo están enfocadas a utilizar
las medidas intermedias (contraste, enfocado, cantidad de
objetos solapados, etc.) como indicadores para armonizar
los procesos de preparación de la muestra y obtener mejores
imágenes Será necesario desarrollar un protocolo para
separar los objetos de interés en zonas densas y diseñar un
clasificador para las células segmentadas por este.
Referencias
[1] Medicines
for
Malaria
Venture
(MMV),
http://www.mmv.org/pages/content_frame.asp?ThePage=pag
e1_0002_1.htm&Nav=0002, 2004.
Figura 4. Máscaras Binarias (columna izquierda), transformada
de Distancia (columna central) y resultado de la reconstrucción
(columna derecha) de células infectadas. Imágenes 1 a 3 cortesía
CDC y Dr. Mae Melvin
Para comprobar la localización de zonas sospechosas
hemos usado imágenes previamente diagnosticadas con
malaria. En todas las imágenes el sistema marca como zona
sospechosa al menos uno de los puntos de cromatina del
parásito dentro de la célula. Hace también falsas
detecciones, sobre todo de plaquetas, que deberán ser
detectadas en etapas de clasificación posteriores (aun en
desarrollo).
Imagen
Número de
Glóbulos
Rojos
(Sistema)
Desviación
Estándar
Operadores
Humanos
Desviación
Estándar
Op. Humanos +
Sistema
Img1
48
1,155
1,915
Img2
69
4,583
3,873
Img3
54
7,000
5,737
Img4
78
2,517
2,449
LoMag
402
27,154
26,583
Unal-1
59
6,351
5,354
Unal-2
57
9,165
9,000
[2] G. Garavito, “Estandarización de los modelos de actividad
antimalárica como herramientas para la evaluación
farmacológica de sustancias o extractos de origen vegetal”,
Tesis de Maestría en Farmacología. Universidad Nacional de
Colombia, Bogotá, 2003,
[3]
C. Ortiz de Solorzano, E. García Rodriguez, A. Jones, D.
Pinkel, J.W. Gray, D. Sudar, S.J.Locket , “Segmentation of
confocal microscope images of cell nuclei in thick tissue
sections”, Journal of Microscopy, Vol 193, pt. 3 March 1999,
pp. 212-226
[4]
N. Malpica, C. Ortiz de Solorzano, J.J. Vaquero, A. Santos, I.
Vallcorba, J.M. García Sagredo, F. Del Pozo “Applying
Watershed Algorithms to the Segmentation of Clustered
Nuclei”, Cytometry, 28, 1997, pp. 289-297
[5]
L. Lifeng; S. Sclaroff, “Medical image segmentation and
retrieval via deformable models”, Image Processing, 2001.
Proceedings. 2001 International Conference on, 7-10 October
2001, pp. 1071-1074.
[6]
Q. Yang, B. Parvin “Harmonic Cut and Regularizad Centroid
Transform for Localization of Subcellular structures”, IEEE
Transactions on Biomedical Engineering, Vol. 50, no. 4, pp.
469-475
[7]
C. Di Ruberto, A. Dempster, S. Khan, B. Jarra. “Analysis of
infected blood cell images using morphological operators”,
Image and Vision Computing, Volume 20, no. 2, February
2002, pp. 133-146
[8]
L. Ibañez, W. Schroeder, L. Ng, J. Cates, “The ITK Software
Guide: The Insight Segmentation and Registration Toolkit
(version 1.4)”, Kitware Inc.; September 11, 2003
[9]
L. Vincent, “Morphological grayscale reconstruction in image
analysis: applications and efficient algorithms”, IEEE
Transactions on Image Processing,Volume 2 , no. 2 , Abril
1993 pp.:176 - 201
Tabla 1. Comparación de los conteos
7. Conclusiones y Trabajo Futuro
El sistema presentado ha demostrado ser una valiosa
herramienta en el screening de compuestos antimaláricos,
tanto para una automatización total del proceso como para
un uso supervisado por un experto, aliviando la carga de
este. La reducción del tiempo de lectura de las láminas es
aproximadamente del 90% comparado con la lectura directa
del microscopio que hace un operador entrenado.
[10] J. Angulo, “Morphologie mathématique et indexation
d’images couleur. Application à la microscopie en
biomédicine”, Tesis Doctoral, Escuela de Minas de Paris,
Diciembre 2003

Documentos relacionados