Biología de sistemas - FBMC - Universidad de Buenos Aires
Transcripción
Biología de sistemas - FBMC - Universidad de Buenos Aires
Biología de sistemas Dra Laura Kamenetzky Investigadora del CONICET Departamento de Microbiología, Parasitología e Inmunología Facultad de Medicina - Universidad de Buenos Aires [email protected] Biología de sistemas ?? La biología de sistemas se ocupa del estudio de funciones biológicas y mecanismos que sustentan el comportamiento de la red de procesos intra e inter celulares Es dificil encontrar una definición concisa de Biología de Sistemas. Quizás porque la disciplina debe mantener un delicado equilibrio entre: Integración de datos experimentales y aproximaciones computacionales Balance entre estrategias experimentales a gran escala y estudios cuantitativos específicos (validación) Pero, a pesar de las diversas definiciones, hay aspectos que se mantienen constantes: a) Una estrategia de biología de sistemas debe considerar “todos” los componentes del sistema b) Las propiedades e interacciones de dichos componentes se deben poder relacionar con funciones generadas mediante modelos computacionales Implica un abordaje multidiciplinario………… Biología Biotecnología Matemática y estadística Informática Física y química Ciencias de la información Ingeniería En la mayoría de los casos, los modelos generados son representaciones crudas de la contraparte biológica Sin embargo son útiles……. En general, las relaciones e interacciones biológicas se determinan mediante procesos indirectos y dificultosos Para un abordaje de Biologia de Sistemas la estrategia experimental debe considerar la obtención de: Datos cuantitativos (en general muy difícil ya que comúnmente los experimentos están diseñados para dar respuestas cualitativas) Mediciones sincronizadas de numerosos objetos biológicos (que además sea factible económicamente y obtenidas en un tiempo razonable) Generación de gran conjunto de datos Necesidad de agruparlos (Clustering) Grupo (Cluster) Un punto usado para representar un conjunto de valores de entre todos los iniciales que tienen algo en común, y se pueden agrupar en función de determinado rasgo Algoritmo de agrupamiento (clustering) Es un procedimiento de agrupación de una serie de datos de acuerdo con un criterio de cercanía. Esta cercanía se define en términos de una determinada función de distancia En este caso es fácil dividir los datos en 4 grupos “clusters” El criterio de similitud fue el de “distancia”: 2 o más objetos pertenecen a un mismo grupo (cluster) si se encuentran “cerca” acorde a una distancia dada (en este caso es distancia geométrica) Esto se denomina agrupamiento basado en distancia (distance-based clustering). Existen otro tipos de agrupamiento: por ej. conceptual clustering: 2 o màs objetos pertenecen al mismo grupo si existe un término en común que los defina. En otras palabras, los objetos son agrupados acorde a conceptos descriptivos, no a medidas de similitud Pero, cómo decidir lo que constituye un “buen” agrupamiento? No hay un criterio óptimo que sea independiente al objetivo final del agrupamiento. Consecuentemente, es el usuario el que debe proveer ese criterio, de tal forma de que el clustering cumpla con sus necesidades. En particular, estaremos interesados en encontrar grupos homogéneos y representativos (reducción de datos) para encontrar “agrupamientos naturales” y describir propiedades desconocidas, encontrar agrupamientos útiles o encontrar datos inusuales (outlier detection). Requerimientos Los principales requerimientos que debe cumplir un algoritmo de clustering son: •Escalabilidad •Aceptar diferentes tipos de atributos •Descubrir grupos con diferente forma •Mínimos requerimientos de conocimiento del problema para ajustar los parámetros iniciales •Posibilidad de manejo de ruido y datos inusuales (outliers) •Insensiblidad al orden de entrada de los datos •Alta dimensión •Facilidad de interpretar y usar Limitaciones •Alta demanda de tiempo computacional (problema de muchas dimensiones) • La efectividad del método depende de la definición de distancia empleada •No siempre se puede definir una medida de distancia acorde al problema •El resultado del algoritmo de clustering puede interpretarse de diferentes maneras igualmente probables Existen varios algoritmos de clustering Algunos de ellos: •k-means (agrupamiento exclusivo) •Hierarchical Clustering (agrupamiento jerárquico) •SOM (agrupamiento mediante redes neuronales) Definir en número de grupos a priori, en este ejemplo 2 Definir los centroides (informalmente sería el promedio de todos los puntos de un grupo) En general se eligen 2 valores al azar del set de datos original, lo mas alejados uno de otro Se asignan puntos a cada grupo Se re calculan los centroides Se re asignan puntos a los grupos Re estimación de centroides Convergencia (no hay mas cambios de asiganción de puntos) K-means-Limitaciones La solución depende de la cantidad de grupos iniciales que debe ser indicada por el usuario La solución también depende del valor inicial de los centroides El centro de cada cluster se posiciona de manera de minimizar la suma de las distancias de todos los puntos del cluster hacia su centroide y no siempre la forma esférica es la real del agrupamiento •Hierarchical Clustering (agrupamiento jerárquico) 1. Cada punto es un cluster •Hierarchical Clustering (agrupamiento jerárquico) 1. 2. 3. Cada punto es un cluster Búsqueda del par de cluster más similares Unificar en un único cluster •Hierarchical Clustering (agrupamiento jerárquico) 1. 2. 3. 4. Cada punto es un cluster Búsqueda del par de cluster más similares Unificar en un único cluster Repetir desde 2. •Hierarchical Clustering (agrupamiento jerárquico) 1. 2. 3. 4. Cada punto es un cluster Búsqueda del par de cluster más similares Unificar en un único cluster Repetir desde 2 HC- Limitaciones No siempre el agrupamiento es por jerarquía No se re evalua cada par de clusters asociados inicialmente, es decir, todas las determinaciones se basan estrictamente en decisiones locales Modelo neuronal SOM • SOM: Self-organizing map (Kohonen, 1982) • Aprendizaje competitivo, no supervisado (No requieren del uso del error entre la salida del sistema y el modelo que se pretende obtener para adaptar los parámetros) • Nodos (neuronas) compiten en el aprendizaje ante un determinado conjunto de datos de entrada (estímulo) • Dado un patrón de entrada, se computa su distancia a los nodos de salida. • Sólo la neurona que se encuentra más cercana al patrón de entrada se declara como la ganadora. • Consecuentemente el vector de peso de la neurona ganadora (y sus neuronas vecinas) es modificado acercándose al patrón de datos de entrada (aprendizaje). • Este paradigma de aprendizaje competitivo se llama aprendizaje donde el ganador se lleva todo (winner-takes-all). Modelo neuronal SOM Source: del Brio et al., (2002 ) Modelo neuronal SOM Mapa (salida) Capa sensorial (entrada) Modelo neuronal SOM Mapa (salida) Capa sensorial (entrada) Modelo neuronal SOM Mapa (salida) Capa sensorial (entrada) Modelo neuronal SOM Mapa (salida) Capa sensorial (entrada) Modelo neuronal SOM • El objetivo del SOM es representar patrones de entrada de muchas dimensiones en un mapa de dos dimensiones, preservando la proximidad de las relaciones de los datos originales. • Este tipo de modelo es apropiado para el análisis de clusters cuando lo que se busca es encontrar relaciones ocultas entre los datos. • El modelo permite una fácil y rápida visualización de agrupamientos con datos de varios tipos • La premisa del modelo es que genes que se comporten de forma similar pueden ser parte de redes de regulación comunes. Igualmente muchas veces es necesario evaluar más de un método de clustering para cada set de datos para asegurar que los agrupamientos son los correctos. Utilizar parámetros objetivos de evaluación de los métodos. A Biologically-inspired Validity Measure for Comparison of Clustering Methods over Metabolic Datasets.Stegmayer G, Milone DH, Kamenetzky L, Lopez MG, Carrari F. IEEE/ACM Trans Comput Biol Bioinform. 2012 Reconstrucción de vías metabolicas: frutos de tomate como modelo Laura Kamenetzky, Mariana López, Georgina Stegmayer, Diego Milone, Estela Valle, James Giovanonni, Alisdair Fernie and Fernando Carrari. Instituto de Biotecnología-INTA, Argentina CIDISI, UTN-FRSF, CONICET, Argentina Sinc(i), FICH-UNL, CONICET, Argentina IBR, CONICET, Argentina BTI, Cornell, USA. MPIMP-Golm, Alemania. Objetivo: Reconstruir vías metabólicas de frutos de tomate a partir del análisis integrado de perfiles transcripcionales y metabólicos source: Carrari et al., J. Exp. Bot. 2006 Modelo de estudio Solanum pennellii lycopersicum x Ch 1 IL1-1 IL1-2 IL4-1 2 3 4 .... 12 Un poco de números... Existen 75 líneas introgresadas (ILs) Representan 107 fragmentos genómicos Cubren 900 Mega bases de ADN Incluyen más de 8500 genes Durante el desarrollo del fruto se expresan más de 1000 genes Regularían más de 200 caracteres metabólicos Líneas introgresadas ¿Por que utilizar germoplasma silvestre? Se ha demostrado que genes de tomate silvestre que posee frutos verdes de bajo rendimiento sirven de fuente de mejoramiento - Caracteres que no se observan en ninguno de los parentales segregan en las ILs - Solamente el 5% de la variabilidad del genero ha sido incorporado al acervo genético de materiales utilizados en el mejoramiento Estrategia experimental # Condiciones experimentales Invernáculo. Campo # Réplicas biológicas 2 réplicas biológicas, 3 plantas c/u, 10 tomates por réplica # Réplicas técnicas 2 réplicas técnicas Tratamiento de datos faltantes Normalización/Relativización de los datos Esquema de las etapas de análisis en la integración de datos transcriptómicos y metabolómicos Datos de las ILs Pre-procesamiento, Integración, Selección y minería de datos y normalización visualización Evaluación de los clusters y su validez biológica Transcriptos: análisis por microarreglos de oligos de ADN Pin spotter DNA oligo spotting Glass slice RNA from Control hybridization RNA from Treatment Scanning Microarray Se detectan más de 1000 genes en frutos de tomate Microarreglos TOM 2 Cy5control (M82) Cy3 expt (IL 1-1-3) Microarreglos TOM 2 Dye-swap Cy5 expt (IL 1-1-3) Cy3 control (M82) Metabolitos: obtención e identificación Plataforma tecnológica: GC-Tof-MS Gas Chromatography – Time of Flight – Mass Spectometry El análisis de la fase polar de extractos de fruto de tomate permite la identificación de alrededor de 80 compuestos del metabolismo primario GC-MS Relative content = specific mass intensity/ribitol (m/z 319) intensity/ fresh weight (mg ) En verde: metabolitos no detectados en esa corrida En rojo: réplica sin datos se reemplaza por la media de las otras 3 réplicas ND: metabolito no encontrado en más de 2 réplicas Esquema de las etapas de análisis en la integración de datos transcriptómicos y metabolómicos Datos de las ILs Pre-procesamiento, Integración, Selección y minería de datos y normalización visualización Evaluación de los clusters y su validez biológica Transcriptos: pre-procesamiento de la señal Filtrado de señal por ausencia de señal y por calidad Genes no expresados (“apagado” en esa línea) Se considera gen no expresado a: Ft < Bt + B t Señal del spot Media de la Señal background Desvío estándard de la señal background ponderada por parámetro seteado empíricamente Transcriptos: selección Al menos 2 réplicas Relativización Mediana de la señal de transcripto en la IL Mediana de la señal del transcripto en el control Normalización mediante “print-tip Lowess” Las réplicas válidas se promedian Nro de réplicas Metabolitos: normalización y selección de la señal Al menos 2 réplicas Normalización Selección Contenido de metabolitos en dereminanda IL considernado el Nro de réplicas válidas Contenido de metabolitos en el control considerando el Nro de réplicas válidas valor umbral Datos de entrada al modelo IL-SOM Luego del pre-procesamiento y filtrado: #Transcriptos = 1159 #Metabolitos = 70 Datos normalizados de metabolitos y transcriptos • Directos • Invertidos De esta manera se verán relaciones entre componentes que no posean igual signo (ej: aumenta la expresión de un gen como consecuencia de la disminución de un metabolito) Esquema de las etapas de análisis en la integración de datos transcriptómicos y metabolómicos Datos de las ILs Pre-procesamiento, Selección y normalización Integración y visualización Evaluación de los clusters y su validez biológica Comparación de métodos de agrupamiento Agrupamiento Jerárquico k-medias Gris: transcriptos SOM Negro: metabolitos Stegmayer y col., 2009 Agrupamientos inconsistentes Agrupamiento Jerárquico k-medias Stegmayer y col., 2009 Agrupamientos consistentes SOM Stegmayer y col., 2009 • Con este modelo aquellos transcriptos y metabolitos que se ubiquen en una misma coordenada del mapa son los que muestran una tendencia similar en su patrón de comportamiento en diferentes líneas introgresadas de tomate. Software *omeSOM Neurona 604 Línea de tomate Mapa 25x25 Patrón de variación de un componente Milone y col., 2010 Esquema de las etapas de análisis en la integración de datos transcriptómicos y metabolómicos Datos de las ILs Pre-procesamiento, Selección y normalización Integración y visualización Evaluación de los clusters (validez biológica) Extracción de datos biológicos Cluster SOM Identificación de ruta metábolica (KEGG DB) Anotación funcional/Localización en el mapa de IL (NCBI/ SGN DB) - Reconstrucción de vías conocidas y localización genética de los componentes - Identificación de nuevos componentes en vías conocidas - Construcción de vías nuevas Kamenetzky y col. en preparación Caso de estudio Maximizar # cluster con transcriptos + metabolitos Mapa 30x30 Vn = 0 Expresión de genes y contenido de metabolitos en las ILs Análisis con *omeSOM software 30 x 30 Vn=0 GRUPO DE NEURONAS Metabolic functional annotation DB: Información a extraer: SGN TAIR MapMan KEGG Reference neuron probe Unigene TAIR Annotation Metabolic pathway (EC or path) Biological function Link level Map localization (chr, cM) IL UP/DOWN abundance 23 LE13N06 SGN-U579954 AT1G53540 17.6 kDa class NI small heat Stress shock protein. (20) HSP20 chaperone. 9 (50.4) Response to heat 23 LE17G17 SGN-U581229 AT5G12030 HSP17.6A cytosolic N small heat Stress shock(20) protein with chaperone 3 (33.5) activity that is induced Ishitani by etheat al 1996and 23 LE1I02 SGN-U578319 AT3G56490 23 LE25C02 SGN-U590283 AT3G43980 40S ribosomal protein N S29 . Protein Postranlational (29) modification 11 (49.7) 23 LE26P10 SGN-U578134 AT2G29500 17.6 kDa class NI small heat Stress shock protein (20) response to oxidative 6 (65.8)stress, response Ishitani to cyclopenten et al 1996 23 LE32G03 SGN-U579132 AT5G12020 17.6 KDA CLASS NII HEAT SHOCKStress PROTEIN. (20) Respond to C-depetion 8 (26.0) 23 LE3I09 SGN-U573741 N unknown proteinN Ishitani et al 1996 zinc-binding protein, N putative Protein / protein (29) kinase C inhibitor, 10 (55.9) putative | chr3:20952511-20954108 Unknown (35) Ishitani et al 1996 11 (77.6) inositol1phospha 23 te Stress (20), Signalling (30) http://www.genome.jp/dbget-bin/show_pathway?ko00562+C01177 Ishitani et al 1996 inositol1phospha 23 te Stress (20), Signalling (30) http://www.genome.jp/dbget-bin/show_pathway?ko04070+C01177 Ishitani et al 1996 *omeSOM software: Patron de variacion Analisis estadistico Co-localización de metabolitos y transcriptos en rutas metabólicas Hormone metabolism (17) Photosynthesis (1) Mayor CHO metabolism (2) Glycolysis (4) CHO Metabolismo de lípidos Fuc Frc Rhm Secondary metabolism (16) Glc a-toco Vías no relacionadas F6P Gly Glyc Gly-3-P GluAc-1-4-Lac Ino-1-P Stress Protein (29) Chlorogenate Inositol Malate Stress (20), Signalling (30) Glu GABA Lys GABA metab 5-oxo Ornithine Asp Arg Urea Protein (29) Misc (26) Transport (34) Secondary metabolism (16) 0.2 0.1 0 -0.1 -0.2 -0.3 Bin 2B 3-5 5-1 5-2 5-4 5-5 8-1-1 8-2 8-2-1 8-3 8-3-1 10-2-2 11-1 12-1 12-1-1 12-2 12-3 3-5 5-1 5-2 5-4 5-5 8-1-1 8-2 8-2-1 8-3 8-3-1 10-2-2 11-1 12-1 12-1-1 12-2 12-3 2-4 2-2 2-5 glutamate 2-5 2-4 2-2 2-1 0.3 2-1 0.4 1-1-3 -0.4 1-1-3 0.6 GABA Metabolismo de GABA 0.4 0.2 0 -0.2 158 transcriptos que co-varian en estas ILs QTL GABA/Glu en el cromosoma 2 Bin2B CD66* IL2-4 IL2-5 GABA Glu 100.5 Glu TG463 GABA 85.0 Glu TG494* GABA 64.9 Glu TG145* Glu GABA 44.8 GABA CT196 IL2-3 20.0 IL2-2 CT205 Glu IL2-1 13.0 GABA TG304 TG33 IL2-1-1 0.0 Disminución respecto al control 137.0 143.0 143.5 CT59 TG141A TG154 Hay al menos 2 puntos de regulación diferentes The GABA Shunt Aminoácido de 4 C no proteíco (γ-aminobutiric acid) Presente en bacterias, plantas y vertebrados Alta concentración en cerebro, neurotransmisor Metabolizado principalmente por 3 enzimas: - Glutamato decarboxilasa citosólica (GAD) - GABA transaminasa mitocondrial (GABA-T) -Succínico semialdehído dehidrogenasa mitocondrial (SSADH) En plantas: La síntesis de GABA se ve alterada por estrés biótico y abiótico Recientemente se lo caracterizó como molécula de señalización GABA shunt = = Met Transc Actividad IL 2-2 IL 2-5 Las alteración en GABA/Glu podría relacionarse a otros transcriptos áún no asociados a GABA shunt