Biología de sistemas - FBMC - Universidad de Buenos Aires

Transcripción

Biología de sistemas - FBMC - Universidad de Buenos Aires
Biología de sistemas
Dra Laura Kamenetzky
Investigadora del CONICET
Departamento de Microbiología, Parasitología e Inmunología
Facultad de Medicina - Universidad de Buenos Aires
[email protected]
Biología de sistemas
??
La biología de sistemas se ocupa del estudio de funciones
biológicas y mecanismos que sustentan el comportamiento de la
red de procesos intra e inter celulares
Es dificil encontrar una definición concisa de Biología de
Sistemas.
Quizás porque la disciplina debe mantener un delicado equilibrio
entre:
 Integración de datos experimentales y aproximaciones
computacionales
Balance entre estrategias experimentales a gran escala y
estudios cuantitativos específicos (validación)
Pero, a pesar de las diversas definiciones, hay aspectos que se
mantienen constantes:
a) Una estrategia de biología de sistemas debe considerar “todos”
los componentes del sistema
b) Las propiedades e interacciones de dichos componentes se deben
poder relacionar con funciones generadas mediante modelos
computacionales
Implica un abordaje multidiciplinario…………
Biología
Biotecnología
Matemática y estadística
Informática
Física y química
Ciencias de la información
Ingeniería
En la mayoría de los casos, los modelos generados son
representaciones crudas de la contraparte biológica
Sin embargo son útiles…….
En general, las relaciones e interacciones biológicas se
determinan mediante procesos indirectos y dificultosos
Para un abordaje de Biologia de Sistemas la estrategia
experimental debe considerar la obtención de:
Datos cuantitativos (en general muy difícil ya que
comúnmente los experimentos están diseñados para dar
respuestas cualitativas)
Mediciones sincronizadas de numerosos objetos
biológicos (que además sea factible económicamente y
obtenidas en un tiempo razonable)
Generación de gran conjunto de datos
Necesidad de agruparlos (Clustering)
Grupo (Cluster)
Un punto usado para representar un conjunto
de valores de entre todos los iniciales que
tienen algo en común, y se pueden agrupar
en función de determinado rasgo
Algoritmo de agrupamiento (clustering)
Es un procedimiento de agrupación de una serie
de datos de acuerdo con un criterio de cercanía.
Esta cercanía se define en términos de una
determinada función de distancia
En este caso es fácil dividir los datos en 4 grupos “clusters”
El criterio de similitud fue el de “distancia”: 2 o más objetos pertenecen a un
mismo grupo (cluster) si se encuentran “cerca” acorde a una distancia dada
(en este caso es distancia geométrica)
Esto se denomina agrupamiento basado en distancia (distance-based
clustering).
Existen otro tipos de agrupamiento: por ej. conceptual clustering: 2 o màs
objetos pertenecen al mismo grupo si existe un término en común que los
defina. En otras palabras, los objetos son agrupados acorde a conceptos
descriptivos, no a medidas de similitud
Pero, cómo decidir lo que constituye un “buen”
agrupamiento?
No hay un criterio óptimo que sea independiente al objetivo final
del agrupamiento.
Consecuentemente, es el usuario el que debe proveer ese criterio,
de tal forma de que el clustering cumpla con sus necesidades.
En particular, estaremos interesados en encontrar grupos
homogéneos y representativos (reducción de datos) para encontrar
“agrupamientos naturales” y describir propiedades desconocidas,
encontrar agrupamientos útiles o encontrar datos inusuales (outlier
detection).
Requerimientos
Los principales requerimientos que debe cumplir un algoritmo de
clustering son:
•Escalabilidad
•Aceptar diferentes tipos de atributos
•Descubrir grupos con diferente forma
•Mínimos requerimientos de conocimiento del problema para
ajustar los parámetros iniciales
•Posibilidad de manejo de ruido y datos inusuales (outliers)
•Insensiblidad al orden de entrada de los datos
•Alta dimensión
•Facilidad de interpretar y usar
Limitaciones
•Alta demanda de tiempo computacional (problema de muchas
dimensiones)
• La efectividad del método depende de la definición de distancia
empleada
•No siempre se puede definir una medida de distancia acorde al
problema
•El resultado del algoritmo de clustering puede interpretarse de
diferentes maneras igualmente probables
Existen varios algoritmos de clustering
Algunos de ellos:
•k-means (agrupamiento exclusivo)
•Hierarchical Clustering (agrupamiento jerárquico)
•SOM (agrupamiento mediante redes neuronales)
Definir en número de grupos a priori, en este ejemplo 2
Definir los centroides (informalmente sería el promedio de todos
los puntos de un grupo)
En general se eligen 2 valores al azar del set de datos original, lo
mas alejados uno de otro
Se asignan puntos a cada grupo
Se re calculan los centroides
Se re asignan puntos a los grupos
Re estimación de centroides
Convergencia (no hay mas cambios de asiganción de
puntos)
K-means-Limitaciones
La solución depende de la cantidad de grupos iniciales que debe
ser indicada por el usuario
La solución también depende del valor inicial de los centroides
El centro de cada cluster se posiciona de manera de minimizar la
suma de las distancias de todos los puntos del cluster hacia su
centroide y no siempre la forma esférica es la real del
agrupamiento
•Hierarchical Clustering (agrupamiento jerárquico)
1.
Cada punto es un
cluster
•Hierarchical Clustering (agrupamiento jerárquico)
1.
2.
3.
Cada punto es un
cluster
Búsqueda del par de
cluster más similares
Unificar en un único
cluster
•Hierarchical Clustering (agrupamiento jerárquico)
1.
2.
3.
4.
Cada punto es un
cluster
Búsqueda del par de
cluster más similares
Unificar en un único
cluster
Repetir desde 2.
•Hierarchical Clustering (agrupamiento jerárquico)
1.
2.
3.
4.
Cada punto es un
cluster
Búsqueda del par de
cluster más similares
Unificar en un único
cluster
Repetir desde 2
HC- Limitaciones
No siempre el agrupamiento es por jerarquía
No se re evalua cada par de clusters asociados
inicialmente, es decir, todas las determinaciones se
basan estrictamente en decisiones locales
Modelo neuronal SOM
• SOM: Self-organizing map (Kohonen, 1982)
• Aprendizaje competitivo, no supervisado (No requieren del uso del
error entre la salida del sistema y el modelo que se pretende obtener para adaptar
los parámetros)
• Nodos (neuronas) compiten en el aprendizaje ante un
determinado conjunto de datos de entrada (estímulo)
• Dado un patrón de entrada, se computa su distancia a los
nodos de salida.
• Sólo la neurona que se encuentra más cercana al patrón de
entrada se declara como la ganadora.
• Consecuentemente el vector de peso de la neurona ganadora
(y sus neuronas vecinas) es modificado acercándose al patrón
de datos de entrada (aprendizaje).
• Este paradigma de aprendizaje competitivo se llama
aprendizaje donde el ganador se lleva todo (winner-takes-all).
Modelo neuronal SOM
Source: del Brio et al., (2002 )
Modelo neuronal SOM
Mapa (salida)
Capa sensorial (entrada)
Modelo neuronal SOM
Mapa (salida)
Capa sensorial (entrada)
Modelo neuronal SOM
Mapa (salida)
Capa sensorial (entrada)
Modelo neuronal SOM
Mapa (salida)
Capa sensorial (entrada)
Modelo neuronal SOM
• El objetivo del SOM es representar patrones de entrada de muchas
dimensiones en un mapa de dos dimensiones, preservando la
proximidad de las relaciones de los datos originales.
• Este tipo de modelo es apropiado para el análisis de clusters
cuando lo que se busca es encontrar relaciones ocultas entre los
datos.
• El modelo permite una fácil y rápida visualización de
agrupamientos con datos de varios tipos
• La premisa del modelo es que genes que se comporten de forma
similar pueden ser parte de redes de regulación comunes.
Igualmente muchas veces es necesario evaluar más de un
método de clustering para cada set de datos para asegurar que
los agrupamientos son los correctos.
Utilizar parámetros objetivos de evaluación de los métodos.
A Biologically-inspired Validity Measure for Comparison of Clustering Methods over
Metabolic Datasets.Stegmayer G, Milone DH, Kamenetzky L, Lopez MG, Carrari F.
IEEE/ACM Trans Comput Biol Bioinform. 2012
Reconstrucción de vías metabolicas: frutos de tomate como modelo
Laura Kamenetzky, Mariana López, Georgina Stegmayer, Diego Milone, Estela Valle, James
Giovanonni, Alisdair Fernie and Fernando Carrari.
Instituto de Biotecnología-INTA, Argentina
CIDISI, UTN-FRSF, CONICET, Argentina
Sinc(i), FICH-UNL, CONICET, Argentina
IBR, CONICET, Argentina
BTI, Cornell, USA.
MPIMP-Golm, Alemania.
Objetivo:
Reconstruir vías metabólicas de frutos de tomate a
partir del análisis integrado de perfiles
transcripcionales y metabólicos
source: Carrari et al., J. Exp. Bot. 2006
Modelo de estudio
Solanum
pennellii
lycopersicum
x
Ch 1
IL1-1
IL1-2
IL4-1
2 3 4 .... 12
Un poco de números...
Existen 75 líneas introgresadas (ILs)
Representan 107 fragmentos genómicos
Cubren 900 Mega bases de ADN
Incluyen más de 8500 genes
Durante el desarrollo del fruto se expresan más de 1000 genes
Regularían más de 200 caracteres metabólicos
Líneas introgresadas
¿Por que utilizar germoplasma silvestre?
Se ha demostrado que genes de tomate silvestre que posee frutos
verdes de bajo rendimiento sirven de fuente de mejoramiento
- Caracteres que no se observan en ninguno de los parentales
segregan en las ILs
- Solamente el 5% de la variabilidad del genero ha sido incorporado
al acervo genético de materiales utilizados en el mejoramiento
Estrategia experimental
# Condiciones experimentales
Invernáculo. Campo
# Réplicas biológicas
2 réplicas biológicas, 3 plantas c/u, 10 tomates por réplica
# Réplicas técnicas
2 réplicas técnicas
Tratamiento de datos faltantes
Normalización/Relativización de los datos
Esquema de las etapas de análisis en la integración de
datos transcriptómicos y metabolómicos
Datos
de las
ILs
Pre-procesamiento,
Integración,
Selección y
minería de datos y
normalización
visualización
Evaluación de los
clusters y su
validez biológica
Transcriptos:
análisis por microarreglos de oligos de ADN
Pin spotter
DNA oligo spotting
Glass slice
RNA from Control
hybridization
RNA from Treatment
Scanning
Microarray
Se detectan más de
1000 genes en frutos
de tomate
Microarreglos
TOM 2
Cy5control (M82)
Cy3 expt (IL 1-1-3)
Microarreglos
TOM 2
Dye-swap
Cy5 expt (IL 1-1-3)
Cy3 control (M82)
Metabolitos: obtención e identificación
Plataforma tecnológica: GC-Tof-MS
Gas Chromatography – Time of Flight – Mass Spectometry
El análisis de la fase
polar de extractos de
fruto de tomate permite
la identificación de
alrededor de 80
compuestos del
metabolismo primario
GC-MS
Relative content = specific mass intensity/ribitol (m/z 319) intensity/ fresh weight (mg )
En verde:
metabolitos no detectados en esa corrida
En rojo: réplica sin datos se reemplaza por la media de las otras 3 réplicas
ND: metabolito no encontrado en más de 2 réplicas
Esquema de las etapas de análisis en la integración de
datos transcriptómicos y metabolómicos
Datos
de las
ILs
Pre-procesamiento,
Integración,
Selección y
minería de datos y
normalización
visualización
Evaluación de los
clusters y su
validez biológica
Transcriptos: pre-procesamiento de la señal
 Filtrado de señal por ausencia de señal y por calidad
 Genes no expresados (“apagado” en esa línea)
Se considera gen no expresado a:
Ft < Bt +  B t
Señal del spot
Media de la Señal background
Desvío estándard de la señal
background ponderada por parámetro
seteado empíricamente
Transcriptos: selección
Al menos 2 réplicas
 Relativización
Mediana de la señal de transcripto en la IL
Mediana de la señal del transcripto en el control
 Normalización mediante “print-tip Lowess”
 Las réplicas válidas se promedian
Nro de réplicas
Metabolitos: normalización y selección de la señal
Al menos 2 réplicas
 Normalización
 Selección
Contenido de metabolitos
en dereminanda IL
considernado el Nro de
réplicas válidas
Contenido de metabolitos
en el control
considerando el Nro de
réplicas válidas
valor umbral
Datos de entrada al modelo IL-SOM
 Luego del pre-procesamiento y filtrado:
#Transcriptos = 1159
#Metabolitos = 70
 Datos normalizados de metabolitos y transcriptos
• Directos
• Invertidos
De esta manera se verán relaciones entre componentes que no
posean igual signo (ej: aumenta la expresión de un gen como
consecuencia de la disminución de un metabolito)
Esquema de las etapas de análisis en la integración de
datos transcriptómicos y metabolómicos
Datos
de las
ILs
Pre-procesamiento,
Selección y
normalización
Integración
y
visualización
Evaluación de los
clusters y su
validez biológica
Comparación de métodos de agrupamiento
Agrupamiento
Jerárquico
k-medias
Gris: transcriptos
SOM
Negro: metabolitos
Stegmayer y col., 2009
Agrupamientos inconsistentes
Agrupamiento
Jerárquico
k-medias
Stegmayer y col., 2009
Agrupamientos consistentes
SOM
Stegmayer y col., 2009
• Con este modelo aquellos transcriptos y
metabolitos que se ubiquen en una misma
coordenada del mapa son los que muestran
una tendencia similar en su patrón de
comportamiento en diferentes líneas
introgresadas de tomate.
Software *omeSOM
Neurona
604
Línea de tomate
Mapa 25x25
Patrón de
variación de
un
componente
Milone y col., 2010
Esquema de las etapas de análisis en la integración de
datos transcriptómicos y metabolómicos
Datos
de las
ILs
Pre-procesamiento,
Selección y
normalización
Integración
y
visualización
Evaluación de los
clusters (validez
biológica)
Extracción de datos biológicos
Cluster SOM
Identificación de ruta
metábolica
(KEGG DB)
Anotación
funcional/Localización
en el mapa de IL
(NCBI/ SGN DB)
- Reconstrucción de vías conocidas y localización
genética de los componentes
- Identificación de nuevos componentes en vías
conocidas
- Construcción de vías nuevas
Kamenetzky y col. en preparación
Caso de estudio
Maximizar # cluster con transcriptos + metabolitos
Mapa 30x30
Vn = 0
Expresión de genes y contenido de metabolitos en las ILs
Análisis con *omeSOM software
30 x 30 Vn=0
GRUPO DE NEURONAS
Metabolic functional annotation DB:
Información a extraer:
SGN
TAIR
MapMan
KEGG
Reference
neuron
probe
Unigene
TAIR
Annotation
Metabolic
pathway (EC
or path)
Biological
function
Link level
Map
localization
(chr, cM)
IL UP/DOWN
abundance
23 LE13N06
SGN-U579954
AT1G53540
17.6 kDa class NI small heat Stress
shock protein.
(20)
HSP20 chaperone.
9 (50.4)
Response to heat
23 LE17G17
SGN-U581229
AT5G12030
HSP17.6A cytosolic
N
small heat
Stress
shock(20)
protein with chaperone
3 (33.5)
activity that is induced
Ishitani
by etheat
al 1996and
23 LE1I02
SGN-U578319
AT3G56490
23 LE25C02
SGN-U590283
AT3G43980
40S ribosomal protein
N
S29 . Protein
Postranlational
(29)
modification 11 (49.7)
23 LE26P10
SGN-U578134
AT2G29500
17.6 kDa class NI small heat Stress
shock protein
(20)
response to oxidative
6 (65.8)stress, response Ishitani
to cyclopenten
et al 1996
23 LE32G03
SGN-U579132
AT5G12020
17.6 KDA CLASS NII HEAT SHOCKStress
PROTEIN.
(20)
Respond to C-depetion
8 (26.0)
23 LE3I09
SGN-U573741
N
unknown proteinN
Ishitani et al 1996
zinc-binding protein,
N
putative
Protein
/ protein
(29) kinase C inhibitor,
10 (55.9)
putative | chr3:20952511-20954108
Unknown (35)
Ishitani et al 1996
11 (77.6)
inositol1phospha
23 te
Stress (20),
Signalling
(30)
http://www.genome.jp/dbget-bin/show_pathway?ko00562+C01177
Ishitani et al 1996
inositol1phospha
23 te
Stress (20),
Signalling
(30)
http://www.genome.jp/dbget-bin/show_pathway?ko04070+C01177
Ishitani et al 1996
*omeSOM
software:
Patron de variacion
Analisis estadistico
Co-localización de metabolitos y transcriptos en rutas metabólicas
Hormone metabolism (17)
Photosynthesis (1)
Mayor CHO metabolism (2)
Glycolysis (4)
CHO
Metabolismo
de lípidos
Fuc
Frc
Rhm
Secondary
metabolism (16)
Glc
a-toco
Vías no
relacionadas
F6P
Gly
Glyc
Gly-3-P
GluAc-1-4-Lac
Ino-1-P
Stress
Protein (29)
Chlorogenate
Inositol
Malate
Stress (20),
Signalling (30)
Glu
GABA
Lys
GABA metab
5-oxo
Ornithine
Asp
Arg
Urea
Protein (29)
Misc (26)
Transport (34)
Secondary
metabolism (16)
0.2
0.1
0
-0.1
-0.2
-0.3
Bin 2B
3-5
5-1
5-2
5-4
5-5
8-1-1
8-2
8-2-1
8-3
8-3-1
10-2-2
11-1
12-1
12-1-1
12-2
12-3
3-5
5-1
5-2
5-4
5-5
8-1-1
8-2
8-2-1
8-3
8-3-1
10-2-2
11-1
12-1
12-1-1
12-2
12-3
2-4
2-2
2-5
glutamate
2-5
2-4
2-2
2-1
0.3
2-1
0.4
1-1-3
-0.4
1-1-3
0.6
GABA
Metabolismo de GABA
0.4
0.2
0
-0.2
158 transcriptos que co-varian en estas ILs
QTL GABA/Glu en el cromosoma 2
Bin2B
CD66*
IL2-4
IL2-5
GABA
Glu
100.5
Glu
TG463
GABA
85.0
Glu
TG494*
GABA
64.9
Glu
TG145*
Glu GABA
44.8
GABA
CT196
IL2-3
20.0
IL2-2
CT205
Glu
IL2-1
13.0
GABA
TG304 TG33
IL2-1-1
0.0
Disminución respecto al control
137.0
143.0
143.5
CT59
TG141A
TG154
Hay al menos 2 puntos de regulación diferentes
The GABA
Shunt Aminoácido de 4 C no proteíco (γ-aminobutiric acid)
Presente en bacterias, plantas y vertebrados
Alta concentración en cerebro, neurotransmisor
Metabolizado principalmente por 3 enzimas:
- Glutamato decarboxilasa citosólica (GAD)
- GABA transaminasa mitocondrial (GABA-T)
-Succínico semialdehído dehidrogenasa mitocondrial (SSADH)
En plantas:
La síntesis de GABA se ve alterada por estrés biótico y abiótico
Recientemente se lo caracterizó como molécula de señalización
GABA shunt
=
=
Met
Transc
Actividad
IL 2-2
IL 2-5
Las alteración en GABA/Glu podría relacionarse a otros transcriptos áún no asociados a GABA shunt

Documentos relacionados