Data Analysis and Visualization - Master en Bioinformática y

Transcripción

Data Analysis and Visualization - Master en Bioinformática y
Índice
Visual Analysis Workflow for GWAS
Estudiante: Carlos Garrido-Allepuz Herrera
MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL
ESCUELA NACIONAL DE SALUD- INSTITUTO DE SALUD CARLOS III
2013-2014
Integromics/Perkin Elmer
Pablo Riesgo Ferreiro, Eduardo Gonzalez Couto, David Gonzalez Knowles
Miguel Vazquez
FECHA: 11 de Septiembre del 2014
1
Índice
Portada................................................................................................................1
Índice...................................................................................................................2
A - Objetivos.......................................................................................................3
B - Introducción.................................................................................................4
C- Material y Métodos........................................................................................7
D- Resultados
1) Estudio del arte.................................................................................11
a.- Tipos de Análisis y Filtros....................................................12
a.- Elección de programas/scripts............................................16
2) Búsqueda y obtención de datos para elaborar el protocolo y
contrastar resultados............................................................................17
3) Análisis visual en Spotfire...............................................................20
a.- Filtrado de Muestras y SNPs................................................21
b.- Análisis y selección de Genes Drivers................................26
c.- Análisis y selección de SNPs...............................................30
d.- Integración y Análisis de información adicional................35
e.- Análisis del set de datos usado...........................................38
E - Discusión de Resultados
1) Búsqueda y tratamiento de datos...................................................41
2) Proceso de Análisis de los datos....................................................42
3) Análisis del set de datos..................................................................43
F - Conclusiones..............................................................................................45
G - Bibliografía.................................................................................................46
2
A - Objetivos
A - Objetivos:
1.- Estudio del estado del arte en el análisis de datos de NGS.
a. Estudio de las diferentes alternativas de análisis y elaboración de un
diagrama para nuestro prototipo.
b. Elección y desarrollo de programas/scripts para este fin.
2.- Búsqueda y obtención de datos para el proyecto.
3.- Filtrado de Muestras y SNPs.
a. Filtrado de muestras por PCA.
b. Filtrado de SNPs por PCA y LD.
4.- Análisis y
aproximaciones.
selección
de
Genes
Drivers
usando
diferentes
a. Frecuencia de mutaciones (FM).
b. Impacto Funcional (FI).
c. Expresión Diferencial.
5.- Análisis y selección de SNPs.
a. Representación de los resultados de los test de asociación de los
SNPs en el genoma completo.
b. Representación de los resultados de los test de asociación y de OR
de los SNPs asociados a cada gen en detalle.
6.- Integración y Análisis de información adicional.
a. Integración y Análisis de datos de pathways metabólicos.
b. Integración y Análisis de datos de agrupación y clustering.
7.- Análisis del set de datos usado.
Objetivo Final:
Desarrollar una herramienta que permita integrar datos caso/control de tres
pipelines: expresión diferencial, genome wide association studies (GWAS) y
Gene driver selection, en la plataforma de business intelligence Spotfire.
Usando las capacidades de Spotfire implementaremos una herramienta que
permita realizar un análisis visual conjunto de los tres tipos de datos,
optimizada y bajo el control del usuario.
3
B - Introducción
B – Introducción:
Actualmente nos encontramos en la denominada “Era Genómica”, un tiempo
donde se están consiguiendo grandes avances en la obtención de datos
genómicos, cada vez en mayor cantidad. Los diferentes procesos, aparatos y
mecánicas para la obtención de dichos datos se engloban dentro de lo que se
conoce como Next Generation Sequencing o NGS [1-3].
Los pasos que se siguen desde la secuenciación hasta la interpretación de los
datos se podrían resumir en tres puntos:
1 – Obtención de datos del genoma por secuenciación (SNPs, Expresión
Profiles, etc.)
2 – Análisis de los datos obtenidos (filtrado de muestras, estudios
estadísticos, anotación de nuevos datos, etc..).
3 – Interpretación de los datos analizados.
Elegir de manera sensata que se realizara en cada uno de los pasos
condiciona enormemente el conocimiento final que obtengamos.
Los diferentes tipos de secuenciación que existen, presentan diferentes
complejidades en su análisis y pueden mostrar diferentes tipos de datos.
Actualmente de los más utilizados son:
1) mRNA-seq: secuenciación del RNA mensajero de los tejidos. Este método
nos da información acerca de la expresión de los genes, sitios de splicing y la
aparición de variantes alélicas [4].
2) Whole Genome Sequencing (WGS): esta secuenciación analiza el genoma
completo. Es una técnica que genera muchos datos, lo que requiere también
un análisis más cuidadoso y complejo [5-8].
3) Whole Exome Sequencing (WES): parecido al WGS, pero, mediante un
paso previo a la secuenciación, la muestra se enriquece en las regiones
exónicas de los genes. Esto permite un estudio mucho mejor de las variantes
exónicas presentes. Al presentar una menor cantidad de datos su manejo y
análisis es más sencillo que las anteriores, pero se pierde cobertura [9, 10].
Con respecto al tipo de datos que se pueden obtener de la secuenciación,
podríamos decir que estos son los principales:
SNPs: Single Nucleotide Polymorphism, o reconocer cambios en la secuencia
que afecten a un solo nucleótido. En este ámbito también se pueden incluir
Indels o inserciones o delecciones de uno a 50 nucleótido/s en la secuencia
[11].
4
B - Introducción
CNV: Copy Number Variants, o identificar aquellas regiones o genes del
genoma que presentan un numero anormal de copias. Muchas enfermedades
están ligadas a una cantidad anómala de proteína, asociada a una cantidad
anormal en el numero de alelos presentes [12, 13].
Expresión Diferencial: extrae de la secuenciación los patrones de expresión de
las regiones de genoma a partir de la lectura del mRNA. Comparándolos entre
diferentes individuos o poblaciones se pueden obtener los niveles de expresión
de cada gen. Aunque existen excepciones, la cantidad de mRNA secuenciado
se considera un buen reflejo de la cantidad de proteína que se está formando.
[14].
La mayoría de las investigaciones se basan en el análisis de un solo tipo de
estos datos, obteniendo informaciones “unidimensionales” que pueden dar
conclusiones sesgadas. Un ejemplo contrastado de esto fue el primer
acercamiento tipo GWAS, que buscaba "variantes comunes a enfermedades
comunes" [15] .
En cambio, en la literatura se han podido encontrar diversos ejemplos, en los
cuales, el uso de más de un tipo de datos, es decir un análisis
“multidimensional”, arroja unos resultados mucho más precisos, permitiendo
encontrar relaciones y características nuevas. Estos análisis son denominados
Integrados [16, 17, referencias incluidas en estos articulos].
Las ventajas que aporta la integración de los diferentes tipos de datos, hace
que este tipo de estudios sean, hoy en día, casi una necesidad para el avance
en el estudio de diversos campos, sobretodo en el clínico. El problema de este
tipo de análisis multidimensionales, es que esto requiere también protocolos o
programas que permitan tratar e integrar los diferentes tipos de datos.
Además no solo se integran los datos obtenidos de secuenciación. Existen
numerosas bases de datos que contienen mas información de cada región y/o
gen, esta información puede ser sobre pathways metabólicos, asociación con
enfermedades, etc. Estos, son solo unos ejemplos de mas información que
puede integrarse durante el análisis de los datos con el fin de permitir una
interpretación mucho más efectiva [18-20].
Este completo análisis de los resultados obtenidos por NGS es fundamental
para conseguir extraer de ellos los datos interesantes que pueden permitir al
investigador analizar e interpretar correctamente los fenómenos observados.
Esto cobra más importancia en el estudio de enfermedades con un gran
componente genético, como el cáncer [21-25]. El conocimiento que se obtenga
de estos estudios puede llegar a traducirse en el desarrollo de tratamientos,
métodos de detección precoces y prognosis.
5
B - Introducción
El principal problema radica en el tratamiento de la gran cantidad de datos que
se obtienen. Un buen análisis ha de ser capaz de filtrar y organizar estos datos,
extrayendo aquellos que sean capaces de transmitir al investigador una
información sensible y fiable, sin sesgos ni errores, que permita una correcta
interpretación del fenómeno estudiado.
Con este fin se han desarrollado múltiples herramientas de análisis de datos
de NGS así como diferentes protocolos [17]. Se encuentran disponibles en la
red numerosos programas que permiten cubrir cada parte del análisis, desde la
anotación y filtrado [26, 27], hasta el estudio estadístico de los datos [28, 29].
Como podemos observar, todo el estudio se puede dividir en dos partes: a)
análisis de datos y b) interpretación de estos. En muchas ocasiones existe
una gran desconexión entre ambas fases del estudio, lo que se puede traducir
en pérdidas de información e interpretaciones erróneas/sesgadas.
Como nota final, se ha comprobado que un análisis visual de los datos es
mucho mas intuitivo y productivo que ver números ordenados en tablas [30,
31]. Esto se debe a que una gran cantidad de datos numéricos saturan al
investigador impidiéndole ver detalles y matices que son los que, al final,
permiten extraer la información útil.
Con esto en mente, el objetivo principal de este trabajo es la elaboración y
presentación de un prototipo que permita al usuario, realizar y dirigir el análisis
de resultados de NGS, integrando diferentes tipos de datos junto con otros
adicionales (pathways, clusterización, estructura de cromosomas y genes), que
le permitan obtener la información necesaria de manera precisa y facilite su
interpretación, todo ello en un entorno visual de fácil manejo.
6
C - Material y Métodos
C – Material y Métodos
La plataforma visual para el desarrollo de esta herramienta de análisis ha sido
Spotfire [32, 33]. Este programa permite al usuario gestionar, modificar,
transformar, relacionar y elaborar diferentes visualizaciones de los datos, que
han de ser introducidos en tabla, aceptando múltiples formatos.
La plataforma Spotfire presente en Integromics tiene incorporadas diversas
herramientas, elaboradas por la empresa, que se agrupan en la suite de Omics
Office (https://www.integromics.com/omicsoffice-suite/). De estas herramientas
usaremos la del análisis tipo LIMMA para realizar los cálculos para la expresión
diferencial de las muestras (Anexo tablas: Expresión Diferencial).
Para el manejo y transformación de los archivos .vcf hemos usado la suite de
comandos VCFtools [34]. La hemos necesitado en dos ocasiones:
1. Fusión de los diferentes archivos .vcf en uno solo:
vcf-merge -d -R 0/0.
2. Ordenación los cromosomas en el vcf:
vcf-sort -c.
Hemos usado la opción -R 0/0 para la fusión de los archivos vcf con el fin de
simplificar los datos, considerando que aquellas variantes no encontradas en
las distintas muestras se debe a que presentan el alelo wild type, no por una
falta de lecturas en esa región.
Para la anotación y filtrado del archivo .vcf resultante se usaron las
herramientas de anotación de GATK [26] y el anotador desarrollado en
Integromics, Variant Annotator:
1. Marcar para filtrado usando GATK [26]:
java
-jar
GenomeAnalysisTKLite.jar
-T
VariantFiltration
-R
human_g1k_v37.fasta --variant combined2.sorted2.vcf --filterExpression
"DP<20" --filterName LowCov --filterExpression "DP>70" --filterName
HighCov
2. Filtramos el archivo eliminando aquellos con LowCov y HighCov:
cat combined2.filtered.under20X.over70X.vcf | grep -v 'LowCov' | grep -v
'HighCov' > FilteredDP.vcf
3. Anotamos el archivo vcf con la información del Variant Annotator y
las puntuaciones de CADD [20].
7
C - Material y Métodos
Para los cómputos estadísticos hemos usado la suite R. Para el cálculo de las
métricas y otros parámetros nos hemos servido de las siguientes librerías:
SNPrelate [35]: esta librería se ha usado para el análisis de
componentes principales (PCA) y de Linkage Desequilibrium Pairwise (LD).
MClust (http://www.stat.washington.edu/mclust/): esta librería se ha
usado para estimar el número de grupos o clústeres presentes en un conjunto
de muestras con diferentes mediciones.
Con esta suite hemos realizado los cálculos de frecuencia de mutación (FM),
impacto funcional (FI), clusterización, análisis de componentes principales
(PCA) y análisis de desequilibrio de ligamiento (LD).
Para el cálculo de Odds Ratio (OR) hemos introducido una columna calculada
mediante Spotfire.
Para el análisis de estratificación de las muestras, filtrado por frecuencia alélica
mínima (MAF), estudio de heterocigosidad media, análisis de frecuencia de
alelos perdidos y el estudio de asociación genotipo-fenotipo para los SNPs
hemos usado la suite PLINK [28, 29]:
1. Para la estratificación hemos usado el comando --genome.
2. Para el test de asociación hemos usado el comando --model.
3. Para filtrar por MAF usamos la opción --maf.
Todos los comandos de R y PLINK usados han sido agrupados en los
siguientes scripts de R (incluidos en la carpeta de scripts):
1. PCA_LD_PED.R: usa el archivo .vcf anotado y devuelve 4 tablas
con los análisis de PCA para muestras, PCA para SNPs, LD de
SNPs y Heterocigosidad/Alelos perdidos para las muestras
(Anexo tablas: PCA muestra, PCA SNP, LD, Het/Miss). Además
también devuelve la información en formato ped y bed.
2. parservcf2.R: este script va a necesitar, como argumentos el
archivo anotado VCF, el número de casos y el número de
controles presentes en la muestra, así como un vector con los
nombres o identificadores de cada muestra. Analizara el archivo
obteniendo la información relevante de cada SNP, su distribución
entre las muestras y los valores estadísticos de FI y FM (Anexo
tablas: Cancer_SNP, SNPMuestras, Cancer Gene Scores).
3. AssoAnalysis.R: este script va a realizar el test de asociación
para los SNPs, dándonos los resultados para los cinco tipos
8
C - Material y Métodos
diferentes de pruebas: alélico, genotípico, aditivo, dominante y
recesivo. Además también realizara el estudio de estratificación y
de
frecuencia
alelica
minima
(Anexo
tablas:
Cancer_SNP_Association).
4. clustering.R: este script se va a encargar de realizar el análisis
de agrupación de los genes y SNPs. Usa las funciones de
agrupación de R clara y kmeans. Para calcular el número
aproximado de clústeres usamos las funciones de MClust.
Debido a problemas con la memoria y los vectores que genera
este paquete en muestras grandes, usamos una aproximación de
muestreo con reemplazo de 5000 genes cada vez y lo repetimos
10000 veces para el cálculo del número de clústeres (Anexo
Tablas: Clustering). Este script, al contrario que el resto, no está
automatizado, de modo que hay que el usuario ha de usarlo a
mano, paso a paso.
La información de las tablas que se obtienen de estos scripts se ha incluido en
el archivo Anexo Tablas.
Para realizar la estructura de citobandas del cromosoma se han usado datos
del UCSC Genome Browser. Para la estructura de los genes se han usado los
datos de RefSeq [36] del release 66.
Los datos para relacionar genes con los pathways se han obtenido de la base
de datos Reactome [19].
Los datos usados para el desarrollo de este proyecto se encuentran en GEO,
provenientes de un estudio de cohortes de diferentes canceres de mama [37]:
http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52194
Titulo: mRNA-sequencing of breast cancer subtypes and normal tissue [37-39] .
Contenido: este estudio se basa en la secuenciación de RNA mensajero
(mRNA-seq) para realizar un análisis comparativo entre tres diferentes tipos de
cáncer de mama: TNBC, No-TNBC y HER-2+.
Este análisis se centra tanto en la presencia de variantes entre los diferentes
tipos y los valores de expresión.
Diseño: 17 muestras de Cáncer de mama y 3 controles divididas en los
siguientes archivos:
GSM1261016
– TNBC1
GSM1261017
– TNBC2
9
C - Material y Métodos
GSM1261018
– TNBC3
GSM1261019
– TNBC4
GSM1261020
– TNBC5
GSM1261021
– TNBC6
GSM1261022
– Non-TNBC1
GSM1261023
– Non-TNBC2
GSM1261024
– Non-TNBC3
GSM1261025
– Non-TNBC4
GSM1261026
– Non-TNBC5
GSM1261027
– Non-TNBC6
GSM1261028
– HER2-1
GSM1261029
– HER2-2
GSM1261030
– HER2-3
GSM1261031
– HER2-4
GSM1261032
– HER2-5
GSM1261033
– NBS1 Control
GSM1261034
– NBS2 Control
GSM1261035
– NBS3 Control
El base-calling se realizo con el pipeline de Illumina v1.3.2 paired end. Como
alineador usaron TopHat. El variant calling fue SAMTools con la función
mpileup. Para la expresión de los transcritos se uso la herramienta cuffdiff
usando como filtro aquellos transcritos con FPKMs por encima de 0.01. Los
datos están presentados en 20 archivos VCF y 20 archivos GTF donde se
almacenan los datos de los SNPs y los de expresión respectivamente.
Las muestras de cáncer fueron obtenidas de biopsias de pacientes mientras
que los tres controles fueron tomados de diferentes mujeres. No existe relación
familiar entre las diferentes muestras.
10
E - Resultados
D – Resultados
1.- Estudio del arte
El análisis es una parte fundamental del estudio de datos de NGS. La
diferencia entre una gran y una pobre interpretación se basa en que el análisis
de unos resultados comprensibles y fiables. Esto es aun mas importante si
estamos hablando de problemas que presenten un componente genético
importante, como, por ejemplo, el cáncer [16, 21-24, 37].
El tipo de estudio más usado en estos casos es el estudio de cohortes [por
ejemplo, 40, 41]. En este tipo de trabajo, se enfrentan los datos (SNPs,
expresión, etc.) pertenecientes a dos conjuntos o poblaciones de individuos
diferentes. En clínica, las dos poblaciones usadas son: a) Casos, o aquellos
individuos que presentan el problema, característica, enfermedad, etc. y b)
Controles, que son individuos sanos o que no portan la característica o
problema diferencial. De esta comparación, se puede llegar a entender cuáles
son las causas de la enfermedad y desarrollar tratamientos y predictores [4244].
Los datos provenientes de NGS se pueden presentar en diversos formatos
dependiendo del tipo de información que contengan. Para SNPs y variantes el
formato de referencia es el VCF [34].
En este archivo se van a ir enumerando cada uno de los SNPs, Indels, y otros
cambios encontrados en el estudio, indicando siempre el cromosoma donde se
produce, el nucleótido en el que ocurre, el tipo de cambio, en que muestras se
encuentra y, además, información acerca de la calidad del alineamiento, y otras
métricas. La calidad de la secuencia se puede estimar por el valor de Depth
Coverage o DP que indica la "profundidad" de las lecturas. Una mayor
profundidad indica una lectura más fiable y por lo tanto más seguridad con
respecto a la información sobre ese SNP. Este punto es crítico, puesto que
muestras que tengan un DP por debajo de lo que consideremos aceptable
indican que su secuenciación no ha sido del todo satisfactoria y, por lo tanto, no
es fiable trabajar con esos datos.
Pero existen múltiples sesgos en los datos que se obtienen. Algunos SNPs se
heredan juntos, algunas muestras pueden provenir de familiares cercanos,
pueden haber sido mal etiquetadas, etc. Para evitar esto se realizan unos
controles de calidad para encontrar muestras y/o
SNPs que puedan
comprometer los resultados del estudio.
Una vez producido el filtrado y seleccionado los SNPs objeto de estudio el
archivo VCF sigue sin aportar suficiente información útil al usuario. ¿Qué efecto
tiene cada SNP? ¿Cómo se puede relacionar con la enfermedad? ¿Es común?
11
E - Resultados
Las respuestas a todas estas preguntas se encuentran dispersas por
numerosas bases de datos en la red. Esto hace que sea necesario el uso de
anotadores, procesos que recaben la información pertinente a cada SNP de
nuestra muestra en las diferentes bases de datos y la incluyan en el archivo o
fichero que estamos usando, ofreciendo mucha más información al usuario.
Nuestro pipeline o workflow debe incluir, por lo tanto, filtros que ayuden a
depurar los resultados, antes del análisis. De los revisados, hemos decidido
incluir estos:
1 - Depth Coverage.
2 - Análisis de componentes principales de muestras y de SNPs.
3 - Heterocigosidad media y Alelos perdidos.
4 - Análisis de Linkage Desequilibrium de SNPs.
Depth Coverage:
El proceso de filtrado de muestras y SNPS comienza por la calidad del
alineamiento de la secuencia. Esto lo medimos por el Depth Coverage de cada
SNP. El Depth Coverage al que se aspira en los experimentos actuales es de
20 o 30x, según el aparato y técnica usada. Aquellas secuencias que presenten
valores inferiores o muy superiores a lo establecido indican un bajo grado de
calidad y por lo tanto no son fiables.
Para nuestro estudio filtraremos los SNPs dejando solo aquellos que tengan un
DP de 30x hasta 70x, para asegurar la fiabilidad de los datos que usaremos y
disminuir la carga de información que se analizará.
Análisis de componentes principales de muestras y de SNPs:
Otro de los métodos más usados para filtrar tanto muestras como SNPs es el
análisis de componentes principales o PCA, el cual va a aportar la información
acerca de cómo se comportan las diferentes muestras o SNPs en diferentes
"componentes" y permitiendo observar su distribución y detectar aquellas que
tengan un comportamiento anómalo, también denominadas outlaiers [35, 45].
Estos outliers pueden contaminar y sesgar los resultados de modo que han de
ser eliminados del estudio.
Heterocigosidad media y Alelos perdidos:
Existen otros varemos para determinar la calidad de la secuenciación de las
muestras, estos son los niveles de heterocigosidad media y de alelos perdidos
[28, 35].
12
E - Resultados
Los niveles de heterocigosidad, o heterocigosidad media, miden la cantidad de
alelos en heterocigosis en cada muestra. Un nivel muy bajo o demasiado alto
es un indicador de problemas durante la secuenciación o la identificación de los
SNPs.
Los alelos perdidos hacen referencia a aquellas regiones que no han sido
secuenciadas en todas las muestras del estudio. Aquellas muestras que no
presenten información alguna sobre esa región, se consideran que presentan
un "alelo perdido". Un número excesivo de estos en una muestra es indicativo
de que su secuenciación no ha sido del todo óptima de modo que los
resultados que presenta no son fiables.
Análisis de Linkage Desequilibrium de SNPs:
Normalmente los SNPs presentes en una muestra son independientes unos de
otros, es decir se heredan por separado. Pero hay ocasiones que, ya sea por
cercanía u otros motivos, dos o más SNPs no se heredan de manera
independiente, sino que se heredan ligados o "en bloque". Si no se tiene en
cuenta esta posibilidad, los resultados del análisis pueden resultar sesgados.
Teniendo en cuenta esto, es conveniente filtrar los SNPs solo quedándonos con
aquellos que se hereden independientemente del resto, evitando sesgos
posteriores [35].
Una vez realizado el filtrado, tendremos un archivo de texto, en formato VCF
sobre el cual podremos anotar mas información y realizar los análisis
estadísticos para seleccionar aquellos más interesantes para el estudio.
Llegados a este punto, existen dos abordajes a la hora del análisis estadístico,
no excluyentes y normalmente complementarios:
a.- Nivel de Gen
b.- Nivel de SNP
Nivel de Gen:
Hablar de nivel de gen se refiere a poder identificar aquellos genes interesantes
que puedan estar relacionados con la enfermedad o el problema, sea como
marcadores o como causantes de esta.
Esta selección es conocida como Gene Driver Selection. Nuestra herramienta
contara, por lo tanto, con un método de selección de Gene Drivers. Pero para
ello necesitamos una guía o criterio de selección. En la bibliografía existen tres
aproximaciones:
1) Frecuencia de mutación: las mutaciones, en condiciones normales,
se producen al azar en los genes. El acumulo de estas sobre el mismo gen o
13
E - Resultados
región puede producir que, eventualmente, aparezca una que provoque un
cambio profundo en la proteína codificante, desencadenando el problema. Bajo
este contexto los genes que presenten tasas de mutaciones más elevadas de
lo esperado estarían indicando la presencia de una selección positiva por parte
de la enfermedad o proceso y por ende serian candidatos a ser Gene Drivers
[46, 47].
No hay una única aproximación estadística para estudiar este fenómeno. Lo
fundamental es siempre tener el valor de BMR o Background Mutation Rate,
que se define como la tasa de mutación estándar o "normal" del gen o región.
El análisis se resume en comparar las tasas de mutación de cada gen (gMR)
con la BMR y ver si son significativamente diferentes. Lo fundamental de esta
parte es el determinar el BMR, punto en el que hay bastante controversia,
puesto que la tasa de mutación es muy dependiente del individuo, tipo celular,
región y enfermedad [48]. En nuestro estudio la calculamos sobre la población
control que usamos. Resumiendo, vamos a comparar que genes se encuentran
más mutados en nuestros casos que en los controles. Como aproximación
estadística nos hemos basado en la de CaMP o Cáncer Mutation Prevalence
[49], la cual la hemos adaptado para poder calcular el p-valor para cada gen
mediante una distribución binomial acumulada. Esta es una aproximación clara
y sencilla de fácil implementación en R.
2) Impacto Funcional (FI): esta vertiente surgió en 2012 en respuesta a
los problemas que venían asociados a la variabilidad en el numero de
mutaciones entre diferentes estudios y la falta de reproducibilidad de los
resultados [50]. La idea, que define el contexto de este análisis, es que
aquellos genes que presenten mutaciones mas perturbadoras o deletéreas
para la proteína que codifican, seguramente sean causales de la enfermedad o
problema y por lo tanto son candidatos a ser Gene Drivers [50].
En nuestro estudio, vamos a comparar el índice de impacto de las mutaciones
presentes en cada gen con el índice de impacto medio de mutaciones de toda
la población de estudio. De modo que el gen driver se definirá como aquel que
presente un índice de impacto de mutaciones mayor que el índice de impacto
medio de la muestra. Para indicar la gravedad de la mutación, es decir su
índice de impacto, usaremos la puntuación obtenida de CADD [20], que ofrece
una puntuación basada en 63 características diferentes. Presenta dos valores,
uno, crudo, ideal para análisis estadísticos y otro escalado usando la manera
escala phred, ideal para estratificar. Para determinar el FI de cada gen,
podemos usar, o bien el valor medio de las mutaciones de dicho gen, o bien el
su valor máximo. Esta puntuación se compararía mediante un test de muestreo
con reemplazo con el resto de genes de la muestra.
14
E - Resultados
3) ODDS RATIO (OR): es una expresión estadística que se ha estado
usando mucho en estudios poblacionales y epidémicos. Consiste en comparar
el número de individuos que poseen cierta característica y los que no, en las
dos poblaciones del estudio. De modo que permite tener una métrica acerca de
cuan de probable es pertenecer a una población u otra (por ejemplo
sano/enfermo) al poseer esa característica [51-55]. La adaptación que hemos
realizado para nuestro proyecto es la siguiente:
Los SNPs se encuentran tanto en muestras control como muestras caso.
De modo que la característica que usamos es la presencia o no del SNP, es
tener o no el SNP y las dos poblaciones que comparamos son Casos y
Controles.
Esta aproximación permite obtener un valor estadístico de cuán fácil es que la
presencia de un SNP o varios en un gen, hagan que el individuo sufra la
enfermedad (es decir que pertenezca a la población de casos).
4) Expresión Diferencial: a nivel de gen también se pueden encontrar
datos de expresión. Para analizar los datos de expresión en estudios de
cohortes, el método más usado es LIMMA, que indica, para cada gen, el
cambio de expresión entre las diferentes poblaciones y un valor estadístico
asociado a dicho cambio [56]. Aunque, inicialmente fue desarrollado para
microarrays, su uso está muy extendido para comparar las expresiones en
estudios de cohortes de diferente índole. En nuestro estudio, los genes
interesantes serán aquellos que presenten unos niveles de expresión
significativamente superiores o inferiores a la población control.
Como podemos observar, cada aproximación tiene sus ventajas y sus
inconvenientes. Es más, incluso usando los mismos datos, la selección de
genes puede ser completamente diferente según que métrica se use. El uso de
una sola métrica puede llevar a resultados sesgados y parciales, por el
contrario la posibilidad de integrar varias diferentes a la hora de seleccionar los
genes darán lugar a datos más fiables.
Nivel de SNP:
Ahora analizaremos cada SNP por separado. Usaremos las métricas
previamente calculadas de OR su puntación de CADD. Además, usaremos otro
test estadístico para estudiar la relación del SNP con la enfermedad, el
denominado Test de Asociación. Este test, realmente son 5 diferentes, cada
uno basándose en diferentes criterios, pero todos ellos buscan el definir el
cómo de relacionado esta el SNP con la enfermedad. En este punto tambien se
estudia la frecuencia alelica minima (MAF).
15
E - Resultados
Estos dos niveles del análisis pueden darse en cualquier orden, e incluso de
manera independiente. Con estos pasos queda definido el workflow de nuestro
proyecto (Figura 1).
Figura 1: Workflow de los datos del proyecto. Se pueden observar en cada paso que se realizara y como. Al
final todo se integra en Spotfire. Gene driver selection y SNP selection, pueden darse secuencialmente, en el
orden deseado o ser independientes la una de la otra (flecha puntuada), cada una usara unas métricas
analíticas para su selección (flechas azules).
Elección de programas/scripts
Este es un punto sensible, como queremos diseñar un modo accesible y útil
para el análisis de los datos, tenemos que elegir con cuidado que programas
16
E - Resultados
vamos a usar en cada paso para optimizar los tiempos de computación y
resultados.
Ya hemos adelantado que todos los datos serán integrados en la plataforma
de Spotfire [32] de Integromics. El resto de programas elegidos y scripts
desarrollados lo han sido pensando siempre en la utilidad, el resultado que
queremos obtener según nuestro workflow (ver Figura 1), simplicidad y
optimización.
En la sección de Material y Métodos vienen descritos todos ellos así como las
tablas que se obtienen de cada uno. Todos los scripts se encuentran anotados
y comentados, explicando cada una de las partes.
2.- Búsqueda y obtención de datos para elaborar el protocolo y contrastar
resultados.
Existen numerosas bases de datos online que almacenan numerosos estudios
de cohortes de diferentes enfermedades, información de secuenciación de
voluntarios, de pacientes de cáncer, etc. Para nuestro proyecto, lo ideal sería
usar un estudio de cohortes que tenga accesibles los datos de secuenciación
acompañados de datos de expresión para la integración. Como parte de este
trabajo, hemos estado revisando las diferentes bases de datos existentes,
haciendo un pequeño catalogo/resumen sobre qué tipo de información
podemos encontrar en ellas:
1000 Genomes Project [57-59]: esta web presenta numerosos datos sobre
diferentes muestras, pudiendo acceder a los datos en VCF de estudios de
exoma, mRNA, etc.. Son muestras procedentes de donantes voluntarios, no
siguen ninguna pauta de enfermedad/población/etc.
Personal Genome Project [60, 61]: muy similar a la anterior. Donantes de
diferentes tipos ceden muestras para su secuenciación y acceso.
ENCODE [62]: presenta datos de secuenciación realizados sobre poblaciones
celulares. Es la más completa a la hora de datos en formato VCF y de
información adicional.
GEO database [63-65]: es la base de datos del NCBI en la cual se guardan las
muestras y sus datos por estudios y artículos realizados con estos. La ventaja
es que como provienen de estudios ya realizados y publicados, no solo vienen
los datos de las muestras ya preparados para analizar sino que además se
puede estimar la replicación de los resultados.
The Cáncer Genome Atlas [66-68]: si se requieren realizar estudios sobre
cáncer, esta es la base de datos más completa al respecto. Guarda una
17
E - Resultados
cantidad ingente de datos de diferentes tipos de canceres (acceso restringido
en algunos).
Después de buscar entre todas ellas, encontramos los datos de un estudio
sobre Cáncer de Mama almacenados en GEO (ver Material y Métodos).
Siguiendo la línea de pensamiento del articulo original [37], decidimos agrupar
las diferentes muestras de cáncer en una misma población de casos, esta
decisión facilitaba y simplificaba toda la realización del proyecto, al no tener
que estar gestionando los datos por separado. De esta manera nuestro
proyecto se realizará sobre un estudio de cohortes con 17 casos y 3 controles.
Este set de datos fue escogido porque realmente lo queremos hacer es un
concepto de prueba del desarrollo de una herramienta. Aunque los datos no
son los más indicados (no harías este tipo de estudio con datos de mRNA-seq),
aportan todas las ventajas técnicas que necesitamos (Casos/Controles, SNPs y
expresión).
Antes de realizar el análisis de los datos, procedimos a su procesamiento:
1) Fusión de los diferentes ficheros VCF en uno solo usando VCFtools (ver
Material y Métodos).
Después de este paso tenemos un archivo VCF con 193638 SNPs en 20
muestras diferentes. Para simplificarlo más, para agilizar el desarrollo del
prototipo, también eliminamos los SNPs presentes en cromosomas sexuales y
las inserciones muy extensas, quedándonos con 147266 SNPs.
2) Anotación del archivo VCF obtenido y filtrado de este por Depth Coverage
(ver Material y Métodos).
Al final tenemos dos archivos de partida para realizar el workflow de nuestro
proyecto (Figura 2):
1) Archivo VCF anotado con 82717 SNPs. Contiene información sobre el tipo
de mutación que presentan, puntuación de CADD, etc.
2) Archivo de texto con los genes y sus valores de expresión (FKPM) en cada
individuo.
18
E - Resultados
Figura 2: workflow ampliado del proyecto con los programas y scripts a usar. Cada parte tiene sus objetivos
marcados. El usuario seguirá y controlara en todo momento el análisis permitiéndole una mejor interpretación
de los resultados.
19
E - Resultados
Análisis visual en Spotfire:
Con esos dos archivos de partida, procedemos a usar los scripts
correspondientes (Figura 2 y Material y Métodos) y obtener las diferentes tablas
(Anexo Tablas) que cargaremos en Spotfire.
Dentro de Spotfire todas estas tablas se van a relacionar unas con otras
tendiendo puentes y conexiones entre los diferentes tipos de datos (Figura 3).
Figura 3: esquema de la relación entre los diferentes datos. Cada SNP pertenece a un gen, con lo que los
valores de Odds Ratio de cada gen se calculan a partir de sus SNPs. Cada SNP y cada Gen están relacionados
con cada tipo de muestra/población. De este modo todos los datos introducidos y que se calculen pueden
relacionarse con cada una de las partes del estudio, integrándolo todo.
20
E - Resultados
De todas las tablas generadas, estas dos son las que van a permitir la
integración de los datos:
a) Tabla de datos del VCF (Cancer_SNP).
b) Tabla de Muestras-SNPs (SNPMuestras).
Esto se debe a que ambas tienen toda la información genérica de los SNPs; a
que gen pertenecen, que muestras los portan, cuantas en heterocigosis,
cuantas en homocigosis, que efecto tienen, posición, etc..
3.- Filtrado de Muestras y SNPs:
Como dijimos anteriormente (Figuras 1 y 2, Material y Métodos), el primer paso
es filtrar los datos que tenemos. Esto se realizara a dos niveles:
a. Filtrado de muestras por PCA.
b. Filtrado de SNPs por PCA y LD.
Para ello usaremos la información de las siguientes tablas:
a) Tabla de PCA components de las muestras (PCA muestra).
b) Tabla de PCA components de los SNPs (PCA SNP).
c) Tabla de Missingness/Heterozigoseness de PLINK de los SNPs (LD).
d) Tabla de LD de los SNPs (Het/Miss).
a. Filtrado de muestras por PCA (Figura 4):
Figura 4: presentación de la pestaña de filtrado de Muestras.
21
E - Resultados
Las diferentes representaciones son:
1. Scatterplot 3D (Figura 5) representando en los tres ejes los tres
primeros componentes principales del análisis de las muestras
realizado. La representación 3D permite localizar que elementos se
alejan más de la tendencia del conjunto, de manera más efectiva.
Cada punto representa una de las muestras del estudio, con el
numero de SNPs asociados a cada una, así como a la población a la
cual pertenece. Cada tipo de muestra tiene un forma y un color
diferente. El tamaño representa el numero de SNPs y la forma la
población. Esto permite observar si las muestras de la misma
población se distribuyen de la misma manera, así como si todas
presentan un numero parecido de SNPs. Distribuciones extrañas o
números anormalmente bajos de SNPs son indicativos de problemas
en el proceso de secuenciación. En nuestro caso, podemos observar
que la muestra Her2-5 no solo tiene un numero anormalmente bajo
de SNPs (aproximadamente 5000 frente a una media de 20000 del
resto de Her2), sino que se distribuye junto a las del tipo TNBC.
Figura 5: PCA análisis 3D, cada eje representa una de las componentes principales. Cada
población está representada por una forma/color y el tamaño de las figuras es proporcional al
número de SNPs que presentan.
22
E - Resultados
2. Heatmap jerárquico (Figura 6), esta representación se deriva de la
anterior complementándola. Las celdas representan los valores de
las tres primeras componentes principales, agrupando las diferentes
muestras según estos. Esta representación permite ver, de manera
más fina, el comportamiento de cada muestra, permitiendo observar
aquellas que se comportan como las de una población a la que no
pertenecen. La distribución ideal que se espera con el filtrado será
aquella que agrupe juntas las muestras de cada población. En
nuestro set de datos vemos que hay varias muestras que se agrupan
en otras poblaciones (TNBC-1, nonTNBC-3), y que al eliminarlas,
tenemos la agrupación ideal que esperamos. Esta representación se
realizo con la herramienta de Hierarchical Cluster de Spotfire
Figura 6: Heatmap de los valores medios de los PCA de las muestras. En esta representación ya
han sido filtradas alcanzándose la distribución correcta.
3. La tercera representación es un scatterplot que enfrenta los valores
de alelos perdidos contra los de heterocigosidad media
(Missingness/Heterozigoseness) (Figura 7). Hemos establecido como
limites para considerar valores no aceptables, 2 veces la desviación
típica. Nuestros datos no presentan ninguna muestras con valores no
aceptables así que no eliminamos ninguna por este criterio.
23
E - Resultados
Figura
7:
representación
del
ratio
de
alelos
perdidos
vs
la
heterocigosidad
media
(Missingness/Heterozigoseness). La lineas claras representan los límites establecidos por dos veces la
desviación típica de cada eje. Todas las muestras se sitúan en el 0 de alelos perdidos debido al tratamiento de
los datos (ver Material y Métodos).
4. La última representación es una tabla con la información de cada
SNP (Figura 8). Está relacionada de tal manera que los SNPs que
presenta vienen filtrados por las selecciones que hagamos en el
resto de las representaciones.
Figura 8: Tabla-resumen de los datos de los SNPs. Solo muestra aquellos que pertenezcan a las
muestras seleccionadas.
24
E - Resultados
b. Filtrado de SNPs por PCA y LD (Figura 9):
Figura 9: presentación de la pestaña de filtrado de SNPs.
Las diferentes representaciones son:
1. P
i
e
c
h
a
r
t
representando el % de SNPs que considera en desequilibrio de
ligación (LD) e independientes (Figura 10). Esta calculado para 5
tresholds diferentes (Material y Métodos) el usuario puede elegir
cual usar, siendo el 0.1, el más restrictivo hasta 0.8, el más
permisivo.
Figura 10: Piechart para el análisis de LD. El usuario ve que % de SNPs considera independientes y puede
elegir el treshold de selección.
25
E - Resultados
2. Scatterplot 3D de componentes principales (Figura 11) de manera
similar al de las muestras, pero, en este caso para los SNPs. El color
depende del cromosoma en el que se encuentren. Además se detalla
la información de cada SNP indicando el gen en el que esta y el
número de casos y controles que lo presentan.
Figura 11: Scatterplot 3D del análisis PCA de SNPs con los tres primeros componentes principales.
3. Tabla con la información de los SNPs como la del apartado anterior
(Figura 9).
En el apartado de selección por LD, solo vamos a elegir los SNPs
representativos, que el programa a determinado que son independientes, para
la realización del test de asociación. Esto permite realizar un test menos
sesgado y computacionalmente más ligero. Más adelante los SNPs que no
fueron usados en el test se relacionaran con los que si fueron usados.
Una vez realizados el filtrado las tablas, con los SNP y muestras
seleccionadas, se usaran para los diferentes cálculos estadísticos propuestos
anteriormente (asociación, frecuencia de mutación, etc. ver Material y
Métodos).
4.- Selección de Gene Drivers (Figura 12):
Ahora entramos en el análisis propiamente dicho de los datos. Las primeras
representaciones van a ir encaminadas a determinar los denominados Gene
26
E - Resultados
Drivers, o genes causales de la enfermedad. Para ello usaremos estas tres
métricas:
a. Frecuencia de mutaciones (FM).
b. Impacto Funcional (FI).
c. Expresión Diferencial.
Las tablas usadas son:
a. Tabla de Gene Scores (Cáncer Gene Scores).
b. Tabla de expresión diferencial (Expresión Diferencial).
Figura 12: presentación de la pestaña de selección de Gene Drivers. El usuario puede filtrar los resultados
según la ruta metabólica. El cuadro amarillo ofrece información acerca de que datos y que programas han sido
usados.
Las diferentes representaciones son:
1. Scatterplot que enfrenta los p-valores (escala logarítmica) de la
frecuencia de mutación contra el factor de impacto, calculado
según el valor máximo de CADD (Figura 13 izquierda, ver
Material y Métodos). Se ha marcado como limite el p-valor 0.05.
Esta representación permite al usuario elegir los genes por
cualquiera de los dos criterios, o ambos al unísono, dando la
posibilidad de un análisis multidimensional.
27
E - Resultados
2. Volcano plot que enfrenta los valores de cambio de expresión o
fold change contra el p-valor del test de expresión diferencial
(escala logarítmica) (Figura 13 derecha). El test se ha realizado
entre los casos y controles (Material y Métodos). Los colores
definen una sobreexpresión significativa en casos (rojas), o un
silenciamiento significativo (azules) o bien, presenten un cambio
no significativo (gris). Esta representación y la anterior están
relacionadas de modo que al seleccionar los genes en una, se
seleccionan en la otra, integrando así las tres métricas y
permitiendo un análisis multidimensional (Figuras 14A y B).
Figura 13: Scatterplot con los FI y FM, volcano plot para la expresión diferencial y
Scatterplot para el Odds Ratio (OR). Las líneas discontinuas representan los limites
estadísticos (p-valor 0.05) para indicar si los datos son significativos o no.
3. Scatterplot que muestra, para cada gen seleccionado en las
tablas anteriores, su OR medio en escala logarítmica (Figura 14 A
y B). Los genes están marcados por flechas indicando si están
sobreexpresados (flecha hacia arriba) o silenciados (hacia abajo),
en los casos. Esta representación añade otra dimensión mas a la
hora de determinar qué genes son los Gene Drivers.
28
E - Resultados
Figura 14: ejemplos de relación entre las visualizaciones. Al seleccionar los genes por FI y FM, estos se
marcan en el volcano plot y podemos ver su OR (A), del mismo modo, si los seleccionamos primero en el
volcano, se seleccionan en el scatterplot y en el OR.
4. Tabla con la puntuación de CADD score máxima y el numero de
SNPs por Gen en cada tipo poblacional (Figura 15A y B
izquierda). Esto permite al usuario la información de cada gen
desglosada según la población a la que pertenecen las muestras.
5. Tabla con el valor de fold change de cada gen en cada tipo de
población (Figura 15A y B derecha).
Estas representaciones permiten al usuario un acercamiento multidimensional
en la determinación de los Gene Drivers.
29
E - Resultados
Figura 15: Tabla con los valores del valor máximo de CADD y numero de SNPs por gen, junto a la tabla con los
valores de Fold Change por gen y población (A). Una vez seleccionados algunos genes en el volcano plot y/o
en el scatterplot, estos son filtrados en las tablas, solo mostrando la información de los seleccionados (B).
5.- Análisis de asociación y selección de SNPs.
A continuación se va a proceder a analizar y escoger aquellos SNPs que sean
más relevantes o estén más relacionados con la enfermedad o problema que
estamos investigando. Esta fase consta de dos partes:
c. Representación de los resultados de los test de asociación de los
SNPs en el genoma completo.
d. Representación de los resultados de los test de asociación y de OR
de los SNPs asociados a cada gen en detalle.
Hay que recordar que no se usaron todos los SNPs para los test de asociación,
solo aquellos que tenían una herencia independiente. En la segunda fase de
esta parte, se podrán estudiar al tiempo tanto los SNPs testeados como
aquellos que no lo fueron, relacionados por el gen al que pertenecen.
Con este fin usaremos las siguientes tablas:
a. Tabla de test de asociación (Cancer_SNP_Association).
b. Tablas de citobandas (ver Material y Métodos).
c. Tablas de estructura de genes y transcritos (ver Material y Métodos).
30
E - Resultados
a. Representación de los resultados de los test de asociación
de los SNPs en el genoma completo (Figura 16):
La representación es un scatterplot del tipo Manhattan Plot. El genoma se
encuentra dividido en pequeñas ventanas, cada una representando un
cromosoma. En el eje de las X de cada uno se encuentra la posición y en el eje
de las Y, el p-valor, en escala logarítmica, de los test de asociación. Además se
ha incluido el limite estándar de valor significativo (p < 0.05). Asi mismo, en el
eje de la X están representadas las estructuras de cada cromosoma en forma
de citobandas. Cada SNP viene representado por un Piechart que indica que
proporción de casos (rojo), controles (azul claro) tienen presente el SNP y que
proporción total de muestras (gris) no lo tienen. En este punto el usuario puede
seleccionar tanto los resultados del test que elija (Figura 16A y B), asi como
dos opciones de filtrado, denominadas Positive Selection y Negative
Selection. La primera escoge a aquellos SNPs que se encuentren presentes
en una mayor proporción de controles que de casos. Por el contrario, la
segunda escoge a los SNPs que se encuentren en una mayor proporción de
casos que de controles. Todo ello teniendo en cuenta el número total de
muestras de cada población (Figura 16A y B). Esta opción de filtrado es muy
interesante puesto que aquellos SNPs elegidos por la Positive Selection
pueden sugerir protección, mientras que los provenientes de la Negative
Selection sugieren causalidad.
31
E - Resultados
Figura 16: Representacion tipo Manhatan Plot del test de asociacion de los SNPs. Se encuentran separados por
cromosomas, indicando las citobandas presentes. La primera representacion es una seleccion positiva del test
genotipico (A). La segunda es negativa del test cochran-armitage trend (B).
32
E - Resultados
b. Representación de los resultados de los test de asociación y
de OR de los SNPs asociados a cada gen en detalle (Figura
17):
Las representaciones son:
1) Manhattan Scatterplot, pero ahora en vez de presentar todo el
genoma, los cromosomas están separados en paneles, de modo
que el usuario puede ver en detalle que cromosoma es el que le
interesa (Figura 17). Los datos de esta representación son
filtrados por los elegidos en el anterior punto.
2) Scatterplot (Figura 17A y B, izquierda), que enfrenta la posición
en el gen de los SNPs contra el valor de Odds Ratio (OR). Esta
representación es la que relaciona los SNPs no usados en los test
de asociación con los que si lo fueron. Una vez elegido un SNP
por su valor en el test de asociación, esta representación muestra
el gen completo con su estructura (Figura 17B), además de todos
los SNPs del estudio que se encuentran asociados a dicho gen.
De este modo el usuario, una vez determinado que SNP presenta
una asociación buena con el problema, puede elegir aquel o
aquellos SNPs que presenten un OR alto o estén en mayor
proporción en casos (siguientes representaciones).
3) Las otras dos representaciones tienen la misma información de
diferentes formas. La primera (Figura 17A y B, derecha-arriba) es
un stacked barplot para cada SNP seleccionado indicando su
distribución por colores en cada tipo de muestra. La otra
representación (Figura 17A y B, derecha-abajo), que muestra
numéricamente el mismo dato.
Con estas representaciones el usuario no solo ve que SNPs tienen un valor
interesante en los test de asociación, sino todos los SNPs asociados a los
elegidos y la información sobre ellos. Esto evita una pérdida masiva de
información y un análisis más preciso de los datos. Al ser este trabajo una
prueba de concepto no se ha hecho un análisis exhaustivo de los SNPs de
nuestro set de datos, estando más interesados en ver como se visualizan los
datos y que información transmiten.
33
Figura 17: Manhattan Scatterplot con el detalle de los test de asociación. En caso de no elegir ningún SNP en
particular, no se observar ni la distribución ni el OR (A). Una vez elegido uno o varios, se pueden estudiar
todos los SNP relacionados con este, mirar su localización en la estructura del gen y la distribución en las
poblaciones (B).
Con estas representaciones, la de Gene Drivers y la de SNP selection, el
usuario puede seleccionar, de manera independiente aquellos Genes o SNPs
que sean de interes para su estudio. Además, con los filtros, puede acotar los
datos de manera que ahorre tiempo y esfuerzo en el análisis. Otra ventaja que
presenta es que ambas selecciones pueden ser realizadas en el orden
deseado.
6.- Integración y Análisis de información adicional.
a. Integración y Análisis de datos de pathways metabólicos.
34
E - Resultados
b. Integración y Análisis de datos de agrupación y clustering.
El proceso de integración es el pilar básico de este proyecto. En las
visualizaciones anteriores ya se ha conseguido integrar todos los datos sobre
los genes, los SNPs y la expresión diferencial.
Pero para conseguir un análisis más exhaustivo, completo y eficaz, toda
información es poca. Para complementar todo lo anterior, hemos incluido datos
acerca de los pathways metabólicos y de clustering de genes.
a. Integración y Análisis de datos de pathways metabólicos (Figura
18):
Figura 18: pestaña de análisis de pathways, usando la opción de filtrado
El usuario puede filtrar los datos según las rutas o pathways que desee antes
de empezar el análisis. Una vez escogida/s procedemos con las
visualizaciones:
1) La primera representación tabla que contiene las rutas y que
genes presentan SNPs en cada tipo de caso. De este modo se
puede observar que genes están afectados según la población y
estimar las diferencias (Figura 18 y 19 izquierda-arriba).
2) La siguiente es un barplot donde se indica el Fold Change global
de cada ruta. Cada ruta presenta dos barras, una roja (positiva) y
una azul (negativa) que indican el grado de sobreexpresión y de
silenciamiento global de la ruta en los casos (Figura 18 y 19
izquierda-abajo).
35
E - Resultados
3) Las otras dos representaciones son barplots que muestran, en
columnas separadas según la población, cuantos genes de cada
ruta están mutados (Figura 18 y 19 derecha-arriba) y cuantos
SNPs presenta cada ruta (Figura 18 y 19 derecha-abajo). Estas
dos representaciones, en conjunción con las anteriores, permiten
al usuario ver cuáles son las rutas más afectadas en nuestro
estudio.
Todas estas representaciones están relacionadas con las anteriores de análisis
de genes y de SNPs, de esta manera, los genes o SNPs que elijamos en ellas,
filtraran los datos de las rutas en estas (Figura 19).
Figura 19: análisis de pathways filtrado por el análisis de Gene Driver. En este caso se escogieron aquellos
genes con la expresión más elevada en casos que en controles.
b. Integración y Análisis de datos de agrupación y clustering
(Figura 20).
Aunque el análisis de clustering no es una característica de obligado estudio, el
poder agrupar los genes o SNPs en grupos según su parecido en su
comportamiento es muy útil puesto que puede aportar más información al
usuario de la que se podría ver a simple vista.
Lo primero es que el usuario puede elegir qué tipo de algoritmo quiere usar
para la clusterización, kmeans o clara. Una vez escogido se procede con las
visualizaciones:
1) Scatterplot 3D (Figura 20 arriba) que enfrenta las tres variables
seleccionadas para la clusterización. En nuestro caso escogimos
36
E - Resultados
la puntuación máxima de CADD para cada gen, el Fold Change
de la expresión diferencial y su Odds Ratio (OR), puesto que
resumen las 3 dimensiones que hemos estado usando para la
selección de Gene Drivers. Cada gen esta coloreado según al
clúster al que pertenezcan. Esta visualización permite observar la
distribución de los genes y los clústeres en relación a nuestras
tres variables, permitiendo definir las características de cada
grupo.
2) Barplot que muestra cuantos SNP hay presentes en cada clúster.
De modo que podemos ver cuál es el clúster que agrupa mas
SNPs en el estudio (Figura 20 izquierda-abajo).
3) Las otras dos representaciones son dos tablas cruzadas (Figura
20 derecha-abajo) las cuales muestran cuantos SNPs tiene cada
gen en cada grupo del clúster (tabla superior) y cuantos SNPs
tiene cada ruta metabólica en cada grupo del clúster (tabla
inferior). Los nombres de los clústeres son artificiales, creados por
nosotros al ver las características de cada clúster, siendo
meramente descriptivos.
Como en el caso de las visualizaciones de las rutas metabólicas, las
visualizaciones de la clusterización están ligadas a las del análisis de genes y
de SNPs. De este modo todos los datos de clusterización se filtraran según lo
que se elija en las anteriores.
37
E - Resultados
Figura 20: análisis de clusterización de los genes de la muestra.
7.- Análisis del set de datos usado.
Para probar la potencia de nuestro prototipo, probamos a analizar el set que
hemos usado para desarrollarlo y comparar los resultados obtenidos con los
del artículo original [37]. Debido a problemas de tiempo y trabajo, puesto que el
foco del proyecto consistió en realizar el prototipo, el análisis fue bastante
superficial, de modo que los resultados que obtuvimos son muy parciales.
Decidimos seleccionar los genes de manera "bidimensional", usando como
criterios de selección el índice de impacto (FI) y la frecuencia de mutación (FM,
Figura 14A). Este grupo de genes, se comparo con la base de datos de
COSMIC [18], encontrándose íntimamente relacionados con el cáncer de
mama. Estos genes se encuentran mutados, como mínimo, en el 2% de los
canceres, presentando variaciones en el número de copias (CNV) en
aproximadamente el 15-25% de los casos (Tabla 1). Lo interesante, es que
todos ellos pertenecen a rutas de reparación de DNA, RNA, transcripción y
crecimiento de tejidos, especialmente el adiposo.
Además, podemos ver que tres de esos genes, LPR8, RCOR3 y MEF2A
presentan un Odds Ratio (OR) muy elevado, lo que sugiere una posible
relación con el desarrollo del cáncer.
Gen
% SNP presentes
% SNV presentes
38
E - Resultados
BRWD
2%
15%
C10orf137
1%
20%
FTO
2%
25%
MEF2A
2%
10%
INPP4B
1%
17%
KiAA1370
2%
21%
TTC8
1%
30%
GL5
2%
16%
LRP8
2%
30%
RCOR3
1%
62%
DYNCRB1
1%
32%
RBM12B
2%
54%
CLTC
2%
33%
Tabla 1: porcentajes de presencia de SNP y de CNV en los genes seleccionados según COSMIC.
Analizando las rutas en las que se encuentran implicados encontramos que
engloban: señalización celular e internalización de moléculas señalizadores y
colesterol (LRP8), activación de sistemas de respuesta y reparación ante stress
(MEF2A) y represión de transcripción (RCOR3). Todas estas rutas son muy
importantes en el desarrollo y crecimiento de los tejidos y se encuentran
implicadas en el cáncer.
Siguiendo con el análisis, quisimos comparar los resultados obtenidos con los
del articulo original de los datos [37]. Así pues, comparamos los resultados que
obtuvimos de expresión diferencial, con las herramientas de Omics Office
incluidas en Spotfire de Integromics (LIMMA, ver Material y Métodos), con los
presentados en el artículo. La coincidencia de resultados, es decir la
semejanza de genes que consideran sobre-expresados o silenciados se eleva
hasta casi el 97% (96,77%) indicando una gran reproducción. El coeficiente de
correlación era solo del 50%, debido a que los valores de cambio de expresión
asignados a cada gen, variaban bastante entre los dos estudios, seguramente
debido a los algoritmos usados (Figura 21).
39
E - Resultados
Figura 21: resumen del estudio comparativo entre los resultados del articulo y nuestro proyecto. El análisis de
la expresión diferencial fue llevada a cabo por la herramienta de "LIMMA" integrada en el paquete de
OmicsOffice Tools de Integromics.
40
E - Discusión de Resultados
E - Discusión de Resultados.
Nuestro objetivo final era elaborar un programa u aplicación que permitiera al
usuario monitorizar y controlar todo el proceso de análisis terciario de datos de
NGS, es decir partiendo de los archivos VCF o GTF, además de integrarlo con
otro tipo de informaciones adicionales, que le permitan obtener unos datos
útiles para una interpretación satisfactoria.
Al final de este trabajo, hemos conseguido desarrollar un prototipo que integra
tanto datos de expresión como de SNPs, añadiendo datos sobre la estructura
de genes, cromosomas, rutas y clustering. Además, el usuario esta en todo
momento visualizando y controlando cada una de las fases del análisis.
Búsqueda y tratamiento de datos
La búsqueda de datos ocupo una parte importante de este proyecto. Como
nuestro objetivo era integrar diferentes tipos de información en un mismo
análisis necesitábamos encontrar sets de datos muy específicos, que
contuvieran más de un tipo de información para las mismas muestras.
Debido a las limitaciones de tiempo y el objetivo de poder llegar a desarrollar el
prototipo, se buscaron los set de datos que requirieran el menor tiempo de
procesado y presentasen varios tipos de información.
El set elegido fue el realizado para un estudio de cáncer de mama del 2012 [37,
ver Material y Métodos]. Este presenta datos tanto de variantes alélicas como
de expresión, y al estar en formato VCF no requiere ningún paso previo. Estas
ventajas lo hacían perfecto para el desarrollo del prototipo, a pesar de que se
trataba de mRNA-seq en vez de DNAseq que sería lo ideal.
Al trabajar con este set, tuvimos que fusionar los diferentes archivos VCF en
uno solo (ver Material y Métodos y Resultados), decidiendo, de manera
arbitraria, que los SNPs que no se encontrasen en determinadas muestras, por
defecto, tendrían el alelo wild type. Esto, en un estudio serio, no se debería
hacer puesto que realmente no se sabe si es que esos SNPs, no están en esas
muestras o es que esa región no se ha secuenciado. Pero para el desarrollo de
la plataforma, esto no tiene mayor influencia y, además, simplifica y agiliza el
procesado. Esto explica la distribución de las muestras en la línea del valor 0
en la representación del filtrado por proporción de alelos perdidos y
heterocigosidad (Figura 7).
Otro dato que nos sorprendió fue el hecho que, con el filtrado de Depth
Coverage (DP) nos quedásemos con menos de la mitad de los SNPs. Este
hecho, nos indicaba que seguramente la arbitrariedad de la fusión edulcoro los
datos reales del set.
41
E - Discusión de Resultados
En general, todo los procesos de cálculo, que realizan los scripts, fueron
bastante rápidos, pudiendo obtener todas las visualizaciones en menos de 11
horas. Las partes que consumieron más tiempo fueron en las que intervenían
los muestreos con reemplazo. Cuando se pula mas este prototipo, se puede
introducir paralelización en estos procesos lo que disminuiría el tiempo total de
computación.
Otro de los puntos interesantes, es la elección de la puntuación de CADD [20]
para medir el factor de impacto (FI). A pesar de que lo habitual es realizar la
media de varias anotaciones (SIFT; PolyPhen, MutationAdvisor), el ajustar los
valores para que sean sumables, es cuanto menos, difícil y muy interpretable.
En cambio CADD nos ofrece un valor que agrupa varias características; pero
hay que tener en cuenta, que CADD, es un medidor del efecto deletéreo del
cambio, de modo que el FI que ofrece no tiene por qué estar relacionado con la
enfermedad.
A pesar que se analizaron como una sola población los diferentes tipos de
cáncer de mama del set, en las visualizaciones sus datos son de nuevo
desglosados permitiendo observar las características propias de cada tipo
(Figuras 12, 17 y 18).
Proceso de Análisis de los datos
Uno de los puntos más fuertes de este análisis se encuentra en la selección de
Gene Drivers. Como se ha comentado antes, la mayoría de las investigaciones
se basan en una sola característica o dimensión lo que puede provocar sesgos.
Esto queda de manifiesto en nuestro proyecto, debido a que, como podemos
ver en la Figura 14, si seleccionamos los genes por FI y FM, observamos que
los elegidos no presentan una expresión diferencial entre casos y controles. En
cambio si elegimos los que se encuentran sobreexpresados en casos, solo 2
de ellos comparten un FI o FM significativo. Esto demuestra la existencia un
problema grave en el análisis de datos de variantes y como nuestro programa,
gracias a la integración de diferentes métricas, lo solventa.
Otro de los puntos clave de nuestro proyecto se centra en la selección de
SNPs. Al realizar filtrados de SNPs según desequilibrios de ligamiento (LD),
nos quedamos con una pequeña parte del total (por ejemplo, usando el
treshold de 0.2 solo nos quedamos con 12683 SNPs, una sexta parte del total).
La duda que surge siempre es si esos SNPs, que van a ser usados para el test
de asociación, son los más indicados o los más interesantes para la
investigación que se está llevando a cabo.
Nuestro proyecto, da una solución a esto, gracias relacionar todos los SNPs
presentes en el set de datos con el gen al que pertenecen. Esto se traduce en
42
E - Discusión de Resultados
que cuando se elige un SNP en el Manhattan Plot (Figura 17), en la
visualización adyacente (Figura 17) se pueden ver todos los SNPs que se
encuentran en el mismo gen, fueran discriminados o no en el análisis de LD.
Esto, junto a la métrica de OR y la estructura del gen que acompaña la
visualización, permite al usuario elegir el o los SNP/s que pueda/n ser más
interesante/s para cada gen en su estudio, De esta manera, el usuario puede
elegir el SNP que le parezca a el más interesante o importante, no perdiendo
ninguna información al respecto. En el futuro, cuando este prototipo se
desarrolle mas, esta solución se puede afinar, relacionando los SNPs en
grupos, en los cuales se determina cual ha sido elegido como independiente y
se identifican los considerados dependientes de este. De modo que al
seleccionar un SNP según el resultado del test de asociación, te muestre todos
los que están en desequilibrio de ligamiento con él, no solo los asociados al
mismo gen.
Hemos encontrado un fallo en la visualización de la estructura de los genes en
la figura 17. Los datos son de mRNA-seq de modo que todos los SNPs,
deberían pertenecer a regiones exónicas. Como la anotación de las estructuras
se realizo con RefSeq, esta no incluye todas las formas alternativas de
transcrito de cada gen ni pseudogenes o aquellos genes que estan siendo
estudiados en el momento. Además, también puede deberse al "ruido
transcripciones", donde puede ocurrir un cierto nivel de transcripción basal
aleatoria en diferentes genes o regiones, que no tienen por qué tener una
relevancia biológica.
Este prototipo inicial, está bastante optimizado para un determinado tipo de
datos y para los que presenta el set usado en su desarrollo, sobretodo en la
parte de clusterización y de expresión diferencial. Con más trabajo y
refinamiento, esta herramienta se mejorara para facilitar el uso de datasets
diferentes.
Análisis del set de datos
Para demostrar las ventajas del uso de una plataforma visual de exploración,
probamos a analizar el set que hemos usado para su desarrollo.
A pesar de que fue un estudio muy parcial, la selección de Gene Drivers fue
muy interesante, porque conseguimos distinguir varios genes (Tabla 1) con una
gran influencia en el cáncer de mama, además de ser comunes a todos los
tipos de este cáncer. Estos genes, de haber usado solo un criterio de selección,
como, por ejemplo, la expresión diferencial, no habrían sido escogidos. Esto
pone de manifiesto la potencia y utilidad de nuestras visualizaciones y los
acercamientos multidimensionales en los análisis de genes y SNPs. No solo
43
E - Discusión de Resultados
eso, gracias al resto de informaciones que ofrece nuestro prototipo, como Odds
Ratio, pathways, etc. Una vez elegidos los genes, podemos ver cuales pueden
estar más relacionados con el cáncer, que pathways se encuentran afectados y
como lo están; pudiendo desglosar esta información según el tipo de cáncer al
que pertenecen. Todos estos datos, en manos de un investigador competente
agilizan y permiten una interpretación exitosa.
Resumiéndolo todo, nuestro prototipo no solo reproduce los resultados ya
existentes, sino que, además, arroja datos nuevos, coherentes y fiables que
permiten una mejor y más profunda interpretación de los datos de este set.
44
F - Conclusiones
F - Conclusiones
A la vista del trabajo realizado y los resultados obtenidos, podemos afirmar que:
1) Hemos cumplido todos los objetivos que nos habíamos propuesto.
Desde una actualización de los procesos y pipelines que se usan para el
análisis de hasta el desarrollo de la herramienta de análisis e integración.
2) Hemos desarrollado una herramienta intuitiva, gracias a las
representaciones graficas, que permite al usuario, sin necesidad de tener
grandes conocimientos de estadística, controlar el análisis paso a paso.
3) Hemos conseguido integrar con éxito datos de diferentes fuentes,
consiguiendo obtener resultados que superan con creces a la mera suma de
las informaciones, que individualmente, arrojan.
4) Demostramos que un análisis multidimensional de los datos es mucho
más coherente y menos sesgado que los análisis unidimensionales basados en
una sola característica.
5) Conseguimos reproducir los resultados de otros trabajos con el mismo
set de datos, añadiendo nuevas informaciones y aproximaciones.
Como apunte final, hay que decir que esta herramienta solo es un prototipo, el
cual será refinado y automatizado para permitir su uso repetido con diferentes
tipos de datos.
Este trabajo es un ejemplo perfecto de prototipo que podría desarrollarse más
adelante como un producto comercial en Integromics.
45
G - Bibliografía
G - Bibliografía
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
Ansorge, W.J., Next-generation DNA sequencing techniques. N Biotechnol,
2009. 25(4): p. 195-203.
Lander, E.S., Initial impact of the sequencing of the human genome. Nature,
2011. 470(7333): p. 187-97.
Hancock-Hanser, B.L., et al., Targeted multiplex next-generation sequencing:
advances in techniques of mitochondrial and nuclear DNA sequencing for
population genomics. Mol Ecol Resour, 2013. 13(2): p. 254-68.
Chu, Y. and D.R. Corey, RNA sequencing: platform selection, experimental
design, and data interpretation. Nucleic Acid Ther, 2012. 22(4): p. 271-4.
Manolio, T.A., Genomewide association studies and assessment of the risk of
disease. N Engl J Med, 2010. 363(2): p. 166-76.
Frayling, T., Genome-wide association studies: the good, the bad and the ugly.
Clin Med, 2014. 14(4): p. 428-31.
Kundu, S., et al., Estimating the predictive ability of genetic risk models in
simulated data based on published results from genome-wide association
studies. Front Genet, 2014. 5: p. 179.
Moutsianas, L. and A.P. Morris, Methodology for the analysis of rare genetic
variation in genome-wide association and re-sequencing studies of complex
human traits. Brief Funct Genomics, 2014.
Bashiardes, S., et al., Direct genomic selection. Nat Methods, 2005. 2(1): p. 639.
Choi, M., et al., Genetic diagnosis by whole exome capture and massively
parallel DNA sequencing. Proc Natl Acad Sci U S A, 2009. 106(45): p. 19096101.
Ziller, M.J., et al., Charting a dynamic DNA methylation landscape of the
human genome. Nature, 2013. 500(7463): p. 477-81.
Stankiewicz, P. and J.R. Lupski, Structural variation in the human genome and
its role in disease. Annu Rev Med, 2010. 61: p. 437-55.
Pinto, D., et al., Functional impact of global rare copy number variation in
autism spectrum disorders. Nature, 2010. 466(7304): p. 368-72.
Rapaport, F., et al., Comprehensive evaluation of differential gene expression
analysis methods for RNA-seq data. Genome Biol, 2013. 14(9): p. R95.
Pearson, T.A. and T.A. Manolio, How to interpret a genome-wide association
study. JAMA, 2008. 299(11): p. 1335-44.
Kwon, S.M., et al., Perspectives of integrative cancer genomics in next
generation sequencing era. Genomics Inform, 2012. 10(2): p. 69-73.
Hawkins, R.D., G.C. Hon, and B. Ren, Next-generation genomics: an
integrative approach. Nat Rev Genet, 2010. 11(7): p. 476-86.
Bamford, S., et al., The COSMIC (Catalogue of Somatic Mutations in Cancer)
database and website. Br J Cancer, 2004. 91(2): p. 355-8.
Croft, D., et al., Reactome: a database of reactions, pathways and biological
processes. Nucleic Acids Res, 2011. 39(Database issue): p. D691-7.
Kircher, M., et al., A general framework for estimating the relative pathogenicity
of human genetic variants. Nat Genet, 2014. 46(3): p. 310-5.
Selinski, S., Urinary bladder cancer risk variants: recent findings and new
challenges of GWAS and confirmatory studies. Arch Toxicol, 2014. 88(7): p.
1469-75.
46
G - Bibliografía
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
Lewis, A. and I. Tomlinson, Cancer. The utility of mouse models in post-GWAS
research. Science, 2012. 338(6112): p. 1301-2.
Bensen, J.T., et al., Genetic polymorphism and prostate cancer aggressiveness:
a case-only study of 1,536 GWAS and candidate SNPs in African-Americans and
European-Americans. Prostate, 2013. 73(1): p. 11-22.
Dai, J., et al., GWAS-identified colorectal cancer susceptibility loci associated
with clinical outcomes. Carcinogenesis, 2012. 33(7): p. 1327-31.
Kristensen, V.N. and A.L. Borresen-Dale, SNPs associated with molecular
subtypes of breast cancer: on the usefulness of stratified Genome-wide
Association Studies (GWAS) in the identification of novel susceptibility loci. Mol
Oncol, 2008. 2(1): p. 12-5.
McKenna, A., et al., The Genome Analysis Toolkit: a MapReduce framework for
analyzing next-generation DNA sequencing data. Genome Res, 2010. 20(9): p.
1297-303.
Zhu, P., et al., OTG-snpcaller: an optimized pipeline based on TMAP and GATK
for SNP calling from ion torrent data. PLoS One, 2014. 9(5): p. e97507.
Renteria, M.E., A. Cortes, and S.E. Medland, Using PLINK for Genome-Wide
Association Studies (GWAS) and data analysis. Methods Mol Biol, 2013. 1019:
p. 193-213.
Purcell, S., et al., PLINK: a tool set for whole-genome association and
population-based linkage analyses. Am J Hum Genet, 2007. 81(3): p. 559-75.
Xing, E.P., et al., GWAS in a box: statistical and visual analytics of structured
associations via GenAMap. PLoS One, 2014. 9(6): p. e97524.
Gorenstein, J., et al., Reducing the multidimensionality of high-content
screening into versatile powerful descriptors. Biotechniques, 2010. 49(3): p.
663-5.
Kaushal, D. and C.W. Naeve, Analyzing and visualizing expression data with
Spotfire. Curr Protoc Bioinformatics, 2004. Chapter 7: p. Unit 7 9.
Kaushal, D. and C.W. Naeve, An overview of Spotfire for gene-expression
studies. Curr Protoc Hum Genet, 2005. Chapter 11: p. Unit 11 9.
Danecek, P., et al., The variant call format and VCFtools. Bioinformatics, 2011.
27(15): p. 2156-8.
Zheng, X., et al., A high-performance computing toolset for relatedness and
principal component analysis of SNP data. Bioinformatics, 2012. 28(24): p.
3326-8.
Pruitt KD, et al., RefSeq: an update on mammalian reference sequences. Nucleic
Acids Res, 2014. 1(42): p. 756-763.
Eswaran, J., et al., Transcriptomic landscape of breast cancers through mRNA
sequencing. Sci Rep, 2012. 2: p. 264.
Eswaran, J., et al., RNA sequencing of cancer reveals novel splicing alterations.
Sci Rep, 2013. 3: p. 1689.
Horvath, A., et al., Novel insights into breast cancer genetic variance through
RNA sequencing. Sci Rep, 2013. 3: p. 2256.
Barrdahl, M., et al., Post-GWAS gene-environment interplay in breast cancer:
results from the Breast and Prostate Cancer Cohort Consortium and a metaanalysis on 79 000 women. Hum Mol Genet, 2014.
Shigemizu, D., et al., The construction of risk prediction models using GWAS
data and its application to a type 2 diabetes prospective cohort. PLoS One,
2014. 9(3): p. e92549.
47
G - Bibliografía
42.
43.
44.
45.
46.
47.
48.
49.
50.
51.
52.
53.
54.
55.
56.
57.
58.
He, Q., et al., Genome-wide prediction of cancer driver genes based on SNP and
cancer SNV data. Am J Cancer Res, 2014. 4(4): p. 394-410.
Okolicsanyi, R.K., et al., Association of the SNP rs2623047 in the HSPG
modification enzyme SULF1 with an Australian Caucasian breast cancer
cohort. Gene, 2014. 547(1): p. 50-4.
Straume, A.H., S. Knappskog, and P.E. Lonning, Effects of SNP variants in the
17beta-HSD2 and 17beta-HSD7 genes and 17beta-HSD7 copy number on gene
transcript and estradiol levels in breast cancer tissue. J Steroid Biochem Mol
Biol, 2014. 143: p. 192-8.
Horne, B.D. and N.J. Camp, Principal component analysis for selection of
optimal SNP-sets that capture intragenic genetic variation. Genet Epidemiol,
2004. 26(1): p. 11-21.
Liu, X., et al., Inferring population mutation rate and sequencing error rate
using the SNP frequency spectrum in a sample of DNA sequences. Mol Biol
Evol, 2009. 26(7): p. 1479-90.
Tamborero, D., et al., Comprehensive identification of mutational cancer driver
genes across 12 tumor types. Sci Rep, 2013. 3: p. 2650.
Evans, P., et al., Adjusting for background mutation frequency biases improves
the identification of cancer driver genes. IEEE Trans Nanobioscience, 2013.
12(3): p. 150-7.
Ahmed, F.E., Colon cancer: prevalence, screening, gene expression and
mutation, and risk factors and assessment. J Environ Sci Health C Environ
Carcinog Ecotoxicol Rev, 2003. 21(2): p. 65-131.
Gonzalez-Perez, A. and N. Lopez-Bigas, Functional impact bias reveals cancer
drivers. Nucleic Acids Res, 2012. 40(21): p. e169.
Simon, S.D., Understanding the odds ratio and the relative risk. J Androl, 2001.
22(4): p. 533-6.
Hoesley, C., R.M. Centor, and G.R. Heudebert, Use of statistics and scientific
inference: odds ratios, likelihood ratio, and receiving operating characteristic
curves. J Infect Dis, 1998. 178(3): p. 921-3.
Yang, C.H., et al., Single nucleotide polymorphism barcoding to evaluate oral
cancer risk using odds ratio-based genetic algorithms. Kaohsiung J Med Sci,
2012. 28(7): p. 362-8.
Lai, H.W., et al., Incidence and odds ratio of appendicitis as first manifestation
of colon cancer: a retrospective analysis of 1873 patients. J Gastroenterol
Hepatol, 2006. 21(11): p. 1693-6.
Vernick, L.J. and L.H. Kuller, A case-control study of cholecystectomy and
right-side colon cancer: the influence of alternative data sources and
differential interview participation proportions on odds ratio estimates. Am J
Epidemiol, 1982. 116(1): p. 86-101.
Diboun, I., et al., Microarray analysis after RNA amplification can detect
pronounced differences in gene expression using limma. BMC Genomics, 2006.
7: p. 252.
Santpere, G., et al., Genome-wide analysis of wild-type Epstein-Barr virus
genomes derived from healthy individuals of the 1,000 Genomes Project.
Genome Biol Evol, 2014. 6(4): p. 846-60.
Wise, J., Consortium hopes to sequence genome of 1000 volunteers. BMJ, 2008.
336(7638): p. 237.
48
G - Bibliografía
59.
60.
61.
62.
63.
64.
65.
66.
67.
68.
Overbeek, R., et al., The subsystems approach to genome annotation and its use
in the project to annotate 1000 genomes. Nucleic Acids Res, 2005. 33(17): p.
5691-702.
Ball, M.P., et al., Harvard Personal Genome Project: lessons from participatory
public research. Genome Med, 2014. 6(2): p. 10.
Jones, B., Genomics: personal genome project. Nat Rev Genet, 2012. 13(9): p.
599.
Birney, E., et al., Identification and analysis of functional elements in 1% of the
human genome by the ENCODE pilot project. Nature, 2007. 447(7146): p. 799816.
Barrett, T., et al., NCBI GEO: archive for functional genomics data sets--update.
Nucleic Acids Res, 2013. 41(Database issue): p. D991-5.
Barrett, T., et al., NCBI GEO: mining tens of millions of expression profiles-database and tools update. Nucleic Acids Res, 2007. 35(Database issue): p.
D760-5.
Barrett, T., et al., NCBI GEO: mining millions of expression profiles--database
and tools. Nucleic Acids Res, 2005. 33(Database issue): p. D562-6.
Akbani, R., et al., A pan-cancer proteomic perspective on The Cancer Genome
Atlas. Nat Commun, 2014. 5: p. 3887.
Ma, C.X. and M.J. Ellis, The Cancer Genome Atlas: clinical applications for
breast cancer. Oncology (Williston Park), 2013. 27(12): p. 1263-9, 1274-9.
McCain, J., The cancer genome atlas: new weapon in old war? Biotechnol
Healthc, 2006. 3(2): p. 46-51B.
49

Documentos relacionados