Workflow for Bacterial Whole Genome Sequencing Analysis: Typing

Transcripción

Workflow for Bacterial Whole Genome Sequencing Analysis:
Typing, Antibiotic Resistance and Virulence Factors
Estudiante: Jennifer Villa García
MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL
ESCUELA NACIONAL DE SANIDAD- INSTITUTO DE SALUD CARLOS III
2013-2014
CENTRO DE PRÁCTICAS
UNIDAD DE BIOINFORMÁTICA
CENTRO NACIONAL DE MICROBIOLOGÍA-INSTITUTO DE SALUD CARLOS III
DIRIGIDO POR
ISABEL CUESTA, JORGE DE LA BARRERA
CODIRECTOR DE LA TESIS
JAVIER TAMAMES
FECHA
3 Febrero de 2015
ÍNDICE
1. INTRODUCCIÓN …...........................................................................................................................1
2. OBJETIVOS …..................................................................................................................................2
3. MATERIAL Y MÉTODOS
3.1 Descripción del análisis bioinformático y de los Dataset estudiados …......................................3
3.2 Análisis primario …......................................................................................................................5
3.3 Análisis secundario ….................................................................................................................5
3.3.1
Pre-procesamiento y control de calidad de las secuencias …........................................6
3.3.2
Ensamblado de los genomas ….....................................................................................8
3.3.2.1 Concepto del ensamblado de genomas ….........................................................8
3.3.2.2 Tipo de ensamblado ….......................................................................................8
3.3.2.3 Algoritmos de ensamblado de novo …...............................................................9
3.3.2.4 Ensamblador VELVET ….................................................................................11
3.3.3
Evaluación de la calidad del ensamblado …….............................................................14
3.3.4
Automatización del ensamblado de genomas bacterianos: iMetAMOS …...................17
3.4 Análisis terciario …....................................................................................................................18
3.4.1
Tipificación o “Genotyping” de los genomas bacterianos ….........................................19
3.4.2
Estudio del fenotipo de los genomas bacterianos o “Phenotyping” …..........................19
4. RESULTADOS
4.1 Análisis secundario …...............................................................................................................20
4.1.1
Pre-procesamiento y control de calidad de las secuencias …......................................20
4.1.2
Ensamblado de novo de genomas y evaluación de la calidad del ensamblado ….......26
4.2 Análisis terciario …....................................................................................................................32
4.2.1
Tipificación o “Genotyping” de los genomas bacterianos ….........................................32
4.2.2
Estudio del fenotipo de los genomas bacterianos o “Phenotyping” …..........................35
5. CONCLUSIÓN Y DISCUSIÓN …....................................................................................................42
6. REFERENCIAS BIBLIOGRÁFICAS …...........................................................................................47
1
1. INTRODUCCIÓN
El desarrollo de las técnicas de secuenciación masiva (NGS) está afectando de forma importante al
campo de la microbiología clínica donde las bacterias patógenas representan una grave amenaza para la
salud pública [22]. Entre los objetivos que se plantea esta disciplina están, poder obtener diagnósticos
precisos y rápidos para clasificar a los microorganismos y limitar su propagación previniendo la aparición de
brotes. Las etapas que componen el diagnóstico microbiológico consisten en poder aislar la bacteria
patógena a partir de una muestra clínica, realizar la identificación a nivel de especie, determinar el potencial
patógeno y comprobar la sensibilidad a los antibióticos. Toda esta
información es utilizada de forma
racional para dirigir el tratamiento más adecuado hacia los pacientes [22,28].
Actualmente, la información que se obtiene de los aislamientos bacterianos proviene de los
experimentos realizados en el laboratorio. Este proceso puede durar desde días, para microorganismos de
rápido crecimiento, hasta meses, en el caso de bacterias de lento crecimiento, como Mycobacterium
tuberculosis. Sin embargo, gracias a la reducción progresiva de los costes de secuenciación masiva, esta
tecnología se podrá ir incorporando en un futuro en la rutina de los laboratorios de microbiología clínica [22].
La secuencia del genoma completo de bacterias contiene toda la información necesaria para llevar a cabo
una adecuada discriminación entre los aislados clínicos y realizar vigilancia epidemiológica. En este sentido,
la tecnología de secuenciación masiva podría sustituir aquellos procedimientos que actualmente se
desarrollan en el laboratorio que son complejos, tediosos y de larga duración, permitiendo obtener toda la
información necesaria para tratar a los pacientes y controlar brotes en un solo paso [8].
Uno de los aspectos más importantes a tener en cuenta es la gran cantidad de datos proporcionados
por estas técnicas lo que supone un verdadero desafío a la hora de realizar una correcta interpretación de
los resultados por parte del personal de un laboratorio de microbiología clínica. Para facilitar el uso de datos
de NGS en el diagnostico de rutina, tipificación y vigilancia, es necesario que los datos de las secuencias se
puedan convertir de forma automática y rápida a información clínicamente relevante que sea fácil de
interpretar por clínicos y profesionales de salud publica con limitados conocimientos en bioinformática [37].
Sin embargo, hasta que no se lleve a cabo la normalización de los protocolos de trabajo y se desarrollen
herramientas de fácil manejo e interpretación para extraer y analizar la información, esta aplicación
supondrá un gran reto y tardará bastantes años hasta que se pueda implantar de forma rutinaria en un
laboratorio de microbiología clínica [11].
En este sentido, en el año 2011 se creó una iniciativa global denominada GMI ( Global Microbial
Identifier, www.globalmicrobialidentifier.org) impulsada por 200 grupos de investigación de al menos 30
países que pertenecían a distintos ámbitos de estudio (clínico, veterinario, alimentación). Este grupo esta
integrado por un equipo multidisciplinar en el que destaca la participación de Microbiólogos, Virólogos,
Bioinformáticos (NCBI, EBI), Epidemiólogos y Agencias de Salud Pública (ECDC, CDC). El GMI propone
desarrollar un sistema global que integre, comparta y analice los datos genómicos incorporando los datos de
secuenciación masiva. Esto permitirá llevar a cabo la identificación de microorganismos y facilitar la
vigilancia epidemiológica de brotes.
La Unidad de Bioinformática del Centro Nacional de Microbiología (Instituto de Salud Carlos III) está
integrada en el grupo GMI y este trabajo de fin de máster forma parte de la iniciativa global propuesta por
este grupo. Uno de los objetivos del proyecto es visualizar si los laboratorios de microbiología a nivel
mundial están familiarizados con la secuenciación y análisis del genoma completo, y si lo tienen incorporado
a su rutina. Para ello se ofertará un test que podrá realizar cualquier laboratorio de forma voluntaria. Para
poder evaluar correctamente las capacidades de los laboratorios se definirá ese test de acuerdo a los
resultados de un proyecto piloto previo en el que participaron por invitación 9 grupos de diferentes países,
USA, Alemania, Dinamarca, Australia y España . El proyecto piloto comenzó con el análisis del genoma de 3
especies de bacterias diferentes que fueron elegidos por sus diferentes características genómicas y con el
objetivo de representar el grado de variación que puede encontrarse en un brote típico en un hospital. Las
especies bacterianas seleccionadas se caracterizan por ser patógenos comunes en el hombre y presentar
gran importancia en el ámbito clínico [3,14,15,25-27].
2.
OBJETIVOS
El objetivo principal de este trabajo de fin de máster es adquirir experiencia en el análisis de datos
procedentes de la secuenciación masiva de genomas bacterianos, en el contexto de un proyecto piloto cuyo
principal objetivo es la aplicación de las técnicas de secuenciación masiva en la microbiología clínica.
Dentro de los objetivos generales propuestos destacan, el manejo de diferentes herramientas
bioinformáticas de análisis de datos de NGS e interpretación de los resultados obtenidos.
Los objetivos específicos planteados fueron los siguientes:
1. Desarrollar un workflow para el análisis de datos de NGS de genomas bacterianos, que incluyeron los
siguientes apartados:
•
•
Análisis secundario:
◦
Pre-procesamiento y control de la calidad de las secuencias.
◦
Ensamblado de novo de las secuencias y evaluación de la calidad del ensamblado.
Análisis terciario
◦
◦
Tipificación basada en las siguientes técnicas:
▪
Multilocus Sequence Typing (MLST).
▪
Ribosomal Multilocus Sequence Typing (rMLST).
▪
Whole-genome Multilocus Sequence Typing (wgMLST)
Estudio Fenotípico:
▪
Análisis de genes de resistencia a antibióticos, factores de virulencia y plásmidos.
2. Desarrollar scripts en bash y perl para el análisis de datos de la secuenciación del genoma de las
bacterias que serán ejecutados dentro del workflow diseñado.
2
3
3.
MATERIAL Y MÉTODOS
3.1 DESCRIPCIÓN DEL ANÁLISIS BIOINFORMÁTICO Y DE LOS DATASET ESTUDIADOS
Para la realización de este trabajo se utilizó un conjunto de datos proporcionados por el proyecto piloto
impulsado por el GMI que estaba formado por 66 genomas de 3 microorganismos diferentes: Escherichia
coli, Salmonella enterica serovar typhimurium y Staphylococcus aureus. Los Dataset se suministraron “en
ciego”, sin información acerca de la especie, siendo necesaria la identificación de cada uno de ellos
mediante mapeo de las secuencias a un genomas de referencia. Las características de secuenciación de
cada set de datos son las que figuran en la tabla:
Tabla-1: Características de los Dataset proporcionados por GMI
DATASET
ORGANISMO
Nº MUESTRAS
LIBRERÍA
PLATAFORMA
TAMAÑO DE LECTURAS
DATA_1
Escherichia coli
22 genomas
Paired-end
MiSeq Illumina
31-251 pb
DATA_2
Salmonella typhimurium
20 genomas
Paired-end
MiSeq Illumina
31-151 pb / 31-251 pb
DATA_3
Staphylococcus aureus
24 genomas
Paired-end
MiSeq Illumina
31-251 pb
Las muestras fueron secuenciadas con la plataforma MiSeq de Illumina a partir de librerías paired-end
(PE) [7,32]. El principio de esta técnica está basado en la secuenciación por síntesis (SBS), donde las
moléculas individuales de ADN se encuentran unidas a la superficie de una flowcell y los fragmentos de
ADN se amplifican mediante una PCR en puente (bridge). La flowcell tiene un formato de una única línea de
secuenciación y es capaz de generar aproximadamente 15Gb por run [31].
El tamaño de las lecturas de los genomas secuenciados fueron de 31-251 pb en el caso de las
muestras incluidas en el Data_1 y Data_3, mientras que, para el Data_2, todas presentaban tamaños de 31251 pb excepto 5 muestras que fueron de 31-151 pb. Los ficheros enviados presentaban el formato FASTQ
cuya estructura se explicará en el apartado de análisis bioinformático (3.2 Análisis Primario).
El análisis bioinformático se llevó a cabo a partir de un workflow semi-automatizado con el fin de
analizar los datos suministrados para este trabajo ejecutando el menor número de pasos posibles. El
workflow estaba constituido por una serie de etapas de análisis consecutivas que incluyen un conjunto de
scripts en bash que irán ejecutando diferentes herramientas.
A continuación, se muestra de forma detallada cada etapa del workflow, los scripts ejecutados en cada
fase y los archivos de entrada y salida que se necesitan en cada paso (Figura-1).
Figura-1: Workflow de análisis de datos procedentes de secuenciación masiva (NGS)
4
5
3.2 ANALISIS PRIMARIO
Este primer paso del análisis, denominado “base calling”, consiste en convertir los datos de imágenes
obtenidos por el secuenciador a secuencias de ADN. Lo primero, es transformar las imágenes a
intensidades para cada lectura y, a continuación, obtener las lecturas de la secuencia a partir de las
intensidades. El software que lleva a cabo este análisis está proporcionado por Illumina y forma parte del
pipeline de análisis (Firecrest y Bustard) (www.illumina.com). Las muestras utilizadas para la realización de
este trabajo fueron proporcionadas con el formato FASTQ, por lo tanto, nuestro análisis comienza a partir
del análisis secundario.
ESTRUCTURA DEL FORMATO FASTQ
Es un formato de texto que permite almacenar la secuencia de nucleótidos y las puntuaciones de
calidad correspondientes a dicha secuencia. Tanto la secuencia de nucleótidos, como la secuencia de
calidad están representadas con un solo carácter ASCII, para que ocupe un solo espacio. El formato FASTQ
se compone de 4 líneas que se detallan a continuación:
•
Línea 1: comienza por '@' y es seguido por el identificador de la secuencia y una breve descripción
que es opcional.
•
Línea 2: secuencia de nucleótidos.
•
Línea 3: comienza por '+' y puede estar seguido del identificador de la secuencia y una breve
descripción (opcional).
•
Línea 4: codifica los valores de calidad de la secuencia, debe contener el mismo número de
símbolos como de letras tiene la secuencia de la línea 2.
Figura-2: Formato FASTQ
@M01038:58:000000000-A4BGY:1:1101:16465:1663 1:N:0:1
NTTGTCACCAGCCACGATGATGTTTGCTTGATTGAGTTTCAGGTGCCCACCAGCCAGG
+
#>>AABFFFF@AFGGGGGG5GGHHHHGHHHFHHGBBHHHHFBFHHHHHHGGGGGGHH
3.3 ANALISIS SECUNDARIO
El análisis secundario tiene como objetivo determinar la calidad de las secuencias obtenidas desde el
punto de vista biológico (puntuaciones de calidad o scores, número alto de adaptadores, desviaciones
sistemáticas de la secuencia, digestiones incompletas), reconstruir o ensamblar las secuencias a partir de
las lecturas obtenidas y preparar los datos para el análisis terciario (visualización, representación y análisis
estadístico de los resultados).
3.3.1 Pre-procesamiento y control de calidad de las secuencias
Es necesario asegurar que todos los datos presentan una calidad adecuada para continuar con el
análisis, para ello, se procede a eliminar aquellas secuencias que tengan baja calidad. En este sentido, esta
etapa se considera una de las más importantes y críticas para el posterior análisis global de los datos.
En la realización de este trabajo se llevó a cabo varias estrategias de pre-procesamiento de los datos
con el fin de obtener un conjunto de secuencias con la máxima calidad posible. Finalmente, esta etapa se
resume en 3 pasos de ejecución que van incluidos en el script preprocess.sh:
•
Paso-1º: Trimar o recortar el extremo 5'
Para llevar a cabo este paso se ejecutó Trimmomatic (www.usadellab.org/cms/?page=trimmomatic),
una herramienta rápida que te permite recortar secuencias que presenten baja calidad en los extremos, así
como, la eliminación de adaptadores que pueden representar un problema en los análisis posteriores.
Trimmomatic admite el formato FASTQ utilizando calidad phred + 33 o phred + 64. Además, este
programa te permite trabajar con diferentes tipos de librerías: single-end (SE), paired-end (PE) y fragmentos
amplificados por PCR y secuenciados por el método Sanger [4]. En nuestro caso, trabajamos con el modo
PE que admite como parámetros los siguientes archivos:
◦
Input file (FASTQ): Forward (input 1) y Reverse (input 2)
◦
Output file (FASTQ): Forward paired, Reverse paired, Forward unpaired, Reverse unpaired.
Este programa te permite conservar las lecturas no pareadas que sobreviven al proceso de trimado y
presentan buena calidad, evitando que la información de estas lecturas se pierda.
Figura-3: Tipo de lecturas aceptadas por Trimmomatic en el modo Paired-End (Imagen usada de
Trimmomatic Manual V0.32)
6
7
Command-line:
> java -jar trimmomatic.jar PE <input 1> <input 2> <paired output 1> <unpaired output 1> <paired output 2>
<unpaired output 2> SLIDINGWINDOW:4:20
Parámetros específicos:
• [SLIDINGWINDOW:4:20]: Analiza la calidad del extremo 5' por medio de una ventana deslizante y
elimina aquellas secuencias cuya calidad está por debajo del umbral especificado. En este caso se
seleccionó una ventana de 4 nucleótidos y una calidad Q 20.
•
Paso-2º: Eliminar las secuencias de tamaño inferior a 31 pb
Tras examinar las secuencias obtenidas del paso anterior, observamos que algunas de ellas
presentan un tamaño inferior a 31 nucleótidos. Por este motivo, decidimos llevar a cabo el filtrado de
dichas secuencias para asegurarnos una buena calidad en el ensamblado de novo de los genomas
bacterianos. En esta etapa se ejecutó el programa TrimmingReads.pl que va incluido en el paquete de
herramientas de control de calidad de NGS QC toolkit (www.nipgr.res.in/ngsqctoolkit.html) . Este programa
te permite trimar los extremos 3' y 5' de la secuencia de nucleótidos en función de la calidad que se
especifique por línea de comandos, sin embargo, nosotros decidimos ejecutar este programa porque en una
de sus opciones te permite filtrar las secuencias en función del tamaño. Este paso no hubiera sido necesario
si Trimmomatic hubiera incluido esta opción.
Command-line:
> perl TrimmingReads.pl -i file1_pe.fastq -irev file2_pe.fastq -q 20 -n 31 -o _trimmed
•
i [Input file (Forward)]: output file de Trimmomatic (paired_output_1 / unpaired_output_1).
•
irev [Input file (Reverse)]: output file de Trimmomatic (paired_output_2 / unpaired_output_2).
•
q: Punto de corte calidad phred para trimar el extremo 3' de las lecturas.
•
n: se especifica la longitud de las lecturas que se desean descartar.
•
o: nombre que se le asigna al archivo de salida.
•
Paso-3º: Filtrar las secuencias en función de la calidad
Una vez eliminadas las secuencias menores de 31 pb se procede a ejecutar IlluQC_PRLL.pl, que
permite llevar a cabo el control de calidad final y el filtrado por calidad de los datos secuenciados con la
tecnología Illumina. Este programa proporciona una serie de informes con datos estadísticos que facilitan la
interpretación de los resultados tras el análisis completo de pre-procesamiento. Además, permite procesar
los datos de entrada en paralelo con múltiples CPUs para acelerar el análisis del control de calidad.
Command-line:
> perl IlluQC_PRLL.pl -c 8 -l 70 -s 20 -pe file1_pe.fastq_trimmed file2_pe.fastq_trimmed
file_trimmed_filtered
N A -o
•
c: número de cores utilizados en la ejecución.
•
l: Punto de corte para el porcentaje de la longitud de lectura de la calidad especificada (defecto 70%).
•
s: Punto de corte del score de calidad phred. Se eliminaran las secuencias que queden por debajo de la
calidad establecida (defecto Q 20).
•
pe:
Input
file
[Forward
y
Reverse]
obtenidos
en
el
paso
anterior
(file1_pe.fastq_trimmed
/file2_pe.fastq_trimmed/ file1_se.fastq_trimmed/ file2_se.fastq_trimmed).
•
N: Detección automática (A) del formato FASTQ.
•
o: Nombre que se le asigna al archivo de salida
•
Paso-4: Examinar la calidad de las secuencias
Finalmente, examinamos la calidad de las secuencias y comparamos con los datos de partida. Para
ello, se ejecuta FASTQC (www.bioinformatics.babraham.ac.uk/projects/fastqc/), una herramienta libre que
proporciona un informe en formato html que incluye un resumen detallado que se comentará en el apartado
de resultados.
Command-line:
> fastqc --noextract -o [DIRNAME] -t 8 file1.fastq file1_pe.fastq file1_se.fastq
file1_pe.fastq_trimmed
file1_pe.fastq_trimmed_filtered
3.3.2 Ensamblado de los genomas
3.3.2.1 Concepto del ensamblado de genomas
En bioinformática, el ensamblado de secuencias es un proceso computacional basado en el
alineamiento y la unión de los fragmentos cortos de ADN procedentes de la secuenciación para dar lugar a
secuencias contiguas de mayor tamaño. El objetivo del ensamblado es llevar a cabo la reconstrucción
exacta de la secuencia original [32].
3.3.2.2 Tipo de ensamblado
Actualmente, existen dos tipos de ensamblado de secuencias cuya elección dependerá del tipo de
análisis que se desea realizar [32,37].
8
9
•
MAPEADO (MAPPING) / RE-SECUENCIACIÓN:
Consiste en reconstruir un genoma a partir de las lecturas obtenidas del proceso de secuenciación,
utilizando un genoma de referencia. Las secuencias ensambladas deben ser similares, pero no
necesariamente idénticas, a las secuencias de referencia. Una ventaja que presentan este tipo de
ensamblado es la rapidez y el menor coste computacional respecto al ensamblado de novo.
•
DE NOVO:
Consiste en reconstruir un genoma desconocido a partir de las lecturas obtenidas del proceso de
secuenciación, en este caso, sin utilizar un genoma de referencia. Las principales desventajas del
ensamblado de novo son una mayor complejidad y un gran coste computacional (consumo de
memoria y tiempo).
Figura- 4: Tipos de ensamblado en función del análisis (Imagen de Nagarajan et al. Nat Rev Genet. 2013)
3.3.2.3 ALGORITMOS DE ENSAMBLADO DE NOVO:
Uno de los factores a tener en cuenta a la hora de seleccionar un ensamblador u otro, es el tipo de
algoritmo matemático que utilizan para llevar a cabo la reconstrucción de las secuencias. Para el
ensamblado de novo existen tres algoritmos cuyos fundamentos y principios se detallan a continuación
[20,32,33 ]:
•
“VORACES” / GREEDY:
Se encarga de buscar el mejor solapamiento entre dos secuencias y las une formando una nueva
secuencia, siempre y cuando, no se oponga a un ensamblado que haya sido construido
previamente. Este proceso será repetido hasta que no existan candidatos susceptibles de ser
unidos. Una desventaja de este algoritmo es que toma decisiones locales y no tiene en cuenta la
información global proporcionada por el total de las lecturas y no va a ser capaz de solucionar los
problemas de ensamblado de secuencias repetidas.
•
OVERLAP-LAYOUT-CONSENSUS (OLC):
Se encarga de almacenar y representar la información en forma de grafo. Para la construcción del
grafo, el ensamblado comienza con la identificación de los pares de lecturas que solapan de forma
correcta. Posteriormente, se organiza y representa la información en un grafo, donde cada nodo es
una lectura y las conexiones unen aquellas lecturas que solapan entre sí. De esta forma se
aprovecha la información global que proporcionan todas las lecturas. Una variante del algoritmo
OLC es el grafo en cadena (“strig graph”), este algoritmo se encarga de simplificar el grafo de
solapamiento global entre las lecturas eliminando la información redundante.
•
DE BRUIJN GRAPH:
Está basado en la relación que existe entre las sub-cadenas de nucleótidos de longitud k (k-mer)
que se extraen de las lecturas originales. Este algoritmo es capaz de generar un grafo donde los
nodos son los k-mers y las conexiones del grafo indican que los k-mers son adyacentes y solapan
exactamente k-1 nucleótidos. Este algoritmo se basa en la coincidencia exacta entre k-mers por lo
que se encarga de corregir errores y resolver las repeticiones dando lugar a ensamblados de mayor
calidad.
Tabla-2: Lista de ensambladores de novo: tecnología de secuenciación y algoritmo.
Ensamblador
Tecnología
Tipo
Algoritmo
AbySS
Illumina, SOLID, 454, Sanger
De novo
Bruijn graph
ALLPATHS-LG
Illumina, PacBio
De novo
Bruijn graph
ARACHNE
Illumina, 454
De novo
OLC
CAP
Illumina, 454
De novo
OLC
Celera Assembler
Illumina, PacBio, 454, Sanger
De novo
OLC
Edena
Illumina
De novo
OLC
EULER-SR
Illumina, 454, Sanger
De novo
Bruijn graph
IDBA-UD
Illumina
De novo
Bruijn graph
MaSurCa
Illumina, SOLID, 454
De novo
Bruijn graph / OLC
Minimus
Illumina
De novo
OLC
MIRA
Illumina, 454 , PacBio
De novo / mapping
OLC
Newbler
454, Sanger
De novo
Greedy / OLC
SGA
Illumina
De novo
OLC*
SHARCGS
Illumina
De novo
Greedy
SOAPdenovo
Illumina
De novo
Bruijn graph
SSAKE
Illumina
De novo
Greedy
SPAdes
Illumina
De novo
Bruijn graph
Sparse Assembler
De novo
Bruijn graph
VCAKE
Illumina
De novo
Greedy
Velvet
De novo
Bruijn graph
variante de OLC → string graph
10
11
3.3.2.4 Ensamblador VELVET
Para seleccionar la herramienta de ensamblado que mejor se ajuste a los datos de estudio, hay que
tener en cuenta diferentes aspectos que pueden afectar de forma importante a la capacidad de
reconstrucción de la secuencia original. De entre todos estos factores destacan los siguientes [20,32]:
•
La tecnología de secuenciación: Illumina, 454, SOLID, PacBio, Sanger …
•
La longitud de las lecturas.
•
El tipo de librería utilizada:
◦
Single-end (SE): secuencia única generada a partir de la fragmentación del ADN en pequeños
fragmentos de los cuales se secuencia un único extremo.
◦
Paired-end (PE): secuencias generadas mediante la fragmentación del ADN en pequeños
fragmentos de los cuales se secuencia el final de los dos extremos. Estas lecturas proporcionan
rangos de tamaños de inserto más estrechos.
◦
Mate-pairs (MP): secuencias generadas a partir de fragmentos de ADN de tamaño conocido (>
600 pb – 4 kb ) que se circularizan y se ligan usando un adaptador interno biotinilado que une
los extremos del fragmento. Estos fragmentos circularizados se rompen al azar y se purifican los
segmentos que contienen el adaptador biotinilado. Esta estrategia permite conocer la distancia
que separa la región secuenciada.
•
Los algoritmos de ensamblado y la capacidad de éstos para llevar a cabo la corrección de errores y
la detección de secuencias repetidas.
•
El rendimiento computacional: tiempo de ejecución y consumo de memoria.
Para la realización de este trabajo, seleccionamos el ensamblador de novo Velvet, el cual, está
basado en la construcción de grafos de Bruijn. El ensamblador Velvet puede ensamblar cualquier tipo de
lecturas, pero en realidad está diseñado para el ensamblado de lecturas cortas que van desde 25 – 50 pb.
Es uno de los más utilizados en el ensamblado de genomas bacterianos secuenciados previamente con la
plataforma Illumina. Además, la principal ventaja de este ensamblador es que puede eliminar errores
producidos por el experimento de secuenciación y resuelve repeticiones causadas por la complejidad del
genoma. El proceso de ensamblado por Velvet se resume en 4 etapas [39]:
1ª Construcción de la estructura de datos
En esta etapa, se procede a generar la estructura de datos, a partir de la cual el ensamblador
comienza su ejecución. Las lecturas obtenidas del experimento de secuenciación son divididas en subcadenas de nucleótidos de longitud k que se van a denominar k-mer. El parámetro k tiene especial
importancia ya que su valor va a determinar la calidad del ensamblado final:
•
Tamaño de k menor que la longitud de la lectura:
◦
Disminuye el número de conexiones del grafo y en consecuencia disminuye el espacio
requerido para el almacenamiento de la secuencia de ADN.
◦
Aumenta el número de nodos del grafo y esto hace que la reconstrucción final del genoma sea
más complicado al tener que atravesar mayor números de nodos.
◦
Favorece la pérdida de la información.
◦
Dificulta la capacidad de detectar zonas que contienen repeticiones. Los k-mers de pequeño
tamaño se localizan en la zona de repeticiones y será difícil determinar la cantidad de
repeticiones que han tenido lugar en realidad.
•
Tamaño de k mayor que la longitud de la lectura:
◦
Aumenta el número de conexiones del grafo y en consecuencia aumenta la cantidad de
memoria necesaria para almacenar la secuencia de ADN.
◦
Disminuye el número de nodos del grafo, por lo que habrá menos caminos que atravesar del
grafo y se simplifica la reconstrucción del genoma. Sin embargo, existe el riesgo de que al no
haber nodos suficientes, no se produzcan solapamientos y aumente el número de contigs
pequeños.
◦
Facilita la detección repeticiones en la secuencia en una región determinada debido a que son
tamaños lo suficientemente grandes para solventar este fenómeno.
Una vez que las lecturas son divididas en k-mers son almacenadas en un archivo generado por el
propio programa llamado Sequences. A continuación, se crea una tabla hash de n entradas, de manera que
cada vez que un k-mer es identificado se realiza un proceso de búsqueda en la tabla hash. Si el k-mer no es
encontrado en la tabla hash se almacenará en ella y si es localizado en la tabla se crea una referencia de
este k-mer y se almacena en otro archivo denominado RoadMaps. Tanto la tabla hash como el fichero
RoadMaps son necesarios para construir el grafo Bruijn. En el grafo se representarán los k-mers contenidos
en la tabla hash en forma de nodo y las conexiones entre los nodos será la información contenida en el
fichero RoadMaps.
2ª Simplificación del grafo
En esta etapa se procede a simplificar el grafo construido en la etapa anterior sin perder información.
Los bloques que se van generando durante la construcción del grafo se ven interrumpidos cada vez que una
lectura comienza o finaliza. Este fenómeno conduce a la formación de cadenas de bloques o “subgrafos”
lineales que están conectados. La fragmentación del grafo cuesta espacio en memoria y tiempo de
cómputo. Para simplificar estas cadenas hay que tener en cuenta lo siguiente: si tenemos un nodo A con
una conexión de salida hacia el nodo B y éste solo tiene una conexión de entrada, los dos nodos A y B se
podrán fusionar en uno solo, llamado C, que combinará la información de los nodos A y B.
3ª Eliminación de errores
En esta etapa se procede a corregir los errores del grafo simplificado. Uno de los errores más
comunes del grafo de Bruijn es encontrar caminos alejados de la ruta óptima y que no presentan salida
dentro del grafo principal. La solución para este error sería eliminar estos caminos que no suponen gran
problema puesto que no afectan a la ruta principal. Un parámetro a considerar para eliminar dichos caminos
es la longitud de los mismos, si encontramos alguno con longitud menor que 2k podemos asegurar que es
12
13
un error. Otro de los errores que podemos encontrar en un grafo de Bruijn, es el denominado “error burbuja”,
que consiste en tener conexiones en el grafo que presentan el mismo nodo de inicio y final pero en medio
tienen distinta información. Este fenómeno puede ser debido a errores en el medio de las lecturas o de los
k-mers y para solucionarlo se utiliza el algoritmo “Tour Bus”.
4ª Eliminación de repeticiones
En esta etapa se procede a eliminar las repeticiones que se han encontrado en el grafo de Bruijn, así
como, de ensamblar los contigs obtenidos en scaffolds. Los scaffolds se van generando a partir de nodos
únicos del grafo y sus vecinos.
El ensamblador Velvet está formado por dos programas independientes pero complementarios:
•
Velveth: se encarga de construir la estructura de datos que se va a utilizar para ensamblar todo el
conjunto del genoma.
•
Velvetg: este programa es el núcleo del ensamblador y se encarga de construir el grafo de Bruijn
para conseguir ensamblar las lecturas que introducimos como parámetro en la línea de comandos.
Además, este programa es el encargado de eliminar los errores y detectar las secuencias repetidas.
Para la realización de este trabajo se implementó el script assembly.sh, que ejecuta dos programas
escritos en perl incluidos dentro del programa ensamblador Velvet. A continuación se detallan los pasos
desarrollados en este análisis:
•
Paso-1º: Unión de lecturas paired-end (PE)
En este paso se procede a ejecutar el script shuffleSequences_fastq.pl, que unifica las lecturas
PE en un único fichero FASTQ con el fin de evitar la pérdida de información.
Command-line:
>perl shuffleSequences_fastq.pl file1_pe.fastq file2_pe.fastq shuffle.fastq
• Input file (FASTQ): output file de la etapa de pre-procesamiento (file1/2.fastq_trimmed_filtered).
• Output file (FASTQ): fichero que contendrá el total de las lecturas PE unificadas.
•
Paso-2º: Ensamblado de novo
En
este
paso
se
procede
a
ejecutar
el
script
VelvetOptimiser.pl.
(http://bioinformatics.net.au/software.velvetoptimiser.shtml) que sirve de complemento del ensamblador
Velvet y que se encarga de optimizar algunos de los parámetros más importantes para obtener una buena
calidad de ensamblado, como son, la estimación del tamaño de k-mer y estimación del cut-off para obtener
una cobertura adecuada. Además, este script incluye como parámetro la ejecución del ensamblador Velvet
(velveth y velvetg) y te permite realizar todo el proceso completo en forma de una única orden por línea de
comandos.
Command-line:
>perl
VelvetOptimiser.pl
-s
21
-e
31
-f
"-fastq
-shortPaired
file_shuffle.fastq
-short
file12_UnpairedReads.fastq_trimmed_filtered” -o '-min_contig_lgth 200' -p velvet_output
• s (start): tamaño de k-mer por el que comienza a evaluar.
• e (end): tamaño de k-mer con el que finaliza la evaluación.
• f: orden que ejecuta el programa velveth, los parámetro introducidos van acotados entre comillas:
◦
fastq: formato del fichero de entrada
◦
shortPaired: lecturas pareadas (PE)
◦
short: lecturas no pareadas (SE)
• o: opciones introducidas para la ejecución de velvetg que van acotadas entre comillas:
◦
min_contig_lgth: tamaño mínimo del contig que se aceptará para realizar el ensamblado.
• p: prefijo que se le asigna al fichero de salida.
El programa VelvetOptimiser genera los siguientes archivos de salida:
•
contigs.fa: contiene las secuencias de los contigs > 2k, donde k es la longitud usada en velveth. Si
se ha utilizado un umbral min_contig_lgth se omiten los contigs que sean menores que este valor.
•
stats.txt: es un fichero de texto plano delimitado por tabuladores que describe los nodos del grafo.
La longitud de los nodos se dan en k-mer. Para obtener la longitud en nucleótidos de cada nodo se
necesita simplemente sumar k-1, donde k es la longitud definida en velveth. Las columnas in y out se
corresponden con el número de arcos de los extremos 5’ y 3’ de los contigs. Las coberturas de las
columnas short1_cov, short1_0cov, short2_cov y short2_0cov se dan en cobertura de k-mer.
•
Paso-3º: Estadísticas del ensamblado
En este paso se procede a ejecutar el script velvetMetrics.R que se encarga de extraer los datos
del ensamblado contenidos en el fichero stats.txt y representa los resultados en histogramas y tablas para
facilitar la visualización y el análisis de los mismos.
Command-line:
> R --vanilla < velvetMetrics.R [path to directory stats]
3.3.3 Evaluación de la calidad del ensamblado
Para determinar si un conjunto de datos está correctamente ensamblado, es necesario comprobar la
calidad del mismo. Con frecuencia los resultados proporcionados por los software de ensamblado contienen
errores que van desde pequeños cambios a nivel de nucleótido hasta reordenamientos que influyen en la
estructura del genoma. Por este motivo, es necesario estudiar y evaluar la calidad del ensamblado obtenido.
14
15
Actualmente existen diferentes herramientas computacionales que implementan las técnicas de validación
del ensamblado (ALE, CGAL, FRCbam, FreeBayes, LAP, QUAST, REAPR) [13, 21].
En este trabajo seleccionamos la herramienta QUAST (Quality Assessment Tool for Genome
Assemblies) por incluir la evaluación de una amplia gama de métricas a partir de una interfaz gráfica que
permite una interpretación sencilla de los resultados. Además, QUAST calcula algunas métricas adicionales
(NGx, NAx) a partir del alineamiento con un genoma de referencia. La ejecución es rápida y se pueden
paralelizar los procesos [13].
Tabla-3: Métricas de ensamblado evaluadas por QUAST
CONTIG*
(no necesita ser calculado a partir del genoma de referencia)
Nº Contigs
Número total de contigs en el ensamblado.
Largest contig
Longitud del contig más largo del ensamblado.
Total length
Número total de bases en el ensamblado.
Nx (0 ≤ x ≤ 100)
Longitud del contig más corto que se encuentra dentro del x% de las bases ensambladas.
Lx (0 ≤ x ≤ 100)
Mínimo nº de contigs que produce el x% del ensamblado.
GC%
Nº G y C totales presentes en el ensamblado, dividido por la longitud total de bases ensambladas.
MISASSEMBLIES
Nº of misassemblies
Errores estructurales en los contigs que suelen ser debidos a errores de secuenciación o lecturas
quiméricas.
Nº of misassembled contigs
Nº de contigs que contienen algún misassembly.
Misassembled contigs length Nº total de bases contenidas en todos los contigs que presentan uno o más misassemblies.
UNALIGNED
Nº of unaligned contigs
Nº de contigs que no se han alineado con el genoma de referencia.
MISMATCHES
mismatches per 100 kbp
Promedio del nº de desajustes por 100.000 bases alineadas con el genoma de referencia.
indels per 100 kbp
Promedio del nº de inserciones o delecciones por 100.000 bases alineadas con la referencia.
N's per 100 kbp
Promedio de bases desconocidas (N) por 100.000 bases ensambladas.
GENOME REPRESENTATION
Fracción del genoma
Es el nº bases alineadas con el genoma de referencia, dividido por el tamaño del genoma.
Ratio de duplicación
Nº bases alineadas en el conjunto del ensamblado, dividido por el nº total de bases alineadas en la
referencia.
NGx, Genome Nx
Longitud del contig más corto que se encuentra dentro del x% de la longitud total del genoma de
referencia.
NAx
(A= alineado; x= %)
Combinación de las métrica Nx y misassemblies. Se calcula en dos etapas: 1ª se rompen los contigs
en varios bloques alineados, si un contig tiene algún misassembly, se divide en varios bloques en ese
punto. Si hay regiones no alineadas dentro de un contig, se eliminan y el contig se divide de nuevo en
bloques. 2ª se calcula el Nx en estos bloques en lugar de calcularlo en los contigs originales.
NGAx
Similar que la métrica anterior pero se calcula en función del genoma de referencia.
PREDICTED GENES
Nº of predicted genes
Nº de genes predichos a partir del ensamblado.
QUAST,
emplea
el
concepto
de
misassembly
propuesto
(www.plantagora.org/Plantagora_Engine/assembly_evaluation.html),
en
donde
el
se
estudio
define
Plantagora
como,
aquella
posición del contig ensamblado donde el extremo izquierdo de la secuencia se alinea más de 1 kb de
distancia desde el extremo derecho de la secuencia de referencia, o bien se solapan con más de 1 kb en
cadenas opuestas o en diferentes cromosomas. En este estudio se distinguen tres tipos de misassemblies
que se definen a continuación [13]:
•
Reagrupación: los extremos izquierdo y derecho de las secuencias flanqueantes, se alinean con el
mismo cromosoma en la referencia y se solapando en más de 1 kb.
•
Inversión: el extremo izquierdo y derecho del contig ensamblado se alinean con la secuencia de
referencia dentro del mismo cromosoma pero en cadenas opuestas. No cumplen los umbrales de
distancia para ser clasificado como una reagrupación.
•
Traslocación: las secuencias ensambladas se alinean en diferentes cromosomas.
Figura-5: Clasificación de misassemblies (Imagen de Gurevich A et al. Bioinformatics. 2013)
Command-line:
> python quast.py -o [DIRNAME] -R [REFERENCE.fasta] -t 8 –gene-finding contigs.fasta
•
o: Directorio de salida para almacenar los resultados analizados.
•
R: Genoma de referencia con formato FASTA.
•
T: Nº de cores seleccionado para paralelizar los procesos.
•
gene-finding: módulo basado en GeneMark.hmm predice genes en función del genoma de referencia.
•
Input file: nombre del archivo que se desea analizar (formato FASTA).
El programa QUAST devuelve unos archivos de salida que son los siguientes:
•
report.txt: resumen de evaluación en formato de texto simple.
•
report.tsv: Versión del resumen separada por tabuladores. Ideal para hojas de cálculo.
•
report.tex: Versión del resumen en formato LaTeX.
•
plots.pdf: Fichero con tablas del resumen.
•
report.html: Versión html del resumen.
•
contigs_reports / misassemblies_report: reporte de contigs mal ensamblados.
•
unaligned_report: Reporte de contigs sin alinear.
16
17
3.3.4 Automatización del ensamblado de genomas bacterianos: iMetAMOS
Para saber si nuestro ensamblado es de calidad es conveniente testar varios programas de
ensamblado [10,30,35]. Sin embargo, en nuestro caso, donde disponemos de 66 muestras, la ejecución de
varias herramientas supone un mayor coste computacional y un mayor tiempo de análisis. Por este motivo,
decidimos seleccionar una única herramienta que fue Velvet la cual selecciona varios parámetros en
función de la métrica N50 que no siempre es representativo de la calidad del ensamblado [32,39].
Recientemente, con el fin de comprobar diferentes herramientas de ensamblado, se ha desarrollado,
iMetAMOS, que incluye un flujo de trabajo donde se ejecutan varios ensambladores, herramientas de
validación y anotación para una muestra dada. Este programa se caracteriza por tratar cada conjunto de
datos ensamblados como una hipótesis que está sujeta a la validación [21].
Tabla-4: Etapas del Workflow de iMetAMOS (Imagen de Koren S et al. BMC Bioinformatics. 2014)
1- PREPROCESS
ea-utils
FastQC
KmerGenie
2- ASSEMBLE
Abyss
CABOG
IDBA-U
Masurca
MetaVelvet
MIRA
Ray
SGA
SOAPdenovo2
SPAdes
SparseAssembler
Velvet
Velvet-SC
RayMeta
3- MAPREADS
Bowtie
Bowtie2
4- VALIDATE
ALE
CGAL
FRCbam
FreeBayes
LAP
QUAST
REAPR
5- FINDORF /ANNOTATE
Prokka
Para testar este software seleccionamos dos muestras aleatorias que pertenecen a Dataset diferentes:
•
DATA_1 (E. coli): CFSAN002138-01_S12_17_D1
•
DATA_3 (S. aureus): M1056_S3_18_D3
Command-line 1:
>initPipeline
-q
-d
M1056_S3_18_D3
M1056_S3_L001_R2_001.fastq
-W
iMetAMOS
-1
M1056_S3_L001_R1_001.fastq
-2
• q: lecturas en formato FASTQ
• d: Nombre del directorio del proyecto
• W: Nombre del Workflow
• 1: paired Forward
• 2: paired Reverse
Este primer comando sirve para crear el proyecto y para incluir el tipo de lectura que se va a analizar
(datos crudos originales en formato FASTQ).
Command-line 2:
>runPipeline -d M1056_S3_18_D3 -p 8 -s Preprocess -e Postprocess -n FindRepeats, Propagate, MapReads,
Scaffold -t EA-UTILS -q yes -a velvet, SPAdes, Soapdenovo2, Idba-ud, MaSuRCA -k auto-selected -g Prokka -X
QUAST
•
d: Nombre del directorio del proyecto
•
p: número de threads usados en el pipeline
•
s: comienzo del pipeline en etapa Preprocess
•
e: fin del pipeline en etapa Postprocess
•
n: selección de pasos en el pipeline que no se van a desarrollar
•
t: selección del método de filtrado
•
q: selección del gene caller
•
a: selección de ensambladores que queremos probar
•
k: selección del método para calcular k-mer en el proceso de ensamblado
•
X: Selección del método de validación del ensamblador seleccionado
Este segundo comando sirve para ejecutar los pasos del workflow que se han detallado en la Tabla-4.
Una vez finalizado la ejecución del workflow de iMetAMOS, el programa proporciona un conjunto de
resultados, de entre ellos, un archivo en formato HTLM que ofrece un resumen de todos los resultados,
incluye los informes FastQC para el paso de preproceso, un informe del ensamblador seleccionado para
continuar el análisis, un conjunto de gráficas y métricas de QUAST de la etapa de validación y una pantalla
interactiva Krona para obtener la clasificación taxonómica (ver material suplementario: Formato Digital).
3.4 ANÁLISIS TERCIARIO
Este análisis consiste en extraer la información necesaria para llevar a cabo la tipificación de cada una
de las cepas, así como estudiar el fenotipo de resistencia y virulencia a partir de las secuencias previamente
ensambladas.
18
19
3.4.1 Tipificación o “Genotyping” de los genomas bacterianos
•
Multilocus Sequence Typing (MLST)
Es un método eficaz y ampliamente utilizado para la caracterización de los aislamientos bacterianos
basado en el estudio de 7 genes (“loci”) conservados que pertenecen al núcleo (“core”) de la bacteria.
Según se van encontrando nuevas secuencias para cada locus se le va asignando un número que
corresponde al orden de descubrimiento, de tal manera que los números de todos los loci se almacenan en
un esquema particular denominado perfil alélico al que se le asigna un tipo de secuencia (en inglés
“sequence typing” (ST)). El estudio del polimorfismo en estos genes nos permite trazar líneas genéticas que
servirá para establecer el grupo clonal al que pertenece la especie bacteriana. Para tipificar las bacterias
incluidas en este trabajo en función del ST se usó la base de datos pública de MLST (http://pubmlst.org/).
Actualmente, incluye un mínimo de 1000 perfiles alélicos o aislamientos bacterianos (actualizado 26-122014) [6, 24, 29].
•
Ribosomal Multilocus Sequence Typing (rMLST)
Otro método para realizar estudios taxonómicos y de tipificación bacteriana es la técnica de
ribosomal MLST (rMLST) que está basado en la identificación de los genes de la subunidad de las
proteínas ribosomales (rps), los cuales, tienen la ventaja de estar universalmente presentes en todas las
bacterias pero son muy variables entre las distintas especies por lo que te permite detectar las variaciones
existentes dentro de los complejos clonales o ST definidos por los esquemas de MLST. Para clasificar a las
cepas bacterianas de este trabajo en función al rMLST se empleó la base de datos rMLST
(http://pubmlst.org/) implementado con la plataforma BIGsDB). Esta base de datos permite catalogar la
variación de los 53 genes ribosomales. Actualmente, incluye más de 30.000 series de datos de genomas
secuenciados que son de acceso público. Todos estos datos se puede indexar con rMLST, proporcionando
una eficiente y rápida identificación [18,29].
3.4.2 Estudio del fenotipo de los genomas bacterianos o “Phenotyping”
Para la realización del estudio del fenotipo de las cepas de bacterias incluidas en este trabajo se
utilizaron
los
algoritmos
de
análisis
(http://www.genomicepidemiology.org/),
propuestos
de
los
por
cuales,
el
Center
únicamente
for
se
Genomic
incluyeron
Epidemiology
las
siguientes
herramientas:
•
PlasmidFinder 1.2 (https://cge.cbs.dtu.dk/services/PlasmidFinder/): permite detectar el número y el
grupo de incompatibilidad al que pertenecen cada uno de los plásmidos localizados. Actualmente,
para Enterobacteriaceae, esta base de datos se compone de 116 secuencias de replicones que
presentan un porcentaje de identidad de al menos un 80% respecto a secuencias de replicones de
559 plásmidos secuenciados previamente de forma completa. La herramienta ofrece la posibilidad
de extraer información acerca de los plásmidos de bacterias gram positivas (como S. aureus), sin
embargo, esta parte está en construcción y únicamente puede detectar el número de replicones
presentes en el genoma de la bacteria [5].
•
ResFinder 2.0 (https://cge.cbs.dtu.dk/services/ResFinder/): permite identificar genes de resistencia
antibiótica adquirida de bacterias que han sido secuenciadas parcial o totalmente. Admite como
archivos de entrada las secuencias ensambladas en formato fasta. El inconveniente de esta
herramienta es que no detecta resistencia causada por mutaciones cromosómicas como por
ejemplo: resistencia a ácido nalidíxico, ácido fusídico, rifampicina o resistencia de alto nivel a
quinolonas [38].
•
VirulenceFinder 1.2 (https://cge.cbs.dtu.dk/services/VirulenceFinder/): identifica de forma rápida los
genes asociados con la virulencia de una bacteria y permite identificar cepas causantes de brotes o
que han producido algún caso esporádico. Es un método robusto que presenta buena correlación
con los métodos de tipado realizados en la rutina de un laboratorio clínico [15].
•
SerotypeFinder 1.0 (https://cge.cbs.dtu.dk/services/SeroTypeFinder/): permite detectar los genes
que codifican al antígeno somático que pertenece a la pared de peptidoglucano de la bacteria O
(wzy) y al gen que codifica el antígeno flagelar H (fliC) de la especie de Escherichia coli.
4. RESULTADOS
4.1 ANÁLISIS SECUNDARIO
4.1.1 Pre-procesamiento y control de calidad de las secuencias
El preprocesamiento de los datos y control de calidad se realizó de forma independiente para cada
tipo de microorganismo, es decir, para cada uno de los datasets:
•
Data_1 (E. coli = 22 muestras)
•
Data_2 (S. typhimurium = 20 muestras)
•
Data_3 (S. aureus = 24 muestras)
En las Tablas S1-S2-S3 del material suplementario se presentan los resultados que se obtienen tras
la ejecución del script preprocess.sh. Las tablas representan cada una de las fases llevadas a cabo
durante el procesamiento (Raw_Data, Fase Trimmomatic, Fase TrimmingReads.pl y Fase IlluQC_PRLL.pl) y
en cada una de ellas se especifica el número y longitud de las secuencias, así como, contenido en GC de
cada una de las muestra.
La información contenida en las tablas fue extraída del informe html
proporcionado por la herramienta FASTQC.
De forma general, los resultados obtenidos muestran gran variedad en cuanto a la calidad de las
secuencias de los datos crudos. Por una parte, el Data_1 se caracterizó por tener las peores calidades en
sus secuencias originales (calidad mala= muestra nº 1, 2, 7 y 12; calidad media= muestra nº 22), seguido
20
21
por el Data_2 (calidad mala= muestra nº 1; calidad media= muestras nº 3 y 5). Finalmente, el Data_3 (S.
aureus) mostró buena calidad para las 24 muestras analizadas.
A continuación, se procede a explicar alguno de los apartados contenidos en el informe html de
FASTQC de una de las muestras trabajadas que presentaba calidad baja y, con ello, se demuestra la
importancia de cada uno de los pasos ejecutados en el pre-procesamiento (ver material suplementario:
Formato Digital):
Formato FASTQC html report de la muestra: CFSAN002083_1_D1 (E. coli)
1- Módulo de estadísticas básicas:
En este apartado se especifican los datos procedentes de la muestra: nombre del fichero que se va a
trabajar, tipo de codificación ASCII de scores de calidad, número de secuencias totales, rango de longitud
de las secuencias y GC%.
1- Raw_Data
3- TrimmingReads.pl
2- Trimmomatic
4- IlluQC_PRLL.pl
2- Módulo de calidad por base de la secuencia:
Este modulo proporciona una gráfica que representa la calidad (eje X) de cada base en cada
posición (eje Y). La gráfica se divide en tres zonas coloreadas en función de la puntuación de la calidad
(verde= buena, naranja= razonable y roja= mala).
1- Raw_Data
2- Trimmomatic
3- TrimmingReads.pl
4- IlluQC_PRLL.pl
En los datos originales, las cajas amarillas, que representan el rango intercuartílico (25-75%),
alcanzan niveles de calidad 10 o inferiores y la mediana (línea roja) es inferior a calidad 25 en la parte final
de la secuencia de nucleótidos, por lo que, indica que la calidad por base no es muy buena y es necesario
trimar o recortar el extremo final para alcanzar mejores scores de calidad. Además, se observa como en las
bases finales se alcanza el cuartil más bajo con calidades cercanas a 5. Con la etapa de trimado y filtrado
de secuencias por calidad, finalmente, se obtienen calidades mejores, que se localizan dentro de la zona
verde de la gráfica que indican que las calidades son superiores a score de 28.
3- Módulo de calidad por secuencia:
Este módulo proporciona un informe de resultados de la calidad total por secuencia y permite
observar si un subconjunto de secuencias tiene valores de calidad bajos. En este caso, tanto los datos
originales como los datos procesados presentan un buen score de calidad que está alrededor de 34 (ver
material suplementario: Formato Digital).
22
23
4- Módulo de contenido de bases en la secuencia:
En este apartado se muestra la cantidad relativa de cada base. Esta cantidad debe reflejar la cantidad
total de las bases en el genoma y no debe estar muy desequilibrada. Esta gráfica nos da información de los
problemas ocurridos durante la secuenciación o la posibilidad de que exista contaminación de la librería.
Se puede observar como hay un claro desequilibrio entre A-T y G-C en las 9 bases del inicio de la
secuencia. Este fenómeno aparece en las 66 muestras analizadas y suele ser frecuente en secuenciaciones
con la plataforma Illumina. Nuestra hipótesis acerca de este fenómeno es que puede estar relacionado con
algún tipo de adaptador de dicha plataforma introducido al generar la librería (Figura-6).
5- Módulo de contenido GC por base:
Se indica el contenido de pares de bases GC y el sistema emite un error cuando el contenido se
aleja más del 10% de la media del contenido GC total. Se puede observar que ocurre algo similar a lo
acontecido en el apartado anterior, un claro desequilibrio GC en las 9 bases del inicio de la secuencia, el
resto bases se mantiene constante (Figura-7).
Figura-6: Gráfica del módulo 4
Figura-7: Gráfica del módulo 5
6- Módulo de contenido GC por secuencia:
Este módulo mide el contenido de GC a través de toda la longitud de cada secuencia de la muestra y
la compara con una distribución normal del contenido de GC. En este caso el sistema emite una advertencia
dado que la suma de las desviaciones de la distribución normal se eleva más de un 15% respecto de las
lecturas (ver material suplementario: Formato Digital).
7- Módulo de contenido en bases desconocidas (N):
Este módulo representa el número de bases desconocidas (N), en este caso el sistema no emite
ningún aviso puesto que no se encuentran bases desconocidas en ningunas de las secuencias (ver material
suplementario: Formato Digital).
8- Distribución de longitud de las secuencias:
Este módulo genera un gráfico que muestra la distribución de tamaños de los fragmentos de la
muestra secuenciada. Las muestras secuenciadas con Illumina proporcionan lecturas del mismo tamaño,
sin embargo, en este caso como se han trimado los extremos que presentaban calidades bajas, el sistema
de análisis de FASTQC emite una alarma para especificar que se han encontrado lecturas de tamaños
diferentes como se muestran en las gráficas siguientes:
1- Raw_Data
2- Trimmomatic
3- TrimmingReads.pl
4- IlluQC_PRLL.pl
9- Secuencias duplicadas:
Este módulo cuenta el grado de duplicación para cada secuencia respecto del conjunto total y crea
un gráfico que muestra el número relativo de secuencias con diferentes grados de duplicación. En el caso
de la muestra analizada, se observa que las secuencias duplicadas no superan el 20%, por lo que, el
sistema no emite ninguna advertencia. A medida que los datos van siendo procesados podemos ver como
el porcentaje de secuencias duplicadas se reduce y se mejora la calidad de los datos (ver material
suplementario: Formato Digital):
• 1-Raw Data= 12,93%
• 2-Trimmomatic= 10,81%
• 3-TrimmingReads.pl= 7,18%
• 4-IlluQC_PRLL.pl= 7,18%
24
25
10- Secuencias k-mers sobrerepresentadas:
Este módulo representa el número de k-mer encontrado en la librería de las secuencias analizadas,
en concreto, 5-mer. Además, proporciona una lista de hits que muestra el patrón de enriquecimiento de ese
Kmer a través de la longitud de las lecturas. Este análisis demostrará si tiene un enriquecimiento general o
si hay un patrón de sesgo en diferentes puntos a lo largo de toda la secuencia. A continuación, se muestran
las gráficas obtenidas tras el análisis de la muestra tomada como ejemplo:
1- Raw_Data
3- TrimmingReads.pl
2- Trimmomatic
4- IlluQC_PRLL.pl
En este caso, como se puede observar en la representación superior, el sistema emite una
advertencia puesto que existen varios k-mer que están enriquecidos más de 3 veces a lo largo de la longitud
de la secuencia.
4.1.2 Ensamblado de novo de genomas y evaluación de la calidad del ensamblado
En este trabajo se llevó a cabo la evaluación de un único ensamblador, Velvet, sobre 66 muestras: E.
coli (n = 22 muestras), S. typhimurium (n = 20 muestras) y S. aureus (n = 24 muestras). Tras obtener las
métricas propuestas por Velvet, se evaluó el ensamblado obtenido con QUAST que nos proporcionó un
mayor número de métricas para poder determinar cuál de las muestras mostró una calidad óptima. Los
genomas de referencia utilizados para calcular las métricas con QUAST fueron:
•
E. coli ATCC BAA-2209 (AZBZ01)
•
Salmonella enterica subsp. enterica serovar Typhimurium str. 14028S (CP001363)
•
Staphylococcus aureus subsp. aureus M013 (CP003166)
Además, quisimos comprobar si la etapa de pre-procesamiento de los datos influía de forma
importante en el ensamblado de las secuencias, para ello, realizamos una comparación de las métricas de
los datos crudos sin procesar y de los datos crudos procesados.
En el material suplementario de este trabajo se proporcionan un conjunto de tablas en las que se
detallan los resultados obtenidos de los análisis de ensamblado, validación, así como, de la comparación de
las métricas obtenidas de los datos ensamblados previamente procesados y sin procesar.
DATA_1: Escherichia coli
En general, para todas las muestras de E. coli se obtienen métricas bastante deficientes. Las métricas
añadidas por QUAST corroboran los malos resultados obtenidos con el ensamblado de Velvet e indican que
quizá puedan influir en análisis posteriores.
Nueve de 22 muestras (CFSAN002083_1, CFSAN002084_2, CFSAN002093_3, CFSAN002094_4,
CFSAN002128_11, CFSAN002129_12, CFSAN002140_18, CFSAN002151_21, y CFSAN002156_22)
presentaron un nº de contigs superior a 800 y tamaños de N50 demasiado bajos (Tabla S-4 y Tabla S-5).
Además, 7 de las 9 muestras anteriores, mostraron una cobertura estimada de las lecturas inferiores a 20X,
lo que indica una baja fiabilidad de los ensamblados obtenidos. De entre todas las muestras con peores
resultados de ensamblado, llama la atención lo ocurrido con la muestra 4 (CFSAN002094_4), la cual,
presenta un tamaño de genoma de 9.125.980 pb mientras que el resto de muestras que forman parte del
Data_1 presentan tamaños de genoma aproximadamente de 5Mb y son parecidos a lo obtenido en el
genoma de referencia. Este fenómeno junto con el nº de genes predichos (8.830 genes) es indicativo de que
la muestra secuenciada podría estar contaminada con algún otro DNA.
26
27
Tras comprobar que los datos previamente procesados presentaban unos resultados bastante
deficientes, decidimos ensamblar los genomas a partir de los datos crudos sin procesar con la finalidad de
observar diferencias entre ellos. Como se muestran en los datos representados en la Tabla S-5 del material
suplementario, las métricas de ensamblado mejoran con la etapa de pre-procesamiento, por lo tanto, los
malos resultados están relacionados con la mala calidad que presentaban las secuencias originales. La
muestra con peor ensamblado, tanto para los datos procesados como los datos sin procesar, fue la muestra
4 (CFSAN002094_4) que presentaba nº de contigs (835 vs. 3.080), tamaño de N50 (51.662 vs. 12.706),
tamaño de genoma (9.125.980 vs. 9.041.125). Por otro lado, hay que destacar que la muestra
CFSAN002151_21 mostraba un menor nº de contigs con los datos sin procesar (1.748 vs. 750). Sin
embargo, el tamaño final del genoma fue poco realista presentando un tamaño de 304.075 pb.
DATA_2: Salmonella typhimurium
En general para todas las muestras que forman parte del Data_2 se obtienen unas métricas de
ensamblado con calidad óptima que coinciden con el análisis de validación proporcionado por
QUAST
(Tabla S-6).
VelvetOptimiser selecciona como parámetro óptimo de ensamblado un tamaño de k-mer de 31
nucleótidos para las 20 muestras. La cobertura estimada es superior a 20X, el nº de contigs es inferior a
350, el tamaño del genoma estimado es aproximadamente de 5Mb y la fracción del genoma que se alinea
con los contigs ensamblados se encuentra dentro del 94-97% en todas las muestras. Además, el nº de
misassemblies, mismatches, indels y nº de bases desconocidas (Ns) son menores si comparamos con las
muestras ensambladas del Data_1 (E. coli). Los genes predichos se encuentran en rangos comprendidos
entre 4.470-5.100 genes dependiendo de la muestra y coinciden aproximadamente con los genes
contenidos en el genoma de referencia seleccionado para este Dataset (Tabla S-11).
La muestra 14, que se identificó como WAPHL-SAL-A00020_14, destacó por presentar los mejores
resultados en sus métricas de ensamblado, dando lugar a un total de 109 contigs donde el 97,38% se
alinean con el genoma de referencia, el contig más largo mostró una longitud de 704.358 pb y un tamaño de
N50 de 267.273 pb (Tabla S-6). Seis de los contigs (L50) cubrieron el 50% del genoma y contenía un total
de 4.626 genes. Una de las limitaciones de este ensamblado fue que presentó 11 misassemblies del tipo
reagrupaciones (del inglés “relocation”), localizados en 5 contigs (longitud de contigs con misassemblies
1.579.322 pb) (Tabla S-11).
Figura-8: Visualización del alineamiento de la muestra Nº 14 (WAPHL-SAL-A00020_14) con el genoma de
referencia. (Imagen obtenida de la ejecución de QUAST).
Los bloques de color verde corresponden a los contigs que no presentan misassemblies, mientras
que los rectángulos de color rojo corresponden a los bloques resultantes después de dividir los contigs que
contienen misassemblies [13].
En la Tabla S-7 del material suplementario se muestran los resultados obtenidos tras la comparación
de los datos ensamblados para el Data_2, con y sin pre-procesamiento previo. Se puede observar como el
número de contigs obtenido en el ensamblado de los datos procesados es mucho menor que en los datos
sin procesar. Sin embargo, al comparar las demás métricas de ensamblado como N50, longitud del contig
más largo, nº de contigs de tamaño mayor a 1 kb, se puede observar como los datos ensamblados sin
procesamiento previo presentan una mejor calidad para las muestras nº 1, 7, 8, 10, 13 y 19 que están
identificadas como: CFSAN003354_1, IEH-NGS-SAL-00086_7, IEH_NGS_SAL-00102_8, IEH-NGS-SAL00215_10, WAPHL-SAL-A00018_13 y WAPHL-SAL-A00035_19. Esto indica que la fase previa de preprocesamiento de los datos ha influido ligeramente en el ensamblado final de los genomas y que
probablemente no depende del ensamblador seleccionado sino de los datos crudos obtenidos de la
secuenciación.
DATA_3: Staphylococcus aureus
Los resultados obtenidos tras la etapa de ensamblado del conjunto de datos pertenecientes al Data_3
presentaban algunas discordancias. Por un lado, las métricas obtenidas de la ejecución de Velvet nos
indican que presentan una calidad óptima: la cobertura estimada para el ensamblado de las lecturas oscila
entre 18-195X, el nº de contigs obtenido es inferior a 200, el resto de métricas (N50, contig más largo,
tamaño estimado del genoma …) presentan una calidad buena y son similares para el total de las 24
muestras estudiadas (Tabla S-8). Sin embargo, cuando realizamos la validación por QUAST, las métricas
calculadas a partir del genoma de referencia seleccionado para este Dataset indican que la mayoría de los
casos presentan errores (Tabla S-12). Este es el caso del nº de misassemblies, mismatches, indels y Ns
que están presentes de forma abundante en todas las muestras lo que nos hace reflexionar si la referencia
seleccionada para el alineamiento estaba muy alejada, desde el punto de vista filogenético, de las muestras
problema y por ello el ensamblado de las secuencias presenta tantos errores.
28
29
Figura-9: Visualización del alineamiento de la muestra Nº 11 (H605_S9_11) con el genoma de referencia.
(Imagen obtenida de la ejecución de QUAST).
Por otro lado, la comparación de los ensamblados obtenidos con los datos procesados y sin procesar
previamente nos muestran que hay 5 genomas correspondientes a las muestras nº 10, 11, 12, 19 y 22
(H604_S8_10, H605_S9_11, H1503_S15_12, M1313_S5_19, M1353_S9_20) que presentan mejores
métricas de ensamblado sin trimar y filtrar previamente (Tabla S-9).
Finalmente, al igual que sucedía en el Data_1, encontramos una muestra que destaca de las demás
por presentar métricas mucho peores respecto a las 23 restantes. Es el caso de la muestra nº 6
(H597_S12_6), donde encontramos que los datos ensamblados sin procesar mejoran de forma considerable
respecto a los datos procesados previamente, al igual que sucedía con las muestras nº 10, 11, 12, 19 y 22
(Tabla S-8 y S-9).
En este trabajo decidimos ejecutar el software iMetAMOS con dos muestras de Datasets diferentes
que fueron seleccionadas al azar con el fin de comprobar otras herramientas de ensamblado de novo (ver
material suplementario: Formato Digital). Algunos de los resultados obtenidos tras la ejecución del programa
fueron las siguientes:
Muestra Nº 17: CFSAN002138-01_S12 (Escherichia coli)
1- Pre-procesamiento:
Esta etapa del workflow incluye el filtrado de secuencias por calidad (ea-utils), selección de tamaño
de k-mer óptimo (kmerGenie) y visualización de la calidad de las secuencias (fastQC).
Figura-10: Calidad por base de secuencia después del filtrado y selección del tamaño de k-mer = 115
2- Ensamblado y Validación
Figura-11: Evaluación de distintas herramientas de ensamblado por QUAST
Como se puede observar en la figura-11, Spades fue el que mejor resultados de ensamblado
proporcionó con un tamaño de k-mer de 115 seguido por MaSuRCA. Por el contrario, Velvet fue el
ensamblador que peores métricas mostró y quedó en última posición en el ranking de iMetAMOS (ver
material suplementario: Formato Digital).
Muestra Nº 18: M1056_S3 (Staphylococcus aureus)
1- Preprocesamiento:
El preprocesamiento se lleva a cabo igual que para la muestra anterior. En este caso el tamaño
seleccionado de k-mer por KmerGenie es de 91.
30
31
Figura-12: Calidad por base de secuencia después del filtrado y selección del tamaño de k-mer= 91
2- Ensamblado y Validación
Figura-13: Evaluación de distintas herramientas de ensamblado por QUAST
La figura-13 representa los resultados obtenidos tras ejecutar distintos ensambladores para la
muestra nº 18 de S. aureus. De nuevo, Spades se vuelve a clasificar como el mejor ensamblador con un
tamaño de k-mer de 91. Velvet queda en una posición intermedia y, en este caso, el último del ranking fue
Soapdenovo2.
En el material suplementario en formato digital de este trabajo se incluyen los archivos de salida más
importantes proporcionados por el programa iMetAMOS .
4.2 ANALISIS TERCIARIO:
4.2.1 Tipificación o “Genotyping” de los genomas bacterianos
Un total de 66 muestras pertenecientes al conjunto de datos incluidos en el data_1, data_2 y data_3
se analizaron mediante herramientas bioinformáticas con el fin de obtener la caracterización y tipificación
completa de todos los genomas.
El data_1 estaba compuesto por 22 muestras que fueron identificadas como Escherichia coli. Se
identificó el perfil alélico correspondiente a los 7 genes analizados por MLST en todas las muestras a partir
de los datos ensamblados con Velvet. De entre las 22 muestras de los genomas de E. coli, se identificaron
2 clusters, uno formado por 20 cepas pertenecientes a ST-16 (Complejo clonal ST-29) y otro cluster
formado por 2 cepas pertenecientes a ST-32 (Complejo Clonal ST-32). Posteriormente, se llevó a cabo la
tipificación por el método rMLST donde se amplió el perfil alélico a 53 genes con el fin de obtener mayor
resolución en el análisis de la relación filogenética de los aislados. Los resultados destacan la identificación
de 3 clusters: 1º cluster identificado como rST-2258 formado por 18 cepas que fueron inicialmente
identificadas como ST-16 en todos los casos, 2º cluster formado por 2 cepas identificadas como rST-2254
que pertenecían previamente al ST-16. Por último, el 3º cluster formado por 2 cepas pertenecientes al clon
ST-32 que fueron clasificadas por rMLST como rST- 1534 (Tabla-5).
Tabla-5: Tipificación de los aislamientos de E. coli: MLST, Complejo clonal, rMLST y Serotipo.
AISLADOS_DATA_1
CFSAN002083_1_D1
CFSAN002084_2_D1
CFSAN002093_3_D1
CFSAN002094_4_D1
CFSAN002095_5_D1
CFSAN002096_6_D1
CFSAN002116_7_D1
CFSAN002117_8_D1
CFSAN002118_9_D1
CFSAN002126_10_D1
CFSAN002128_11_D1
CFSAN002129_12_D1
CFSAN002131_13_D1
CFSAN002134_14_D1
CFSAN002135_15_D1
CFSAN002137_16_D1
CFSAN002138_17_D1
CFSAN002140_18_D1
CFSAN002142_19_D1
CFSAN002143_20_D1
CFSAN002151_21_D1
CFSAN002156_22_D1
ST
Complejo Clonal
r ST
Serotipo
16
ST29
2258
16
ST29
2258
16
ST29
2258
16
ST29
2258
16
ST29
2258
16
ST29
2258
16
ST29
2258
16
ST29
2254
16
ST29
2254
16
ST29
2258
16
ST29
2258
16
ST29
2258
16
ST29
2258
16
ST29
2258
16
ST29
2258
16
ST29
2258
16
ST29
2258
16
ST29
2258
16
ST29
2258
16
ST29
2258
32
ST32
1534
32
ST32
1534
O111:H8
O(-):H8
O(-):H8
O111:H8
O111:H8
O111:H8
O111:H8
O111:H8
O111:H8
O111:H8
O111:H8
O(-):H(-)
O111:H8
O111:H8
O111:H8
O111:H8
O111:H8
O(-):H8
O111:H8
O111:H8
O(-):H(-)
O145:H-
adk
Designación de alelos de MLST
fumC
gyrB
icd
mdh
purA
recA
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
6
4
12
16
9
7
12
19
23
18
24
21
2
16
19
23
18
24
21
2
16
La Tabla_Typing (ver material suplementario: Formato Digital) representa el perfil alélico de los 53
genes analizados por rMLST para las 22 muestras estudiadas. Las muestras incluidas en los clones rST2254 y rST-2258 fueron identificadas como ST-16 por MLST, sin embargo, existen diferencias en la
32
33
secuencia de nucleótidos que codifica el gen rpIJ proporcionado por la técnica de rMLST lo que significa que
se ha aumentado la resolución identificando dos sub-clusters más pequeños dentro del cluster mayoritario
ST-16. Por otro lado, el clon rST-1534 (ST-32) se diferencia del clon rST-2258 (ST-16) en la secuencias de
los genes rpsA, rpsB, rpsP, rpiB y rpIO lo que da lugar a una clasificación diferente en función de ST y rST.
Finalmente, al obtener el perfil alélico de los 53 genes rps por el método rMLST, se observó que la
muestra CFSAN002094_4 no solo identificaba genes de la especie E. coli sino que también identificaba
genes de la especie Morganella morganii, por lo que se confirmó que esta muestra estaba contaminada con
otra especie y que probablemente los problemas obtenidos durante la etapa de ensamblado podrían haber
sido causados por este fenómeno (datos incluidos en material suplementario: Formato Digital).
Además, decidimos analizar el serotipo de las cepas de E. coli (Tabla 5). De entre los resultados
obtenidos destacan la presencia de 16 cepas con serotipo O111:H8 (n=14 rST-2258 y n=2 rST-2254), 3
cepas (rST-2258) con serotipo O(-):H8, 1 cepa (rST-1534) que presentaba O145:H(-) y 2 cepas donde no
se identificaron los genes del antígeno somático de la pared ni del antígeno flagelar (n=1 rST-2258 y n=1
rST-1534).
El data_2 estaba formado por 20 muestras que fueron identificadas como: Género Salmonella
especie enterica y subespecie enterica serovar typhimurium, también conocida como Salmonella
typhimurium. Se obtuvieron un total de 2 clusters, uno de ellos formado por 18 cepas que fue identificado
como ST-19 y otro cluster con 2 cepas pertenecientes al ST-36.
Tabla-6: Tipificación de los aislamientos de S. typhimurium: MLST y rMLST.
AISLADOS_DATA_2
CFSAN003354_1_D2
CFSAN003377_2_D2
FSW0024_3_D2
FSW0026_4_D2
FSW0035_5_D2
IEHNGSSAL00053_6_D2
IEH-NGS-SAL-00086_7_D2
WAPHL-SAL-A00013_12_D2
ST
r ST
19
19
36
36
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
19
3484
3484
1378
1378
1361
3484
1367
1397
3484
3484
3484
3484
3484
3484
3484
3484
3484
3484
3484
3484
aroC
10
10
18
18
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
10
dnaN
7
7
14
14
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
hemD
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
12
hisD
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
purE
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
5
sucA
9
9
18
18
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
9
thrA
2
2
21
21
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
La identificación por rMLST mostró la presencia de 5 perfiles alélicos diferentes: rST-3484 (n=15),
rST-1378 (n=2), rST-1361 (n=1), rST-1367 (n=1) y rST-1397 (n=1). Cuatro de ellos, fueron identificados
previamente por MLST como ST-19 lo que indicó la existencia de variabilidad dentro del cluster ST-19. La
diferencia entre los clones ST-19 y ST-36 radica en la secuencia que codifica los genes rpsB, rpsD, rpsS,
rpIA, rpID, rpIK, rpIW, rpmA, rpmD y rpmG identificados por rMLST. Por otro lado, el clon rST-1384, que
incluye la mayoría de las cepas, se diferencia de los clones rST-3461, rST-1367 y rST-1397, por la
secuencia de los genes [rpIM], [rpIM, rpmD] y [rpsA], respectivamente (datos incluidos en material
suplementario: Formato Digital).
El data_3 estaba formado por 24 muestras que fueron identificadas como Staphylococcus aureus. El
análisis de tipificación mostró mayor variabilidad entre las cepas pertenecientes al data_3, que el análisis
realizado para las muestras del data_1 y data_2. Se identificaron un total de 4 clusters por MLST, ST-1835
(n=11) ST-1 (n=9), ST-852 (n=2) y ST-748 (n=2). Los clones ST-1, ST-852 y ST-748 fueron incluidos dentro
del complejo clonal ST-1 y el linaje 8 lo que indica la estrecha relación que existe entre ellos.
Tabla-7: Tipificación de los aislamientos de S. aureus: MLST, Complejo clonal y rMLST.
AISLADOS_DATA_3
H401_S11_1_D3
H570_S5_2_D3
H582_S1_3_D3
H587_S6_4_D3
H596_S4_5_D3
H597_S12_6_D3
H599_S2_7_D3
H600_S7_8_D3
H602_S10_9_D3
H604_S8_10_D3
H605_S9_11_D3
H1503_S15_12_D3
M760_S12_13_D3
M767_S1_14_D3
M774_S7_15_D3
M775_S4_16_D3
M1048_S3_17_D3
M1056_S3_18_D3
M1313_S5_19_D3
M1353_S9_20_D3
M3292_S18_21_D3
M3492_S11_22_D3
M3505_S6_23_D3
M3510_S11_24_D3
ST
Complejo Clonal
r ST
1
1835
1835
1835
1835
1835
1835
1835
1835
1835
1835
1
1
1
1
1
1835
852
748
748
1
1
852
1
ST-1
ST-1
ST-1
ST-1
ST-1
ST-1
ST-1
ST-1
ST-1
ST-1
ST-1
ST-1
ST-1
4390
4428
4390
4390
4390
4390
4390
4390
4390
4390
4390
4390
4390
arcC
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
aroE
glpF
gmk
pta
tpi
1
1
1
1
1
1
245
1
1
1
1
245
1
1
1
1
245
1
1
1
1
245
1
1
1
1
245
1
1
1
1
245
1
1
1
1
245
1
1
1
1
245
1
1
1
1
245
1
1
1
1
245
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
245
1
1
1
1
68
1
1
1
132
1
1
1
1
132
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
68
1
1
1
1
1
1
1
1
yqiL
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
** símbolo (-) indica que el perfil alélico para rST no fue encontrado en la base de datos http://pubmlst.org/
El análisis por rMLST clasificó a las muestras en 2 clusters: rST-4390 formado por los clones ST-1,
ST-852, ST-748 y rST-4428 que identificó únicamente un clon que pertenecía a ST-1 (H1503_S15_12) . El
perfil alélico de los dos clusters obtenidos por rMLST difería únicamente en el gen rpIX. Además, es de
destacar que el clon ST-1835 no pudo ser identificado a nivel de rST por presentar una variante alélica
nueva (rpIX=4839) que aún no ha sido indexada en la base de datos de rMLST (http://pubmlst.org/). Por otra
34
35
parte, en la muestra nº 6 (H597_S12_6 ) solo se identificaron 5 de 53 genes debido a que el ensamblado
previo fue de mala calidad (ver material suplementario: Formato Digital). Además, estos 5 genes fueron
compartidos por la especie S. aureus y Enterococcus faecalis lo que complicó la etapa de tipificación por la
técnica de rMLST y únicamente pudo clasificarse a nivel de ST, como ST-1835.
4.2.2 Estudio del fenotipo de los genomas bacterianos o “Phenotyping”
Una vez realizado el estudio de tipificación o relación filogenética de los 66 genomas bacterianos
incluidos en este estudio, decidimos analizar la composición de genes relacionados con la resistencia a
antibióticos y con la virulencia, así como, estudiar el número de plásmidos y el grupo de incompatibilidad al
que pertenecen, a través de las herramientas bioinformáticas descritas en el apartado de material y
métodos.
1- ESTUDIO DE RESISTENCIA A ANTIMICROBIANOS
La presencia de genes de resistencia a antibióticos fue detectada en 10 de las 22 (45.4%) muestras
de E. coli. Los genes hallados afectaban a diferentes familias de antibióticos, que incluyen:
aminoglucósidos, β-lactámicos, sulfonamidas, tetraciclinas, trimetoprim, macrólidos y cloranfenicol. La
muestra nº 10 (CFSAN002126_10) se caracterizó por ser la que más genes de resistencia portaba,
afectando a todas las familias de antibióticos anteriormente mencionadas, a excepción de los macrólidos.
(Tabla S-13).
Los genes que afectaban a aminoglucósidos fueron los que más frecuentemente se detectaron en las
cepas de E. coli, cuya resistencia en esta especie es adquirida. Estos genes se caracterizan por codificar
enzimas modificadoras de aminoglucósidos (EMAs) y están relacionados con el mecanismo de acción que
ejercen sobre la molécula. Los genes aph (3')-Ia (strA), aph(3'')-Ib (strB) y aph (6)-Id son ofosfotransferasas que afectan a la actividad de estreptomicina, kanamicina y neomicina. Por otro lado, el
gen aadA2 (adenililtransferasa) afecta a gentamicina y tobramicina, dos antibióticos usados ampliamente en
la práctica clínica.
En cuanto a los genes que afectan a β-lactámicos, destaca la presencia de la enzima blaTEM en 5 de
las 22 muestras. La enzima blaTEM-, es una β-lactamasa encontrada mayoritariamente en la familia
Enterobacteriaceae, se caracteriza por afectar a penicilina y cefalosporinas de 1º y 2º generación. Las
mutaciones de este gen dan lugar a otras variantes que afectan a cefalosporinas de amplio espectro y son
conocidas con el nombre de β-lactamasas de espectro extendido (BLEE). Otro de los genes importantes
detectados en una de las muestras estudiadas es la blaCMY, una cefalosporinasa del tipo ampC que se
caracteriza por afectar a penicilinas, cefalosporinas y de no inhibirse con ácido clavulánico. La importancia
de estos dos genes es que normalmente van asociados con elementos móviles de tipo plásmido que
favorece su rápida diseminación entre bacterias de diferente especie incluso de diferente género.
En la muestra nº 4 (CFSAN002094_4), que contenía genes conservados de la especie E. coli y M.
morganii detectados previamente en el estudio de tipificación, se demostró la presencia del gen blaMOR, una
cefalosporinasa del tipo ampC cromosómica de la especie M. morganii lo que se volvió a conformar que
esta muestra estaba contaminada desde el inicio del análisis.
2- ESTUDIO DE FACTORES DE VIRULENCIA
Los factores de virulencia encontrados para las muestras de E. coli se detallan en la Tabla S-19. Se
detectaron una amplia gama de factores de virulencia, de los cuales, los que presentan una mayor
relevancia son los descritos a continuación:
Tabla- 8: Contenido de genes de virulencia en Dataset_1: E.coli
GENES
DESCRIPCIÓN
Nº AISLADOS PORTADORES DEL GEN
TRANSMISIÓN
eae
Intimin
21
-
efa 1
EHEC factor for adherence
12
-
ehx A
Enterohemolysin
12
Plásmido
Stx1 A
Shiga-like toxin 1 A-subunit
18
Fago
Stx1 B
Shiga-like toxin 1 B-subunit
5
Fago
Stx 2A
Shiga-like toxin 2 A-subunit
5
Fago
Stx 2B
Shiga-like toxin 2 B-subunit
22
Fago
En todas las muestras de E. coli analizadas destacó la producción de la toxina Shiga (stx) cuya
transferencia está relacionada con fagos. Además, destaca la presencia en 21 cepas de la toxina
responsable de la lesión de adherencia y la destrucción del enterocito (eae), el factor de adherencia de E.
coli enterohemorrágico (efa, 12 cepas) que favorece la colonización del intestino y la producción de una
hemolisina enterohemorrágica (ehx, 12 cepas) que normalmente está codificada en un plásmido que
presenta una gran variabilidad genética.
3- ESTUDIO DE PLASMIDOS
La Tabla S-16 muestra la diversidad de plásmidos encontrados en las muestras pertenecientes al
data_1. Como se puede observar, el plásmido del grupo IncFII está presente en todas las muestras excepto
en la muestra nº 21 (CFSAN002151_21) y nº 22 (CFSAN002156_22) las cuales pertenecen al ST-32 (rST1534). Además, estas muestras destacan por contener el plásmido tipo IncB/O/K/Z lo que indica que estas
especies están claramente relacionadas y su aislamiento podría estar vinculado con algún tipo de brote. Por
otro lado, el plásmido COL156, es detectado en 11 de 14 cepas pertenecientes al clon ST-16, mientras que
las muestras del clon ST-32 carecen de este plásmido.
36
37
1- RESISTENCIA ANTIBIOTICOS:
Los genes seleccionados con mayor frecuencia en las 20 cepas analizadas de S. typhimurium,
afectaron tanto a familias de antimicrobianos usados como terapia en el tratamiento de salmonelosis (βlactámicos, aminoglucosidos, fenicoles, quinolonas, trimetoprim) como a otros no usados para su control
(tetraciclinas y sulfonamidas). El análisis de las muestras con resFinder mostró que la muestra nº 4
(FSW0026_4) fue la que mayor numero de genes portaba, por el contrario, en las muestras nº 1
(CFSAN003354_1) y nº 2 (CFSAN003377_2) se identificó únicamente un gen que afectaba a
aminoglucósidos (aac(6')Iaa) (Tabla S-14).
En aislados de Salmonella es frecuente encontrar la producción de β-lactamasas. En el caso de las 20
cepas testadas se detectaron los genes blaOXA, blaTEM, blaCMY los cuales afectan fundamentalmente a la
actividad de penicilinas y cefalosporinas de 1 y 2 º generación y mantienen actividad a los demás βlactámicos. Por otro lado, se observó la frecuente producción de EMAs, de entre las que destacaban la
detección de los genes strA y strB, que dan lugar a resistencia únicamente a estreptomicina y van
precedidos por el gen sul2 que confiere resistencia a sulfonamidas. Se puede observar en la tabla *** como
las muestras nº 3 (FSW0024_3), 4 (FSW0026_4), 7 (IEH-NGS-SAL-00086_7), 9 (IEH-NGS-SAL-00199_9),
15 (WAPHL-SAL-A00021_15), 17 (WAPHL-SAL-A00033_17), 18 (WAPHL-SAL-A00034_18) y 19
(WAPHL-SAL-A00035_19) experimentan este fenómeno, lo que indicó que el ensamblado presentó la
calidad suficiente como para detectar ambos genes que estaban relacionados. Destacar que los genes sul1
y sul2 están asociados normalmente a integrones que van incluidas en elementos móviles como
transposones y plásmidos, por lo que su diseminación entre bacterias se facilita.
En cuanto a los mecanismos de resistencia que afectan al cloranfenicol, destacar como el mecanismo
principal la inactivación enzimática mediada por la enzima cloranfenicol acetiltransferasa (cat A-B). Es rara
la presencia de dos genes de resistencia del tipo cat A y cat B en la misma bacteria, en el caso de que
coexistan dos genes de resistencia suelen presentar mecanismos de resistencia diferentes como es el caso
de la muestra nº 4 (FSW0026_4) que contiene el gen catB3 y floR el cual codifica una bomba de expulsión
de la molécula localizada en la pared celular de la bacteria.
Finalmente, destacar que en las las cepas nº 3 (FSW0024_3) y nº 4 (FSW0026_4) fue detectado el
gen qnr caracterizado por conferir resistencia a fluoroquinolonas e ir asociado a plásmidos conjugativos.
Además, estos genes suelen incluirse en integrones, que son estructuras caracterizadas por presentar dos
extremos conservados, 3' (gen quacEΔ1) y 5' (gen sul), lo que nos sugirió pensar que entre el material
genético accesorio que contenían estos genomas se encontraban elementos móviles del tipo de plásmidos
e integrones.
2- ESTUDIO DE FACTORES DE VIRULENCIA:
La infección por Salmonella se caracteriza por dar lugar a un conjunto de manifestaciones clínicas
donde la más importante es la inflamación intestinal seguida de la invasión del enterocito mediado por
factores de virulencia. Se estima que el 4% del genoma son genes de virulencia requeridos para la infección
lo que supone un total de 200 genes. La patogenicidad de Salmonella viene causada por dos tipos de
factores de virulencia que se clasifican de la siguiente manera:
•
•
Estructuras superficiales de la bacteria:
◦
Lipopolisacárido (LPS): Lípido A
◦
Flagelos
◦
Fimbrias
Factores solubles codificados por genes de virulencia:
Modifican la fisiología celular del hospedador y pueden estar localizados tanto en el cromosoma de
la bacteria como en plásmidos. Además pueden estar sueltos o formando agrupaciones mayores
llamadas islas de patogenicidad (IP).
Tabla-9 : Contenido de genes de virulencia de mayor relevancia en Dataset_2: S. typhimurium
CODIFICADO EN:
GENES
Nº AISLADOS
Fimbrias polares largas o “Long polar fimbria”
lpf
20
Fimbrias tipo I
fim A-I-C-D-H-F
20
FIMBRIAS
ISLAS DE PATOGENICIDAD
SPI-1: codifican componentes estructurales de sistema de secreción tipo 3
inv A-B-C-D-E-F-G-H-I-J 20
SPI-1: codifican componentes estructurales de sistema de secreción tipo 3
prg H
20
SPI-1: proteínas formadoras de poros en el epitelio
sip B-C
20
SPI-1: proteínas efectoras
spt P
20
SPI-1 / 5: proteínas reguladoras
hil A
20
SPI-2: aparato de sistema de secreción
ssa
20
SPI-2: chaperonas
sse
20
SPI-2: chaperonas
ssc
20
SPI-2 / 5: regulación del sistema de secreción
ssr
20
SPI-3: permite la adaptación en el interior del fagocito
mgt C-B
20
sop B
20
pip B
20
Salmonella plasmid virulence
spv R-A-B-C-D
20
Biosíntesis de fimbrias
pef
4
Resistencia al suero
rck
16
PLASMIDOS
38
39
Destacar que las 20 cepas de S. typhimurium analizadas en este trabajo presentan una gran variedad
de factores de virulencia (Tabla 9 y Tabla S-20). Se caracterizan por contener islas de patogenicidad que
son largas agrupaciones de genes dentro del cromosoma bacteriano que presentan un menor contenido en
GC que el resto del cromosoma y se insertan dentro de genes que codifican ARNt. Del total de cepas de
Salmonella estudiadas se detectaron las siguientes IP que contenían diversos genes cuya función se detalla
a continuación:
•
SPI-1 (40Kb): intervienen en la patogenicidad intestinal (inflamación del epitelio y diarrea).
•
SPI-2 (40Kb): capacidad de la bacteria de sobrevivir en el interior de los macrófagos. Los genes de
esta IP son esenciales en la infección sistémica.
•
SPI-3 (15Kb): adaptación de la bacteria en el interior del fagocito.
•
SPI-5 (7,4Kb): Participa en la patogenicidad de la bacteria asociándose con la IP1 y IP2.
Además de los genes contenidos en IP, estas cepas se caracterizan por contener genes sueltos que
no forman agrupaciones como por ejemplo el gen sif A (20 cepas) implicado en la multiplicación de la
bacteria en el interior de los macrófagos.
3- ESTUDIO DE PLASMIDOS:
Con frecuencia en las especies de Salmonella de serotipos adaptados al hombre, como es el caso de
S. typhimurium, se encuentran plásmidos que contienen genes de virulencia, caracterizados por presentar
tamaños de 50-150Kb. Todos los plásmidos de este tipo presentan una región denominada spv
(“Salmonella plasmid virulence”) formada por 5 genes (spv R-A-B-C-D). Además, contiene otro loci que
participa en la biosíntesis de fimbrias (pef) o en la resistencia al suero (rck). Estos plásmidos portan dos
replicones funcionales, repB y repC, que se encargan de mantener bajo el número de plásmidos (1-2
copias) y el operon tra implicado en la transferencia del plásmido por conjugación.
El análisis realizado con plasmidFinder reveló gran variedad de plásmidos en las 20 cepas de
S.typhimurium. Los plásmidos encontrados con mayor frecuencia fueron los pertenecientes al grupo IncFIB
(N=16 cepas) y IncFII (N= 17 cepas), seguido por IncP (N=13 cepas). Si relacionamos el tipo de plásmidos
detectado con la tipificación de las cepas, podemos destacar que las cepas pertenecientes al ST-32 no
portaban ninguno de estos plásmidos encontrado de manera frecuente. Sin embargo, se detectaron otros
plásmidos del tipo IncQ1 (muestra nº 3 ST-32) y IncHI2 (muestra nº 4 ST-32) que suponemos que albergan
los determinantes de resistencia qnr y sul2, en la muestra nº 3 (FSW0024_3), y genes qnr, sul1, sul2,
dfrA12 y catB3 en la muestra nº 4 (FSW0026_4), en lugar de factores de virulencia, debido a la ausencia de
los genes pef y rck, por lo que deducimos que los genes de virulencia van contenidos en IP integradas en el
cromosoma bacteriano (Tabla S-17).
1- RESISTENCIA ANTIBIOTICOS:
En la actualidad el 90% de las cepas de S.aureus son resistentes a penicilina y esto se debe a la
producción de una β-lactamasa que es codificada por el gen blaZ. De las 24 muestras analizadas para este
estudio, 21 (87%) presentaban resistencia para este gen. Sin embargo, dos de las muestras, la nº 6
(H597_S12_6) y la nº 23 (M3505_S6_23), a pesar de no expresar el gen blaZ mantienen la resistencia a
penicilina debido a que produce el gen mecA. Todas las muestras mostraron la presencia de mecA a
excepción de la muestra nº 12 (H1503_S15_12), que fue la que menor número de genes de resistencia
portaba.
En cuanto a resistencia a aminoglucósidos destacar la presencia de los genes aph(3')-III y ant(6)-Ia
en 8 muestras y el gen aadD en 1 muestra. Las 24 cepas presentaban como mecanismo de resistencia la
presencia de bombas de expulsión que afectó a tetraciclina (tet38). Nueve de las muestras mostraban
resistencia a macrólidos y solo 1 muestra mostraba resistencia a trimetoprim. (Tabla S-15).
2- ESTUDIO DE FACTORES DE VIRULENCIA:
Los factores de virulencia más importantes de las 24 cepas incluidas en el estudio están destacados
en la Tabla 10 y Tabla S-21:
Tabla- 10: Contenido de genes de virulencia de mayor relevancia en Dataset_3: S. aureus
FACTOR DE VIRULENCIA
GENES
Nº AISLADOS
Mecanismo de adherencia
•
Adherencia y colonización
fnbp B
5
•
Adherencia y colonización
cna
23
•
Formación de Biofilm
ica A-B-C-R
24
•
Antígeno capsular
cap*
-
Producción de Toxinas
•
Hemolisinas
Hla, hlb, hld, hlgA, hlgB, hlgC
24
•
Leucocidinas (Panton-Valentine)
lukF-PV, lukS-PV
5
•
Exfoliativas
eta
24
* Este gen presenta diferentes variantes y el nº de aislados está especificado en la Tabla ** del material suplementario
40
41
Los mecanismos de patogenia de dichos factores se explican a continuación:
•
Moléculas de adherencia: proteínas localizadas en la superficie de la bacteria y que favorecen la
adherencia a los tejidos del hospedador para comenzar la colonización.
•
Formación de biofilms: conjunto de células que quedan adheridas a un sustrato y están
embebidas en una sustancia polimérica dando lugar a alteraciones respecto al crecimiento,
expresión de genes y producción de proteínas. Este proceso impide la entrada de antibióticos y de
células del sistema inmune al interior provocando infecciones recurrentes.
•
Producción de toxinas: Se distinguen varios tipos de toxinas:
◦
Hemolisinas: proteínas que se secretan al exterior para formar poros en la membrana de la
célula hospedadora y causar la lisis de ésta. Es altamente citotóxica para células del sistema
inmune y es considerado uno de los factores de virulencia más importantes.
◦
Leucocidinas (leucocidina de Panton-Valentine) : esta formada por dos componentes (lukF-PV y
lukS-PV) que se secretan de forma independiente en forma de monómeros y se anclan a la
membrana de la célula hospedadora formando un complejo que conduce a la formación de un
poro dando lugar a la muerte de la célula. Presenta una alta afinidad por leucocitos y está
altamente asociado a S. aureus resistente a meticilina adquirido en la comunidad. Es
responsable de la neumonía necrosante e infecciones de piel. Las muestran que presentan los
genes lukF-PV y lukS-PV fueron, la muestra nº 1 (H401_S11_1), nº 15 (H1503_S15_12), 18
(M1056_S3_18), 19 (M1313_S5_19) y 23 (M3505_S6_23) y además, todas ellas, fueron
portadoras del gen mecA.
◦
Toxinas exfoliativas: proteínas causantes del síndrome de la piel escaldada. Están presentes en
el 10% de S. aureus y están codificadas por el gen eta que es detectado en el 100% de las
muestras analizadas en este trabajo.
Los datos analizados no mostraron la presencia de enterotoxinas que están asociadas con la
intoxicación alimentaria y tampoco de la toxina causante del Síndrome de shock tóxico (TSST-1).
3- ESTUDIO DE PLASMIDOS:
Los plásmidos de bacterias gram positivas no están tan bien caracterizados como los plásmidos de la
familia Entrerobacteriaceae. En este estudio, decidimos utilizar la herramienta plasmidFinder para gram
positivos sabiendo que la base de datos está en construcción. Entre los resultados obtenidos destaca la
detección de genes relacionados con la replicación, denominados replicones (“rep”). Los replicones más
representados en las muestras estudiadas son rep5, rep7 y rep16 (Tabla S-18).
5. CONCLUSIÓN Y DISCUSIÓN
Uno de los objetivos iniciales de este TFM fue desarrollar un workflow para el análisis de datos de
NGS, que incluía una etapa de control de calidad de secuencias, ensamblado de novo con Velvet y
evaluación de la calidad del ensamblado con QUAST, con el objetivo de realizar un estudio de tipificación
basado en la aproximación “gene-by-gene”. Sin embargo, debido a la limitación en el tiempo de prácticas no
se pudo realizar, aunque éste era el objetivo principal. Como solución a esta limitación, decidimos redirigir el
estudio hacia la caracterización fenotípica de los genomas bacterianos. El conjunto de datos estaba
compuesto por 3 grupos taxonómicos: E. coli (n=22), S. typhimurium (n=20) y S. aureus (n=24). Todos los
datos se analizaron sin conocer la información epidemiológica ni experimental asociada a cada una de las
muestras. Los genomas fueron secuenciados mediante la plataforma Illumina MiSeq a partir de librerías PE
con tamaño de lectura de la secuencia de 151 ó 251 pb. Los datos de las lecturas secuenciadas fueron
proporcionados en formato fastq a la Unidad de Bioinformática (ISCIII) en el mes de junio 2014. La duración
de este TFM fue de un periodo de 3 meses comprendido desde septiembre a noviembre de 2014.
Los últimos avances en NGS han supuesto nuevos retos para el campo de la Microbiología Clínica y
Salud Pública, sin embargo, la falta de herramientas automatizadas e intuitivas para llevar a cabo el análisis
de datos sigue siendo una de las principales barreras [8,22,37]. Recientemente, se ha publicado una
revisión de Fricke et al. donde se describen los principales retos asociados a la aplicación de datos de
secuenciación de genomas bacterianos en el ámbito clínico, entre ellos, destaca la necesidad de normalizar
las técnicas, gestionar los recursos informáticos que ayuden a reducir tanto el coste como el tiempo
dedicado al análisis, así como, la integración del conjunto de los datos y el almacenamiento de los mismos
[11].
Nuestro trabajo consistió en diseñar un workflow semi-automatizado donde se definió un conjunto de
herramientas y parámetros para asegurar que los datos fueran reproducibles. Las etapas del workflow
fueron ejecutadas para cada dataset de forma independiente (data_1, data_2 y data_3) [9]. Inicialmente, se
observó gran variabilidad en la calidad de las secuencias originales, siendo las muestras pertenecientes al
data_1 las que peores calidades presentaban, seguido por el data_2. El data_3 formado por 24 muestras
presentó las mejores calidades. Hay que destacar que las muestras fueron secuenciadas por la misma
tecnología pero diferente laboratorio y personal por lo que la variabilidad entre las muestras es
comprensible. La estrategia seguida en la etapa de pre-procesamiento resultó eficaz en la mayoría de las
muestras analizadas y mejoró de forma significativa las calidades de las muestras del data_1.
Actualmente, existen dos estrategias de análisis de genomas: la primera, consiste en el alineamiento
de las lecturas con el genoma de referencia para el estudio de variantes. La segunda, consiste en la
reconstrucción del genoma de novo sin usar un genoma de referencia con el fin de obtener secuencias
contiguas a partir de las cuales se extraerá la información de interés [37]. Para la realización de este trabajo
se eligió la estrategia de ensamblado de novo , mientas que, otro estudiante, de este mismo máster, realizo
42
43
su proyecto basándose en la primera estrategia. Ambos trabajos tenían la finalidad de poder comparar en
un futuro las dos estrategias y sacar conclusiones conjuntas.
A diferencia de lo ocurrido en las competiciones de ensamblado (Assemblaton y GAGE), donde se
evalúan diferentes ensambladores, en este trabajo únicamente se seleccionó una herramienta como
consecuencia de la gran cantidad de muestras disponibles para el análisis [10,30,35]. Velvet se seleccionó
por ser uno de los ensambladores más usados en la reconstrucción de genomas bacterianos secuenciados
por Illumina, así como, por la capacidad de eliminar errores de secuenciación y por permitir la optimización
de diferentes parámetros a partir del programa VelvetOptimiser.pl [39]. Sin embargo una de las limitaciones
que tiene Velvet es que selecciona el mejor ensamblado en función de la métrica N50 [10,30,32,35]. La
mayoría de los estudios publicados en la literatura seleccionan el mejor ensamblador basándose en el nº de
contigs, tamaño del genoma o la métrica N50. En particular, el tamaño N50 rara vez presenta correlación
con la calidad real del ensamblado, como se han demostrado en las recientes competiciones de
ensamblado (Assemblaton, GAGE) [32]. Por este motivo decidimos añadir al workflow la etapa de
evaluación de la calidad del ensamblado mediante QUAST.
Desde el punto de vista del ensamblado, las métricas obtenidas para el conjunto de datos
pertenecientes a data_1 (E. coli) fueron de calidad deficiente. Además, las métricas adicionales calculadas
por QUAST corroboraron los malos resultados. Todo ello demuestra que, (i) Velvet no es la mejor
herramienta de ensamblado, (ii) que la secuenciación no presenta la suficiente calidad y (iii) las
características del genoma requieren de una secuenciación con diferentes características en tamaño de
inserto o longitud de lectura. Si comparamos nuestros resultados con algunos estudios previos donde
evalúan varios ensambladores, de entre ellos Velvet, para reconstruir el genoma de una cepa de E. coli, el
nº de misassemblies obtenidos en los contigs ensamblados es muy superior en nuestro estudio [13]. Este
fenómeno puede ser debido a errores cometidos durante el proceso de secuenciación o a la formación de
quimeras entre las lecturas. Además, la fracción de genoma de referencia alineado con los contigs
ensamblados no llega al 90%, el promedio de mismatches, indels y nº de bases desconocidas (Ns) fue
bastante elevado para todas las muestras pertenecientes al data_1, con lo que volvemos a reiterar que
Velvet no es la herramienta adecuada o que la referencia seleccionada no es la más correcta para comparar
este conjunto de datos.
Esta hipótesis fue confirmada tras observar el análisis de los resultados propuestos por el software
iMetAMOS de dos muestras seleccionadas al azar. En ambas muestras Spades se mostró como el mejor
ensamblador mientras que Velvet se clasificó en las últimas posiciones.
Por otro lado, quisimos comprobar como afectaba la etapa de pre-procesamiento en el ensamblado de
los genomas, para ello, realizamos la comparación de los ensamblados de las muestras procesadas y sin
procesar. En general, se observó como las métricas de ensamblado mejoraban con la etapa de preprocesamiento, sobretodo atendiendo al data_1 que fue el que presentaba peores calidades. Sin embargo,
es importante
destacar que hubo un conjunto de muestras pertenecientes al data_2 y data_3 que
presentaban mejores métricas cuando se ensamblaban los datos crudos sin procesar. Si relacionamos
estos resultados con las calidades previas del data_2 y data_3 que fueron mejores respecto el data_1,
podemos sacar como conclusión que la etapa de pre-procesamiento influyó de forma negativa en la etapa
de ensamblado para 11 de 66 muestras incluidas en este análisis. Por lo tanto, una de las limitaciones a
destacar en esta etapa de análisis fue que se utilizaron las mismas herramientas y parámetros para todo el
conjunto de muestras sin atender a la calidad previa. Entre las posibles soluciones que se podrían haber
aplicado para solucionar este problema, una podría haber sido diseñar otra estrategia que se adaptara
mejor a las circunstancias de las 11 muestras que se vieron afectadas, y otra posibilidad podría haber sido
tratar a cada muestra de forma independiente.
Una de las aplicaciones de NGS en microbiología es estudiar la relación evolutiva entre las bacterias
que le permite al microbiólogo rastrear los cambios espacio-temporales de las poblaciones bacterianas para
identificar cepas productoras de brotes y su fuente de transmisión [8,22,31,37]. Existen diferentes
aproximaciones y técnicas para establecer las relaciones filogenéticas. Para este trabajo se seleccionaron
dos técnicas (MLST y rMLST) que nos permitió trabajar a partir de genomas ensamblados. La técnica MLST
está basada en el análisis de las variaciones de 7 genes conservados y es útil para estudiar la diversidad de
una amplia gamma de bacterias, presenta una gran reproducibilidad y permite almacenar la información en
bases de datos que se van actualizando frecuentemente. Sin embargo, a pesar de ser un método robusto
presenta algunas limitaciones, de entre la más importante destaca que no es capaz de proporcionar
discriminación entre organismos estrechamente relacionados que pertenecen al mismo clon. Esta limitación
obliga a completar el estudio de tipificación con otros métodos de mayor resolución, como por ejemplo los
métodos basados en el estudio de los polimorfismo de un solo nucleótido (SNPs) para el análisis del
genoma completo [29]. En este sentido, debido a las limitaciones anteriormente mencionadas decidimos
incluir la técnica rMLST la cual está basada en ampliar el concepto de MLST aumentando el número de
genes. En este caso se incluyen 53 genes que codifican la subunidad de las proteínas ribosomales y que
están distribuidos a través del genoma, por lo que ofrece una cierta estabilidad de cara a los fenómenos de
transferencia horizontal. Además, la gran variabilidad permite un mayor poder de discriminación entre
especies que están estrechamente relacionadas y permite establecer agrupaciones de especies que
presentan un alto grado de variabilidad dentro del mismo ST [18,29].
En relación a la tipificación realizada en este trabajo, podemos concluir que los resultados fueron
coherentes con lo descrito anteriormente para el data_1 y data_2. Es importante destacar, las discrepancias
encontradas para el data_3 respecto a la técnica rMLST, la cual se supone que tiene mayor resolución, sin
embargo, ésta mostró un menor número de clusters respecto a la técnica MLST (3 clusters rMLST vs. 4
clusters MLST). Una de las posibles soluciones para esclarecer lo ocurrido con este dataset podría ser la
realización de la tipificación basada en el enfoque “gene-by-gene” que está implementado con el software
BIGsDB (Bacteial Isolates Genome Sequence database) que se apoya en el análisis de todos los genes del
genoma de la bacteria y es conocido como whole-genome MLST (wgMLST) [2,16,17,19,36].
44
45
A pesar del gran número de publicaciones sobre la tipificación de genomas bacterianos, tanto con la
aproximación de SNPs como con la “gene-by-gene”, no hemos encontramos ningún estudio donde se
comparan ambos enfoques. Puesto que este era el objetivo inicial de este trabajo y no pudo realizarse por la
limitación del periodo de prácticas, decidimos proponerlo como una futura línea de investigación con el fin
de completar el estudio y comparar todos los resultados de forma conjunta.
A pesar de que los ensamblados obtenidos no presentaban a priori una calidad máxima, pudimos
llegar a conocer con más detalle las características fenotípicas de los aislados gracias a las herramientas de
análisis incluidos en el CGE (http://www.genomicepidemiology.org/). De entre los resultados más relevantes,
desde el punto de vista de Salud Pública, cabe destacar que el total de las 22 muestras identificadas como
E. coli presentaban como peculiaridad la producción de toxina Shiga, cuya transmisión está relacionada con
el mecanismo mediado por fagos, acompañado de otras toxinas del tipo eae, efa ehx relacionadas con la
patogenicidad de la bacteria. La especie de E. coli productor de toxina Shiga (STEC), es un patógeno que
tiene una gran capacidad de diseminación a través de la ingestión de alimento o agua contaminados o por el
contacto de persona a persona. Se caracteriza por causar diarreas con sangre y en algunos casos producir
el Síndrome Urémico Hemolítico que viene acompañado de una insuficiencia renal grave, trombocitopenia y
anemia hemolítica microangiopática que puede complicarse produciendo la muerte del individuo infectado.
Por todo ello, es muy importante llevar a cabo un diagnostico y detección rápido para limitar su diseminación
y evitar la aparición de brotes [10,15]. En relación con los resultados obtenidos en este trabajo, y teniendo
en cuenta que no disponemos de la información epidemiológica de origen de los aislados ni de los pacientes
afectados, no podemos concluir que las muestras incluidas en el data_1 fueran causantes de algún tipo de
brote, a pesar de haber encontrado poca variabilidad en los datos pertenecientes a este dataset.
El conjunto de muestras de S. typhimurium destacó por presentar gran cantidad de genes de
resistencia algunos de ellos relacionados directamente con la transferencia a través de plásmidos
conjugativos, como es el caso del gen qnr que afecta a quinolonas el cual es usado como tratamiento
elección para salmonelosis. Además estas cepas se caracterizaron por presentar gran cantidad de factores
de virulencia que en su mayoría estaban asociados a IP, lo que podría indicar que han sido adquiridas por
transferencia horizontal a partir de fagos (transducción) o plásmidos (conjugación) [1,23,25,26,34]. En este
set de datos se detectaron dos clusters, uno formado por 18 muestras (ST-19) y otro por 2 muestras (ST36), una situación similar a lo ocurrido en el data_1.
Finalmente, lo más destacado del análisis llevado a cabo en las muestras de S. aureus fue encontrar
el gen mecA en el 95,8% (23 muestras). El gen mecA, codifica para una proteína de unión a penicilina tipo 2
(PBP) que da lugar a una baja afinidad en la unión con la molécula de antibiótico de forma que inactiva
completamente a todos los β-lactámicos [1,34]. Esta resistencia es una de las más importantes a tener en
cuenta en infecciones causadas por S.aureus adquiridos en la comunidad o en el hospital. Además es
importante mencionar que todas las muestras incluían un amplio repertorio de factores de virulencia que le
permiten sobrevivir en condiciones extremas en el hospedador humano y que le permite producir
manifestaciones, de entre las que destacan, la bacteriemia, la afectación de piel y tejidos blandos,
infecciones del tracto respiratorio inferior, endocarditis, ostiomielitis, entre otras. Uno de los factores de
virulencia más importantes fue la producción de leucocidina de Panton-Valentine, codificada por los genes
LukS-PV y LukF-PV, que está altamente asociado a S. aureus resistentes a meticilina adquiridos en la
comunidad. En todas las muestras donde se detectaron estos genes además se detectó la producción del
gen mecA por lo que coincidiría con los datos publicados en la literatura [14,27]. Sin embargo, no podemos
confirmar este hallazgo debido a que no tenemos los datos epidemiológicos que pudieran asegurar que
estos aislados son adquiridos en la comunidad.
Entre las limitaciones encontradas en el análisis fenotípico a través de las herramientas web de CEG
destacan las siguientes:
•
La aplicación solo permite identificar genes de resistencia adquiridos y no detecta aquella
resistencia causada por mutaciones del genoma. Como solución se propone completar esta
información utilizando otras base de datos como por ejemplo ARG-ANNOT la cual está actualizada,
curada y permite detectar los genes de resistencia más relevantes [12].
•
La base de datos para plásmidos de gram positivos está en construcción y por lo tanto los
resultados obtenidos en este trabajo son preliminares y sería necesario completarlo una vez esté
terminada la aplicación.
Como conclusión, en este trabajo hemos sido capaces de crear un workflow de análisis de datos que
incluyen diferentes herramientas y parámetros, además de extraer la información más relevante de cada
una de las muestras relacionadas con tipificación, genes de resistencia y virulencia, así como con los
plásmidos relacionados con la transferencia horizontal. Sin embargo, al tratarse de un estudio “en ciego”, es
difícil saber si se han interpretado correctamente los resultados puesto que no disponemos de los datos
epidemiológicos y experimentales que certifiquen que son ciertos, por lo tanto sería necesario comprobar
esta información en estudios posteriores.
46
47
8. REFERENCIAS BIBLIOGRAFICAS
1.
Angela H et al. Acquired antibiotic resistance genes: an overview. Front Microbiol. 2011. 28;2:203.
2.
Bialek-Davenet et al. Genomic definition of hypervirulent and multidrug-resistant Klebsiella pneumoniae
clonal groups. Emerg Infect Dis. 2014. 20;11:1812-20.
3.
Blanco M et al. Serotypes, virulence genes, and intimin types of Shiga toxin (verotoxin)-producing
Escherichia coli isolates fromcattle in Spain and identification of a new intimin variant gene (eae-xi). J
Clin Microbiol. 2004. 42;2:645-51.
4.
Bolger, A. M. et al. Trimmomatic: A flexible trimmer for Illumina Sequence Data. Bioinformatics. 2014.
30;15:2114-20.
5.
Carattoli A et al. PlasmidFinder and pMLST: in silico detection and typing of plasmids. Antimicrob.
Agents Chemother. 2014. 58;7:3895-903
6.
Carriço JA et al. Bioinformatics in bacterial molecular epidemiology and public health: databases, tools
and the next generation sequencing revolution. Euro Surveill. 2013. 24; 18(4).
7.
Dark MJ et al. Whole-genome sequencing in bacteriology: state of the art. Infect Drug Resist. 2013.
8;6:115-23.
8.
Didelot X et al. Transforming clinical microbiology with bacterial genome sequencing. Nat Reviews,
genetics, 13, 2012.
9.
Edwards DJ et al. Beginner's guide to comparative bacterial genome analysis using next-generation
sequence data. 2013. 3;1:2.
10. Earl, D. et al. Assemblathon 1: a competitive assessment of de novo short read assembly methods.
Genome Res. 2011. 21:2224–2241.
11. Fricke WF et al. Bacterial genome sequencing in the clinic: Bioinformatic challenges and solutions. Nat
Rev Genet. 2014. 15:49-55.
12. Gupta, SK et al. ARG-ANNOT, a new bioinformatic tool to discover antibiotic resistance genes in
bacterial genomes. Antimicrob Agents Chemother. 2014. 58;1:212-20.
13. Gurevich A et al. QUAST: quality assessment tool for genome assemblies. Bioinformatics. 2013.
29;8:1072-5.
14. Harris SR et al. Evolution of MRSA during hospital transmission and intercontinental spread. Science.
2010. 327;5964:469-74.
15. Joensen KG et al. Real-time whole-genome sequencing for routine typing, surveillance, and outbreak
detection of verotoxigenic Escherichia coli. J. Clin. Micobiol. 2014. 52;5: 1501-1510.
16. Jolley KA et al. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC
Bioinformatics. 2010. 10;11:595.
17. Jolley KA et al. Resolution of a meningococcal disease outbreak from whole-genome sequence data
with rapid Web-basedanalysis methods. J Clin Microbiol. 2012. ;50;9:3046-53.
18. Jolley KA et al. Ribosomal multilocus sequence typing: universal characterization of bacteria from
domain to strain. Microbiology. 2012. 158;Pt 4:1005-15.
19. Jolley KA et al. Automated extraction of typing information for bacterial pathogens from whole genome
sequence data: Neisseria meningitidis as an exemplar. Euro Surveill. 2013. 18;4:20379.
20. Kisand V et al. Genome sequencing of bacteria: sequencing, de novo assembly and rapid analysis
using open source tools. BMC Genomics. 2013. 1;14:211.
21. Koren S et al. Automated ensemble assembly and validation of microbial genomes. BMC
Bioinformatics. 2014. 15:126.
22. Koser et al. Routine use of microbial whole genome sequencing in diagnostic and public health
microbiology. Plos Pathogens 8, 2012.
23. Langille MG et al. Detecting genomic islands using bioinformatics approaches. Nat Rev Microbiol. 2010.
8;5:373-82.
24. Larsen MV et al. Multilocus Sequence Typing of Total-Genome-Sequenced Bacteria. J Clin Microbiol.
2012. 50;4:1355-61.
25. Leekitcharoenphon P et al. Evaluation of whole genome sequencing for outbreak detection of
Salmonella enterica. PloS One. 2014. 9;2:e87991.
26. Leekitcharoenphon P et al. Genomic variation in Salmonella enterica core genes for epidemiological
typing. BMC Genomics. 2012. 12;13:88.
27. Lindsay JA et al. Staphylococcus aureus: superbug super genome? Trends Microbiol 2004; 12: 378385.
28. MacLean D et al. Application of ‘next-generation’ sequencing technologies to microbial genetics. Nat
Rev Microbiol. 2009. 7;4:287-96.
29. Maiden MC et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nat Rev Microbiol.
2013. 11;10:728-36.
30. Magoc T et al. GAGE-B: an evaluation of genome assemblers for bacterial organisms. Bioinformatics.
2013. 29;14:1718-25.
31. Medini D et al. Microbiology in the post-genomic era. Nat Rev Microbiol. 2008. 6;6:419-30.
32. Nagarajan N et al. Sequence assembly demystified. Nat Rev Genet. 2013. 14;3:157-67.
33. Paszkiewicz K et al. De novo assembly of short sequence reads. Brief Bioinform. 2010. 11;5:457-72.
34. Perry JA et al. The antibiotic resistome: what's new?. Curr Opin Microbiol. 2014. 21C:45-50.
35. Salzberg, S. L. et al. GAGE: a critical evaluation of genome assemblies and assembly algorithms.
Genome Res. 2012. 22:557–567 .
36. Sheppard S et al. A Gene-By-Gene Approach to Bacterial Population Genomics: Whole Genome MLST
of Campylobacter. Genes. 2012. 3;2:261-77.
37. Wyres KL et al. WGS Analysis and Interpretation in Clinical and Public Health Microbiology
Laboratories: What Are theRequirementsand How DoExistingToolsCompare?. Pathogens. 2014.
3;2:437-58.
38. Zankari
E
et
al.
Identification
of
acquired
antimicrobial
resistance
genes.
J Antimicrob Chemother. 2012. 67;11:2640-4.
39. Zerbino DR et al. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome
Res. 2008. 18;5:821-9.
48

Workflow for Bacterial Whole Genome Sequencing Analysis: Typing

Transcripción

Documentos relacionados

Genomas Bacterianos en tiempo record

instrucciones para ensamblado