Workflow for Bacterial Whole Genome Sequencing Analysis: Typing
Transcripción
Workflow for Bacterial Whole Genome Sequencing Analysis: Typing
Workflow for Bacterial Whole Genome Sequencing Analysis: Typing, Antibiotic Resistance and Virulence Factors Estudiante: Jennifer Villa García MÁSTER EN BIOINFORMÁTICA Y BIOLOGÍA COMPUTACIONAL ESCUELA NACIONAL DE SANIDAD- INSTITUTO DE SALUD CARLOS III 2013-2014 CENTRO DE PRÁCTICAS UNIDAD DE BIOINFORMÁTICA CENTRO NACIONAL DE MICROBIOLOGÍA-INSTITUTO DE SALUD CARLOS III DIRIGIDO POR ISABEL CUESTA, JORGE DE LA BARRERA CODIRECTOR DE LA TESIS JAVIER TAMAMES FECHA 3 Febrero de 2015 ÍNDICE 1. INTRODUCCIÓN …...........................................................................................................................1 2. OBJETIVOS …..................................................................................................................................2 3. MATERIAL Y MÉTODOS 3.1 Descripción del análisis bioinformático y de los Dataset estudiados …......................................3 3.2 Análisis primario …......................................................................................................................5 3.3 Análisis secundario ….................................................................................................................5 3.3.1 Pre-procesamiento y control de calidad de las secuencias …........................................6 3.3.2 Ensamblado de los genomas ….....................................................................................8 3.3.2.1 Concepto del ensamblado de genomas ….........................................................8 3.3.2.2 Tipo de ensamblado ….......................................................................................8 3.3.2.3 Algoritmos de ensamblado de novo …...............................................................9 3.3.2.4 Ensamblador VELVET ….................................................................................11 3.3.3 Evaluación de la calidad del ensamblado …….............................................................14 3.3.4 Automatización del ensamblado de genomas bacterianos: iMetAMOS …...................17 3.4 Análisis terciario …....................................................................................................................18 3.4.1 Tipificación o “Genotyping” de los genomas bacterianos ….........................................19 3.4.2 Estudio del fenotipo de los genomas bacterianos o “Phenotyping” …..........................19 4. RESULTADOS 4.1 Análisis secundario …...............................................................................................................20 4.1.1 Pre-procesamiento y control de calidad de las secuencias …......................................20 4.1.2 Ensamblado de novo de genomas y evaluación de la calidad del ensamblado ….......26 4.2 Análisis terciario …....................................................................................................................32 4.2.1 Tipificación o “Genotyping” de los genomas bacterianos ….........................................32 4.2.2 Estudio del fenotipo de los genomas bacterianos o “Phenotyping” …..........................35 5. CONCLUSIÓN Y DISCUSIÓN …....................................................................................................42 6. REFERENCIAS BIBLIOGRÁFICAS …...........................................................................................47 1 1. INTRODUCCIÓN El desarrollo de las técnicas de secuenciación masiva (NGS) está afectando de forma importante al campo de la microbiología clínica donde las bacterias patógenas representan una grave amenaza para la salud pública [22]. Entre los objetivos que se plantea esta disciplina están, poder obtener diagnósticos precisos y rápidos para clasificar a los microorganismos y limitar su propagación previniendo la aparición de brotes. Las etapas que componen el diagnóstico microbiológico consisten en poder aislar la bacteria patógena a partir de una muestra clínica, realizar la identificación a nivel de especie, determinar el potencial patógeno y comprobar la sensibilidad a los antibióticos. Toda esta información es utilizada de forma racional para dirigir el tratamiento más adecuado hacia los pacientes [22,28]. Actualmente, la información que se obtiene de los aislamientos bacterianos proviene de los experimentos realizados en el laboratorio. Este proceso puede durar desde días, para microorganismos de rápido crecimiento, hasta meses, en el caso de bacterias de lento crecimiento, como Mycobacterium tuberculosis. Sin embargo, gracias a la reducción progresiva de los costes de secuenciación masiva, esta tecnología se podrá ir incorporando en un futuro en la rutina de los laboratorios de microbiología clínica [22]. La secuencia del genoma completo de bacterias contiene toda la información necesaria para llevar a cabo una adecuada discriminación entre los aislados clínicos y realizar vigilancia epidemiológica. En este sentido, la tecnología de secuenciación masiva podría sustituir aquellos procedimientos que actualmente se desarrollan en el laboratorio que son complejos, tediosos y de larga duración, permitiendo obtener toda la información necesaria para tratar a los pacientes y controlar brotes en un solo paso [8]. Uno de los aspectos más importantes a tener en cuenta es la gran cantidad de datos proporcionados por estas técnicas lo que supone un verdadero desafío a la hora de realizar una correcta interpretación de los resultados por parte del personal de un laboratorio de microbiología clínica. Para facilitar el uso de datos de NGS en el diagnostico de rutina, tipificación y vigilancia, es necesario que los datos de las secuencias se puedan convertir de forma automática y rápida a información clínicamente relevante que sea fácil de interpretar por clínicos y profesionales de salud publica con limitados conocimientos en bioinformática [37]. Sin embargo, hasta que no se lleve a cabo la normalización de los protocolos de trabajo y se desarrollen herramientas de fácil manejo e interpretación para extraer y analizar la información, esta aplicación supondrá un gran reto y tardará bastantes años hasta que se pueda implantar de forma rutinaria en un laboratorio de microbiología clínica [11]. En este sentido, en el año 2011 se creó una iniciativa global denominada GMI ( Global Microbial Identifier, www.globalmicrobialidentifier.org) impulsada por 200 grupos de investigación de al menos 30 países que pertenecían a distintos ámbitos de estudio (clínico, veterinario, alimentación). Este grupo esta integrado por un equipo multidisciplinar en el que destaca la participación de Microbiólogos, Virólogos, Bioinformáticos (NCBI, EBI), Epidemiólogos y Agencias de Salud Pública (ECDC, CDC). El GMI propone desarrollar un sistema global que integre, comparta y analice los datos genómicos incorporando los datos de secuenciación masiva. Esto permitirá llevar a cabo la identificación de microorganismos y facilitar la vigilancia epidemiológica de brotes. La Unidad de Bioinformática del Centro Nacional de Microbiología (Instituto de Salud Carlos III) está integrada en el grupo GMI y este trabajo de fin de máster forma parte de la iniciativa global propuesta por este grupo. Uno de los objetivos del proyecto es visualizar si los laboratorios de microbiología a nivel mundial están familiarizados con la secuenciación y análisis del genoma completo, y si lo tienen incorporado a su rutina. Para ello se ofertará un test que podrá realizar cualquier laboratorio de forma voluntaria. Para poder evaluar correctamente las capacidades de los laboratorios se definirá ese test de acuerdo a los resultados de un proyecto piloto previo en el que participaron por invitación 9 grupos de diferentes países, USA, Alemania, Dinamarca, Australia y España . El proyecto piloto comenzó con el análisis del genoma de 3 especies de bacterias diferentes que fueron elegidos por sus diferentes características genómicas y con el objetivo de representar el grado de variación que puede encontrarse en un brote típico en un hospital. Las especies bacterianas seleccionadas se caracterizan por ser patógenos comunes en el hombre y presentar gran importancia en el ámbito clínico [3,14,15,25-27]. 2. OBJETIVOS El objetivo principal de este trabajo de fin de máster es adquirir experiencia en el análisis de datos procedentes de la secuenciación masiva de genomas bacterianos, en el contexto de un proyecto piloto cuyo principal objetivo es la aplicación de las técnicas de secuenciación masiva en la microbiología clínica. Dentro de los objetivos generales propuestos destacan, el manejo de diferentes herramientas bioinformáticas de análisis de datos de NGS e interpretación de los resultados obtenidos. Los objetivos específicos planteados fueron los siguientes: 1. Desarrollar un workflow para el análisis de datos de NGS de genomas bacterianos, que incluyeron los siguientes apartados: • • Análisis secundario: ◦ Pre-procesamiento y control de la calidad de las secuencias. ◦ Ensamblado de novo de las secuencias y evaluación de la calidad del ensamblado. Análisis terciario ◦ ◦ Tipificación basada en las siguientes técnicas: ▪ Multilocus Sequence Typing (MLST). ▪ Ribosomal Multilocus Sequence Typing (rMLST). ▪ Whole-genome Multilocus Sequence Typing (wgMLST) Estudio Fenotípico: ▪ Análisis de genes de resistencia a antibióticos, factores de virulencia y plásmidos. 2. Desarrollar scripts en bash y perl para el análisis de datos de la secuenciación del genoma de las bacterias que serán ejecutados dentro del workflow diseñado. 2 3 3. MATERIAL Y MÉTODOS 3.1 DESCRIPCIÓN DEL ANÁLISIS BIOINFORMÁTICO Y DE LOS DATASET ESTUDIADOS Para la realización de este trabajo se utilizó un conjunto de datos proporcionados por el proyecto piloto impulsado por el GMI que estaba formado por 66 genomas de 3 microorganismos diferentes: Escherichia coli, Salmonella enterica serovar typhimurium y Staphylococcus aureus. Los Dataset se suministraron “en ciego”, sin información acerca de la especie, siendo necesaria la identificación de cada uno de ellos mediante mapeo de las secuencias a un genomas de referencia. Las características de secuenciación de cada set de datos son las que figuran en la tabla: Tabla-1: Características de los Dataset proporcionados por GMI DATASET ORGANISMO Nº MUESTRAS LIBRERÍA PLATAFORMA TAMAÑO DE LECTURAS DATA_1 Escherichia coli 22 genomas Paired-end MiSeq Illumina 31-251 pb DATA_2 Salmonella typhimurium 20 genomas Paired-end MiSeq Illumina 31-151 pb / 31-251 pb DATA_3 Staphylococcus aureus 24 genomas Paired-end MiSeq Illumina 31-251 pb Las muestras fueron secuenciadas con la plataforma MiSeq de Illumina a partir de librerías paired-end (PE) [7,32]. El principio de esta técnica está basado en la secuenciación por síntesis (SBS), donde las moléculas individuales de ADN se encuentran unidas a la superficie de una flowcell y los fragmentos de ADN se amplifican mediante una PCR en puente (bridge). La flowcell tiene un formato de una única línea de secuenciación y es capaz de generar aproximadamente 15Gb por run [31]. El tamaño de las lecturas de los genomas secuenciados fueron de 31-251 pb en el caso de las muestras incluidas en el Data_1 y Data_3, mientras que, para el Data_2, todas presentaban tamaños de 31251 pb excepto 5 muestras que fueron de 31-151 pb. Los ficheros enviados presentaban el formato FASTQ cuya estructura se explicará en el apartado de análisis bioinformático (3.2 Análisis Primario). El análisis bioinformático se llevó a cabo a partir de un workflow semi-automatizado con el fin de analizar los datos suministrados para este trabajo ejecutando el menor número de pasos posibles. El workflow estaba constituido por una serie de etapas de análisis consecutivas que incluyen un conjunto de scripts en bash que irán ejecutando diferentes herramientas. A continuación, se muestra de forma detallada cada etapa del workflow, los scripts ejecutados en cada fase y los archivos de entrada y salida que se necesitan en cada paso (Figura-1). Figura-1: Workflow de análisis de datos procedentes de secuenciación masiva (NGS) 4 5 3.2 ANALISIS PRIMARIO Este primer paso del análisis, denominado “base calling”, consiste en convertir los datos de imágenes obtenidos por el secuenciador a secuencias de ADN. Lo primero, es transformar las imágenes a intensidades para cada lectura y, a continuación, obtener las lecturas de la secuencia a partir de las intensidades. El software que lleva a cabo este análisis está proporcionado por Illumina y forma parte del pipeline de análisis (Firecrest y Bustard) (www.illumina.com). Las muestras utilizadas para la realización de este trabajo fueron proporcionadas con el formato FASTQ, por lo tanto, nuestro análisis comienza a partir del análisis secundario. ESTRUCTURA DEL FORMATO FASTQ Es un formato de texto que permite almacenar la secuencia de nucleótidos y las puntuaciones de calidad correspondientes a dicha secuencia. Tanto la secuencia de nucleótidos, como la secuencia de calidad están representadas con un solo carácter ASCII, para que ocupe un solo espacio. El formato FASTQ se compone de 4 líneas que se detallan a continuación: • Línea 1: comienza por '@' y es seguido por el identificador de la secuencia y una breve descripción que es opcional. • Línea 2: secuencia de nucleótidos. • Línea 3: comienza por '+' y puede estar seguido del identificador de la secuencia y una breve descripción (opcional). • Línea 4: codifica los valores de calidad de la secuencia, debe contener el mismo número de símbolos como de letras tiene la secuencia de la línea 2. Figura-2: Formato FASTQ @M01038:58:000000000-A4BGY:1:1101:16465:1663 1:N:0:1 NTTGTCACCAGCCACGATGATGTTTGCTTGATTGAGTTTCAGGTGCCCACCAGCCAGG + #>>AABFFFF@AFGGGGGG5GGHHHHGHHHFHHGBBHHHHFBFHHHHHHGGGGGGHH 3.3 ANALISIS SECUNDARIO El análisis secundario tiene como objetivo determinar la calidad de las secuencias obtenidas desde el punto de vista biológico (puntuaciones de calidad o scores, número alto de adaptadores, desviaciones sistemáticas de la secuencia, digestiones incompletas), reconstruir o ensamblar las secuencias a partir de las lecturas obtenidas y preparar los datos para el análisis terciario (visualización, representación y análisis estadístico de los resultados). 3.3.1 Pre-procesamiento y control de calidad de las secuencias Es necesario asegurar que todos los datos presentan una calidad adecuada para continuar con el análisis, para ello, se procede a eliminar aquellas secuencias que tengan baja calidad. En este sentido, esta etapa se considera una de las más importantes y críticas para el posterior análisis global de los datos. En la realización de este trabajo se llevó a cabo varias estrategias de pre-procesamiento de los datos con el fin de obtener un conjunto de secuencias con la máxima calidad posible. Finalmente, esta etapa se resume en 3 pasos de ejecución que van incluidos en el script preprocess.sh: • Paso-1º: Trimar o recortar el extremo 5' Para llevar a cabo este paso se ejecutó Trimmomatic (www.usadellab.org/cms/?page=trimmomatic), una herramienta rápida que te permite recortar secuencias que presenten baja calidad en los extremos, así como, la eliminación de adaptadores que pueden representar un problema en los análisis posteriores. Trimmomatic admite el formato FASTQ utilizando calidad phred + 33 o phred + 64. Además, este programa te permite trabajar con diferentes tipos de librerías: single-end (SE), paired-end (PE) y fragmentos amplificados por PCR y secuenciados por el método Sanger [4]. En nuestro caso, trabajamos con el modo PE que admite como parámetros los siguientes archivos: ◦ Input file (FASTQ): Forward (input 1) y Reverse (input 2) ◦ Output file (FASTQ): Forward paired, Reverse paired, Forward unpaired, Reverse unpaired. Este programa te permite conservar las lecturas no pareadas que sobreviven al proceso de trimado y presentan buena calidad, evitando que la información de estas lecturas se pierda. Figura-3: Tipo de lecturas aceptadas por Trimmomatic en el modo Paired-End (Imagen usada de Trimmomatic Manual V0.32) 6 7 Command-line: > java -jar trimmomatic.jar PE <input 1> <input 2> <paired output 1> <unpaired output 1> <paired output 2> <unpaired output 2> SLIDINGWINDOW:4:20 Parámetros específicos: • [SLIDINGWINDOW:4:20]: Analiza la calidad del extremo 5' por medio de una ventana deslizante y elimina aquellas secuencias cuya calidad está por debajo del umbral especificado. En este caso se seleccionó una ventana de 4 nucleótidos y una calidad Q 20. • Paso-2º: Eliminar las secuencias de tamaño inferior a 31 pb Tras examinar las secuencias obtenidas del paso anterior, observamos que algunas de ellas presentan un tamaño inferior a 31 nucleótidos. Por este motivo, decidimos llevar a cabo el filtrado de dichas secuencias para asegurarnos una buena calidad en el ensamblado de novo de los genomas bacterianos. En esta etapa se ejecutó el programa TrimmingReads.pl que va incluido en el paquete de herramientas de control de calidad de NGS QC toolkit (www.nipgr.res.in/ngsqctoolkit.html) . Este programa te permite trimar los extremos 3' y 5' de la secuencia de nucleótidos en función de la calidad que se especifique por línea de comandos, sin embargo, nosotros decidimos ejecutar este programa porque en una de sus opciones te permite filtrar las secuencias en función del tamaño. Este paso no hubiera sido necesario si Trimmomatic hubiera incluido esta opción. Command-line: > perl TrimmingReads.pl -i file1_pe.fastq -irev file2_pe.fastq -q 20 -n 31 -o _trimmed Parámetros específicos: • i [Input file (Forward)]: output file de Trimmomatic (paired_output_1 / unpaired_output_1). • irev [Input file (Reverse)]: output file de Trimmomatic (paired_output_2 / unpaired_output_2). • q: Punto de corte calidad phred para trimar el extremo 3' de las lecturas. • n: se especifica la longitud de las lecturas que se desean descartar. • o: nombre que se le asigna al archivo de salida. • Paso-3º: Filtrar las secuencias en función de la calidad Una vez eliminadas las secuencias menores de 31 pb se procede a ejecutar IlluQC_PRLL.pl, que permite llevar a cabo el control de calidad final y el filtrado por calidad de los datos secuenciados con la tecnología Illumina. Este programa proporciona una serie de informes con datos estadísticos que facilitan la interpretación de los resultados tras el análisis completo de pre-procesamiento. Además, permite procesar los datos de entrada en paralelo con múltiples CPUs para acelerar el análisis del control de calidad. Command-line: > perl IlluQC_PRLL.pl -c 8 -l 70 -s 20 -pe file1_pe.fastq_trimmed file2_pe.fastq_trimmed file_trimmed_filtered N A -o Parámetros específicos: • c: número de cores utilizados en la ejecución. • l: Punto de corte para el porcentaje de la longitud de lectura de la calidad especificada (defecto 70%). • s: Punto de corte del score de calidad phred. Se eliminaran las secuencias que queden por debajo de la calidad establecida (defecto Q 20). • pe: Input file [Forward y Reverse] obtenidos en el paso anterior (file1_pe.fastq_trimmed /file2_pe.fastq_trimmed/ file1_se.fastq_trimmed/ file2_se.fastq_trimmed). • N: Detección automática (A) del formato FASTQ. • o: Nombre que se le asigna al archivo de salida • Paso-4: Examinar la calidad de las secuencias Finalmente, examinamos la calidad de las secuencias y comparamos con los datos de partida. Para ello, se ejecuta FASTQC (www.bioinformatics.babraham.ac.uk/projects/fastqc/), una herramienta libre que proporciona un informe en formato html que incluye un resumen detallado que se comentará en el apartado de resultados. Command-line: > fastqc --noextract -o [DIRNAME] -t 8 file1.fastq file1_pe.fastq file1_se.fastq file1_pe.fastq_trimmed file1_pe.fastq_trimmed_filtered 3.3.2 Ensamblado de los genomas 3.3.2.1 Concepto del ensamblado de genomas En bioinformática, el ensamblado de secuencias es un proceso computacional basado en el alineamiento y la unión de los fragmentos cortos de ADN procedentes de la secuenciación para dar lugar a secuencias contiguas de mayor tamaño. El objetivo del ensamblado es llevar a cabo la reconstrucción exacta de la secuencia original [32]. 3.3.2.2 Tipo de ensamblado Actualmente, existen dos tipos de ensamblado de secuencias cuya elección dependerá del tipo de análisis que se desea realizar [32,37]. 8 9 • MAPEADO (MAPPING) / RE-SECUENCIACIÓN: Consiste en reconstruir un genoma a partir de las lecturas obtenidas del proceso de secuenciación, utilizando un genoma de referencia. Las secuencias ensambladas deben ser similares, pero no necesariamente idénticas, a las secuencias de referencia. Una ventaja que presentan este tipo de ensamblado es la rapidez y el menor coste computacional respecto al ensamblado de novo. • DE NOVO: Consiste en reconstruir un genoma desconocido a partir de las lecturas obtenidas del proceso de secuenciación, en este caso, sin utilizar un genoma de referencia. Las principales desventajas del ensamblado de novo son una mayor complejidad y un gran coste computacional (consumo de memoria y tiempo). Figura- 4: Tipos de ensamblado en función del análisis (Imagen de Nagarajan et al. Nat Rev Genet. 2013) 3.3.2.3 ALGORITMOS DE ENSAMBLADO DE NOVO: Uno de los factores a tener en cuenta a la hora de seleccionar un ensamblador u otro, es el tipo de algoritmo matemático que utilizan para llevar a cabo la reconstrucción de las secuencias. Para el ensamblado de novo existen tres algoritmos cuyos fundamentos y principios se detallan a continuación [20,32,33 ]: • “VORACES” / GREEDY: Se encarga de buscar el mejor solapamiento entre dos secuencias y las une formando una nueva secuencia, siempre y cuando, no se oponga a un ensamblado que haya sido construido previamente. Este proceso será repetido hasta que no existan candidatos susceptibles de ser unidos. Una desventaja de este algoritmo es que toma decisiones locales y no tiene en cuenta la información global proporcionada por el total de las lecturas y no va a ser capaz de solucionar los problemas de ensamblado de secuencias repetidas. • OVERLAP-LAYOUT-CONSENSUS (OLC): Se encarga de almacenar y representar la información en forma de grafo. Para la construcción del grafo, el ensamblado comienza con la identificación de los pares de lecturas que solapan de forma correcta. Posteriormente, se organiza y representa la información en un grafo, donde cada nodo es una lectura y las conexiones unen aquellas lecturas que solapan entre sí. De esta forma se aprovecha la información global que proporcionan todas las lecturas. Una variante del algoritmo OLC es el grafo en cadena (“strig graph”), este algoritmo se encarga de simplificar el grafo de solapamiento global entre las lecturas eliminando la información redundante. • DE BRUIJN GRAPH: Está basado en la relación que existe entre las sub-cadenas de nucleótidos de longitud k (k-mer) que se extraen de las lecturas originales. Este algoritmo es capaz de generar un grafo donde los nodos son los k-mers y las conexiones del grafo indican que los k-mers son adyacentes y solapan exactamente k-1 nucleótidos. Este algoritmo se basa en la coincidencia exacta entre k-mers por lo que se encarga de corregir errores y resolver las repeticiones dando lugar a ensamblados de mayor calidad. Tabla-2: Lista de ensambladores de novo: tecnología de secuenciación y algoritmo. Ensamblador Tecnología Tipo Algoritmo AbySS Illumina, SOLID, 454, Sanger De novo Bruijn graph ALLPATHS-LG Illumina, PacBio De novo Bruijn graph ARACHNE Illumina, 454 De novo OLC CAP Illumina, 454 De novo OLC Celera Assembler Illumina, PacBio, 454, Sanger De novo OLC Edena Illumina De novo OLC EULER-SR Illumina, 454, Sanger De novo Bruijn graph IDBA-UD Illumina De novo Bruijn graph MaSurCa Illumina, SOLID, 454 De novo Bruijn graph / OLC Minimus Illumina De novo OLC MIRA Illumina, 454 , PacBio De novo / mapping OLC Newbler 454, Sanger De novo Greedy / OLC SGA Illumina De novo OLC* SHARCGS Illumina De novo Greedy SOAPdenovo Illumina De novo Bruijn graph SSAKE Illumina De novo Greedy SPAdes Illumina De novo Bruijn graph Sparse Assembler Illumina, SOLID, 454, Sanger De novo Bruijn graph VCAKE Illumina De novo Greedy Velvet Illumina, SOLID, 454, Sanger De novo Bruijn graph variante de OLC → string graph 10 11 3.3.2.4 Ensamblador VELVET Para seleccionar la herramienta de ensamblado que mejor se ajuste a los datos de estudio, hay que tener en cuenta diferentes aspectos que pueden afectar de forma importante a la capacidad de reconstrucción de la secuencia original. De entre todos estos factores destacan los siguientes [20,32]: • La tecnología de secuenciación: Illumina, 454, SOLID, PacBio, Sanger … • La longitud de las lecturas. • El tipo de librería utilizada: ◦ Single-end (SE): secuencia única generada a partir de la fragmentación del ADN en pequeños fragmentos de los cuales se secuencia un único extremo. ◦ Paired-end (PE): secuencias generadas mediante la fragmentación del ADN en pequeños fragmentos de los cuales se secuencia el final de los dos extremos. Estas lecturas proporcionan rangos de tamaños de inserto más estrechos. ◦ Mate-pairs (MP): secuencias generadas a partir de fragmentos de ADN de tamaño conocido (> 600 pb – 4 kb ) que se circularizan y se ligan usando un adaptador interno biotinilado que une los extremos del fragmento. Estos fragmentos circularizados se rompen al azar y se purifican los segmentos que contienen el adaptador biotinilado. Esta estrategia permite conocer la distancia que separa la región secuenciada. • Los algoritmos de ensamblado y la capacidad de éstos para llevar a cabo la corrección de errores y la detección de secuencias repetidas. • El rendimiento computacional: tiempo de ejecución y consumo de memoria. Para la realización de este trabajo, seleccionamos el ensamblador de novo Velvet, el cual, está basado en la construcción de grafos de Bruijn. El ensamblador Velvet puede ensamblar cualquier tipo de lecturas, pero en realidad está diseñado para el ensamblado de lecturas cortas que van desde 25 – 50 pb. Es uno de los más utilizados en el ensamblado de genomas bacterianos secuenciados previamente con la plataforma Illumina. Además, la principal ventaja de este ensamblador es que puede eliminar errores producidos por el experimento de secuenciación y resuelve repeticiones causadas por la complejidad del genoma. El proceso de ensamblado por Velvet se resume en 4 etapas [39]: 1ª Construcción de la estructura de datos En esta etapa, se procede a generar la estructura de datos, a partir de la cual el ensamblador comienza su ejecución. Las lecturas obtenidas del experimento de secuenciación son divididas en subcadenas de nucleótidos de longitud k que se van a denominar k-mer. El parámetro k tiene especial importancia ya que su valor va a determinar la calidad del ensamblado final: • Tamaño de k menor que la longitud de la lectura: ◦ Disminuye el número de conexiones del grafo y en consecuencia disminuye el espacio requerido para el almacenamiento de la secuencia de ADN. ◦ Aumenta el número de nodos del grafo y esto hace que la reconstrucción final del genoma sea más complicado al tener que atravesar mayor números de nodos. ◦ Favorece la pérdida de la información. ◦ Dificulta la capacidad de detectar zonas que contienen repeticiones. Los k-mers de pequeño tamaño se localizan en la zona de repeticiones y será difícil determinar la cantidad de repeticiones que han tenido lugar en realidad. • Tamaño de k mayor que la longitud de la lectura: ◦ Aumenta el número de conexiones del grafo y en consecuencia aumenta la cantidad de memoria necesaria para almacenar la secuencia de ADN. ◦ Disminuye el número de nodos del grafo, por lo que habrá menos caminos que atravesar del grafo y se simplifica la reconstrucción del genoma. Sin embargo, existe el riesgo de que al no haber nodos suficientes, no se produzcan solapamientos y aumente el número de contigs pequeños. ◦ Facilita la detección repeticiones en la secuencia en una región determinada debido a que son tamaños lo suficientemente grandes para solventar este fenómeno. Una vez que las lecturas son divididas en k-mers son almacenadas en un archivo generado por el propio programa llamado Sequences. A continuación, se crea una tabla hash de n entradas, de manera que cada vez que un k-mer es identificado se realiza un proceso de búsqueda en la tabla hash. Si el k-mer no es encontrado en la tabla hash se almacenará en ella y si es localizado en la tabla se crea una referencia de este k-mer y se almacena en otro archivo denominado RoadMaps. Tanto la tabla hash como el fichero RoadMaps son necesarios para construir el grafo Bruijn. En el grafo se representarán los k-mers contenidos en la tabla hash en forma de nodo y las conexiones entre los nodos será la información contenida en el fichero RoadMaps. 2ª Simplificación del grafo En esta etapa se procede a simplificar el grafo construido en la etapa anterior sin perder información. Los bloques que se van generando durante la construcción del grafo se ven interrumpidos cada vez que una lectura comienza o finaliza. Este fenómeno conduce a la formación de cadenas de bloques o “subgrafos” lineales que están conectados. La fragmentación del grafo cuesta espacio en memoria y tiempo de cómputo. Para simplificar estas cadenas hay que tener en cuenta lo siguiente: si tenemos un nodo A con una conexión de salida hacia el nodo B y éste solo tiene una conexión de entrada, los dos nodos A y B se podrán fusionar en uno solo, llamado C, que combinará la información de los nodos A y B. 3ª Eliminación de errores En esta etapa se procede a corregir los errores del grafo simplificado. Uno de los errores más comunes del grafo de Bruijn es encontrar caminos alejados de la ruta óptima y que no presentan salida dentro del grafo principal. La solución para este error sería eliminar estos caminos que no suponen gran problema puesto que no afectan a la ruta principal. Un parámetro a considerar para eliminar dichos caminos es la longitud de los mismos, si encontramos alguno con longitud menor que 2k podemos asegurar que es 12 13 un error. Otro de los errores que podemos encontrar en un grafo de Bruijn, es el denominado “error burbuja”, que consiste en tener conexiones en el grafo que presentan el mismo nodo de inicio y final pero en medio tienen distinta información. Este fenómeno puede ser debido a errores en el medio de las lecturas o de los k-mers y para solucionarlo se utiliza el algoritmo “Tour Bus”. 4ª Eliminación de repeticiones En esta etapa se procede a eliminar las repeticiones que se han encontrado en el grafo de Bruijn, así como, de ensamblar los contigs obtenidos en scaffolds. Los scaffolds se van generando a partir de nodos únicos del grafo y sus vecinos. El ensamblador Velvet está formado por dos programas independientes pero complementarios: • Velveth: se encarga de construir la estructura de datos que se va a utilizar para ensamblar todo el conjunto del genoma. • Velvetg: este programa es el núcleo del ensamblador y se encarga de construir el grafo de Bruijn para conseguir ensamblar las lecturas que introducimos como parámetro en la línea de comandos. Además, este programa es el encargado de eliminar los errores y detectar las secuencias repetidas. Para la realización de este trabajo se implementó el script assembly.sh, que ejecuta dos programas escritos en perl incluidos dentro del programa ensamblador Velvet. A continuación se detallan los pasos desarrollados en este análisis: • Paso-1º: Unión de lecturas paired-end (PE) En este paso se procede a ejecutar el script shuffleSequences_fastq.pl, que unifica las lecturas PE en un único fichero FASTQ con el fin de evitar la pérdida de información. Command-line: >perl shuffleSequences_fastq.pl file1_pe.fastq file2_pe.fastq shuffle.fastq Parámetros específicos: • Input file (FASTQ): output file de la etapa de pre-procesamiento (file1/2.fastq_trimmed_filtered). • Output file (FASTQ): fichero que contendrá el total de las lecturas PE unificadas. • Paso-2º: Ensamblado de novo En este paso se procede a ejecutar el script VelvetOptimiser.pl. (http://bioinformatics.net.au/software.velvetoptimiser.shtml) que sirve de complemento del ensamblador Velvet y que se encarga de optimizar algunos de los parámetros más importantes para obtener una buena calidad de ensamblado, como son, la estimación del tamaño de k-mer y estimación del cut-off para obtener una cobertura adecuada. Además, este script incluye como parámetro la ejecución del ensamblador Velvet (velveth y velvetg) y te permite realizar todo el proceso completo en forma de una única orden por línea de comandos. Command-line: >perl VelvetOptimiser.pl -s 21 -e 31 -f "-fastq -shortPaired file_shuffle.fastq -short file12_UnpairedReads.fastq_trimmed_filtered” -o '-min_contig_lgth 200' -p velvet_output Parámetros específicos: • s (start): tamaño de k-mer por el que comienza a evaluar. • e (end): tamaño de k-mer con el que finaliza la evaluación. • f: orden que ejecuta el programa velveth, los parámetro introducidos van acotados entre comillas: ◦ fastq: formato del fichero de entrada ◦ shortPaired: lecturas pareadas (PE) ◦ short: lecturas no pareadas (SE) • o: opciones introducidas para la ejecución de velvetg que van acotadas entre comillas: ◦ min_contig_lgth: tamaño mínimo del contig que se aceptará para realizar el ensamblado. • p: prefijo que se le asigna al fichero de salida. El programa VelvetOptimiser genera los siguientes archivos de salida: • contigs.fa: contiene las secuencias de los contigs > 2k, donde k es la longitud usada en velveth. Si se ha utilizado un umbral min_contig_lgth se omiten los contigs que sean menores que este valor. • stats.txt: es un fichero de texto plano delimitado por tabuladores que describe los nodos del grafo. La longitud de los nodos se dan en k-mer. Para obtener la longitud en nucleótidos de cada nodo se necesita simplemente sumar k-1, donde k es la longitud definida en velveth. Las columnas in y out se corresponden con el número de arcos de los extremos 5’ y 3’ de los contigs. Las coberturas de las columnas short1_cov, short1_0cov, short2_cov y short2_0cov se dan en cobertura de k-mer. • Paso-3º: Estadísticas del ensamblado En este paso se procede a ejecutar el script velvetMetrics.R que se encarga de extraer los datos del ensamblado contenidos en el fichero stats.txt y representa los resultados en histogramas y tablas para facilitar la visualización y el análisis de los mismos. Command-line: > R --vanilla < velvetMetrics.R [path to directory stats] 3.3.3 Evaluación de la calidad del ensamblado Para determinar si un conjunto de datos está correctamente ensamblado, es necesario comprobar la calidad del mismo. Con frecuencia los resultados proporcionados por los software de ensamblado contienen errores que van desde pequeños cambios a nivel de nucleótido hasta reordenamientos que influyen en la estructura del genoma. Por este motivo, es necesario estudiar y evaluar la calidad del ensamblado obtenido. 14 15 Actualmente existen diferentes herramientas computacionales que implementan las técnicas de validación del ensamblado (ALE, CGAL, FRCbam, FreeBayes, LAP, QUAST, REAPR) [13, 21]. En este trabajo seleccionamos la herramienta QUAST (Quality Assessment Tool for Genome Assemblies) por incluir la evaluación de una amplia gama de métricas a partir de una interfaz gráfica que permite una interpretación sencilla de los resultados. Además, QUAST calcula algunas métricas adicionales (NGx, NAx) a partir del alineamiento con un genoma de referencia. La ejecución es rápida y se pueden paralelizar los procesos [13]. Tabla-3: Métricas de ensamblado evaluadas por QUAST CONTIG* (no necesita ser calculado a partir del genoma de referencia) Nº Contigs Número total de contigs en el ensamblado. Largest contig Longitud del contig más largo del ensamblado. Total length Número total de bases en el ensamblado. Nx (0 ≤ x ≤ 100) Longitud del contig más corto que se encuentra dentro del x% de las bases ensambladas. Lx (0 ≤ x ≤ 100) Mínimo nº de contigs que produce el x% del ensamblado. GC% Nº G y C totales presentes en el ensamblado, dividido por la longitud total de bases ensambladas. MISASSEMBLIES Nº of misassemblies Errores estructurales en los contigs que suelen ser debidos a errores de secuenciación o lecturas quiméricas. Nº of misassembled contigs Nº de contigs que contienen algún misassembly. Misassembled contigs length Nº total de bases contenidas en todos los contigs que presentan uno o más misassemblies. UNALIGNED Nº of unaligned contigs Nº de contigs que no se han alineado con el genoma de referencia. MISMATCHES mismatches per 100 kbp Promedio del nº de desajustes por 100.000 bases alineadas con el genoma de referencia. indels per 100 kbp Promedio del nº de inserciones o delecciones por 100.000 bases alineadas con la referencia. N's per 100 kbp Promedio de bases desconocidas (N) por 100.000 bases ensambladas. GENOME REPRESENTATION Fracción del genoma Es el nº bases alineadas con el genoma de referencia, dividido por el tamaño del genoma. Ratio de duplicación Nº bases alineadas en el conjunto del ensamblado, dividido por el nº total de bases alineadas en la referencia. NGx, Genome Nx Longitud del contig más corto que se encuentra dentro del x% de la longitud total del genoma de referencia. NAx (A= alineado; x= %) Combinación de las métrica Nx y misassemblies. Se calcula en dos etapas: 1ª se rompen los contigs en varios bloques alineados, si un contig tiene algún misassembly, se divide en varios bloques en ese punto. Si hay regiones no alineadas dentro de un contig, se eliminan y el contig se divide de nuevo en bloques. 2ª se calcula el Nx en estos bloques en lugar de calcularlo en los contigs originales. NGAx Similar que la métrica anterior pero se calcula en función del genoma de referencia. PREDICTED GENES Nº of predicted genes Nº de genes predichos a partir del ensamblado. QUAST, emplea el concepto de misassembly propuesto (www.plantagora.org/Plantagora_Engine/assembly_evaluation.html), en donde el se estudio define Plantagora como, aquella posición del contig ensamblado donde el extremo izquierdo de la secuencia se alinea más de 1 kb de distancia desde el extremo derecho de la secuencia de referencia, o bien se solapan con más de 1 kb en cadenas opuestas o en diferentes cromosomas. En este estudio se distinguen tres tipos de misassemblies que se definen a continuación [13]: • Reagrupación: los extremos izquierdo y derecho de las secuencias flanqueantes, se alinean con el mismo cromosoma en la referencia y se solapando en más de 1 kb. • Inversión: el extremo izquierdo y derecho del contig ensamblado se alinean con la secuencia de referencia dentro del mismo cromosoma pero en cadenas opuestas. No cumplen los umbrales de distancia para ser clasificado como una reagrupación. • Traslocación: las secuencias ensambladas se alinean en diferentes cromosomas. Figura-5: Clasificación de misassemblies (Imagen de Gurevich A et al. Bioinformatics. 2013) Command-line: > python quast.py -o [DIRNAME] -R [REFERENCE.fasta] -t 8 –gene-finding contigs.fasta Parámetros específicos: • o: Directorio de salida para almacenar los resultados analizados. • R: Genoma de referencia con formato FASTA. • T: Nº de cores seleccionado para paralelizar los procesos. • gene-finding: módulo basado en GeneMark.hmm predice genes en función del genoma de referencia. • Input file: nombre del archivo que se desea analizar (formato FASTA). El programa QUAST devuelve unos archivos de salida que son los siguientes: • report.txt: resumen de evaluación en formato de texto simple. • report.tsv: Versión del resumen separada por tabuladores. Ideal para hojas de cálculo. • report.tex: Versión del resumen en formato LaTeX. • plots.pdf: Fichero con tablas del resumen. • report.html: Versión html del resumen. • contigs_reports / misassemblies_report: reporte de contigs mal ensamblados. • unaligned_report: Reporte de contigs sin alinear. 16 17 3.3.4 Automatización del ensamblado de genomas bacterianos: iMetAMOS Para saber si nuestro ensamblado es de calidad es conveniente testar varios programas de ensamblado [10,30,35]. Sin embargo, en nuestro caso, donde disponemos de 66 muestras, la ejecución de varias herramientas supone un mayor coste computacional y un mayor tiempo de análisis. Por este motivo, decidimos seleccionar una única herramienta que fue Velvet la cual selecciona varios parámetros en función de la métrica N50 que no siempre es representativo de la calidad del ensamblado [32,39]. Recientemente, con el fin de comprobar diferentes herramientas de ensamblado, se ha desarrollado, iMetAMOS, que incluye un flujo de trabajo donde se ejecutan varios ensambladores, herramientas de validación y anotación para una muestra dada. Este programa se caracteriza por tratar cada conjunto de datos ensamblados como una hipótesis que está sujeta a la validación [21]. Tabla-4: Etapas del Workflow de iMetAMOS (Imagen de Koren S et al. BMC Bioinformatics. 2014) 1- PREPROCESS ea-utils FastQC KmerGenie 2- ASSEMBLE Abyss CABOG IDBA-U Masurca MetaVelvet MIRA Ray SGA SOAPdenovo2 SPAdes SparseAssembler Velvet Velvet-SC RayMeta 3- MAPREADS Bowtie Bowtie2 4- VALIDATE ALE CGAL FRCbam FreeBayes LAP QUAST REAPR 5- FINDORF /ANNOTATE Prokka Para testar este software seleccionamos dos muestras aleatorias que pertenecen a Dataset diferentes: • DATA_1 (E. coli): CFSAN002138-01_S12_17_D1 • DATA_3 (S. aureus): M1056_S3_18_D3 Command-line 1: >initPipeline -q -d M1056_S3_18_D3 M1056_S3_L001_R2_001.fastq -W iMetAMOS -1 M1056_S3_L001_R1_001.fastq -2 Parámetros específicos: • q: lecturas en formato FASTQ • d: Nombre del directorio del proyecto • W: Nombre del Workflow • 1: paired Forward • 2: paired Reverse Este primer comando sirve para crear el proyecto y para incluir el tipo de lectura que se va a analizar (datos crudos originales en formato FASTQ). Command-line 2: >runPipeline -d M1056_S3_18_D3 -p 8 -s Preprocess -e Postprocess -n FindRepeats, Propagate, MapReads, Scaffold -t EA-UTILS -q yes -a velvet, SPAdes, Soapdenovo2, Idba-ud, MaSuRCA -k auto-selected -g Prokka -X QUAST Parámetros específicos: • d: Nombre del directorio del proyecto • p: número de threads usados en el pipeline • s: comienzo del pipeline en etapa Preprocess • e: fin del pipeline en etapa Postprocess • n: selección de pasos en el pipeline que no se van a desarrollar • t: selección del método de filtrado • q: selección del gene caller • a: selección de ensambladores que queremos probar • k: selección del método para calcular k-mer en el proceso de ensamblado • X: Selección del método de validación del ensamblador seleccionado Este segundo comando sirve para ejecutar los pasos del workflow que se han detallado en la Tabla-4. Una vez finalizado la ejecución del workflow de iMetAMOS, el programa proporciona un conjunto de resultados, de entre ellos, un archivo en formato HTLM que ofrece un resumen de todos los resultados, incluye los informes FastQC para el paso de preproceso, un informe del ensamblador seleccionado para continuar el análisis, un conjunto de gráficas y métricas de QUAST de la etapa de validación y una pantalla interactiva Krona para obtener la clasificación taxonómica (ver material suplementario: Formato Digital). 3.4 ANÁLISIS TERCIARIO Este análisis consiste en extraer la información necesaria para llevar a cabo la tipificación de cada una de las cepas, así como estudiar el fenotipo de resistencia y virulencia a partir de las secuencias previamente ensambladas. 18 19 3.4.1 Tipificación o “Genotyping” de los genomas bacterianos • Multilocus Sequence Typing (MLST) Es un método eficaz y ampliamente utilizado para la caracterización de los aislamientos bacterianos basado en el estudio de 7 genes (“loci”) conservados que pertenecen al núcleo (“core”) de la bacteria. Según se van encontrando nuevas secuencias para cada locus se le va asignando un número que corresponde al orden de descubrimiento, de tal manera que los números de todos los loci se almacenan en un esquema particular denominado perfil alélico al que se le asigna un tipo de secuencia (en inglés “sequence typing” (ST)). El estudio del polimorfismo en estos genes nos permite trazar líneas genéticas que servirá para establecer el grupo clonal al que pertenece la especie bacteriana. Para tipificar las bacterias incluidas en este trabajo en función del ST se usó la base de datos pública de MLST (http://pubmlst.org/). Actualmente, incluye un mínimo de 1000 perfiles alélicos o aislamientos bacterianos (actualizado 26-122014) [6, 24, 29]. • Ribosomal Multilocus Sequence Typing (rMLST) Otro método para realizar estudios taxonómicos y de tipificación bacteriana es la técnica de ribosomal MLST (rMLST) que está basado en la identificación de los genes de la subunidad de las proteínas ribosomales (rps), los cuales, tienen la ventaja de estar universalmente presentes en todas las bacterias pero son muy variables entre las distintas especies por lo que te permite detectar las variaciones existentes dentro de los complejos clonales o ST definidos por los esquemas de MLST. Para clasificar a las cepas bacterianas de este trabajo en función al rMLST se empleó la base de datos rMLST (http://pubmlst.org/) implementado con la plataforma BIGsDB). Esta base de datos permite catalogar la variación de los 53 genes ribosomales. Actualmente, incluye más de 30.000 series de datos de genomas secuenciados que son de acceso público. Todos estos datos se puede indexar con rMLST, proporcionando una eficiente y rápida identificación [18,29]. 3.4.2 Estudio del fenotipo de los genomas bacterianos o “Phenotyping” Para la realización del estudio del fenotipo de las cepas de bacterias incluidas en este trabajo se utilizaron los algoritmos de análisis (http://www.genomicepidemiology.org/), propuestos de los por cuales, el Center únicamente for se Genomic incluyeron Epidemiology las siguientes herramientas: • PlasmidFinder 1.2 (https://cge.cbs.dtu.dk/services/PlasmidFinder/): permite detectar el número y el grupo de incompatibilidad al que pertenecen cada uno de los plásmidos localizados. Actualmente, para Enterobacteriaceae, esta base de datos se compone de 116 secuencias de replicones que presentan un porcentaje de identidad de al menos un 80% respecto a secuencias de replicones de 559 plásmidos secuenciados previamente de forma completa. La herramienta ofrece la posibilidad de extraer información acerca de los plásmidos de bacterias gram positivas (como S. aureus), sin embargo, esta parte está en construcción y únicamente puede detectar el número de replicones presentes en el genoma de la bacteria [5]. • ResFinder 2.0 (https://cge.cbs.dtu.dk/services/ResFinder/): permite identificar genes de resistencia antibiótica adquirida de bacterias que han sido secuenciadas parcial o totalmente. Admite como archivos de entrada las secuencias ensambladas en formato fasta. El inconveniente de esta herramienta es que no detecta resistencia causada por mutaciones cromosómicas como por ejemplo: resistencia a ácido nalidíxico, ácido fusídico, rifampicina o resistencia de alto nivel a quinolonas [38]. • VirulenceFinder 1.2 (https://cge.cbs.dtu.dk/services/VirulenceFinder/): identifica de forma rápida los genes asociados con la virulencia de una bacteria y permite identificar cepas causantes de brotes o que han producido algún caso esporádico. Es un método robusto que presenta buena correlación con los métodos de tipado realizados en la rutina de un laboratorio clínico [15]. • SerotypeFinder 1.0 (https://cge.cbs.dtu.dk/services/SeroTypeFinder/): permite detectar los genes que codifican al antígeno somático que pertenece a la pared de peptidoglucano de la bacteria O (wzy) y al gen que codifica el antígeno flagelar H (fliC) de la especie de Escherichia coli. 4. RESULTADOS 4.1 ANÁLISIS SECUNDARIO 4.1.1 Pre-procesamiento y control de calidad de las secuencias El preprocesamiento de los datos y control de calidad se realizó de forma independiente para cada tipo de microorganismo, es decir, para cada uno de los datasets: • Data_1 (E. coli = 22 muestras) • Data_2 (S. typhimurium = 20 muestras) • Data_3 (S. aureus = 24 muestras) En las Tablas S1-S2-S3 del material suplementario se presentan los resultados que se obtienen tras la ejecución del script preprocess.sh. Las tablas representan cada una de las fases llevadas a cabo durante el procesamiento (Raw_Data, Fase Trimmomatic, Fase TrimmingReads.pl y Fase IlluQC_PRLL.pl) y en cada una de ellas se especifica el número y longitud de las secuencias, así como, contenido en GC de cada una de las muestra. La información contenida en las tablas fue extraída del informe html proporcionado por la herramienta FASTQC. De forma general, los resultados obtenidos muestran gran variedad en cuanto a la calidad de las secuencias de los datos crudos. Por una parte, el Data_1 se caracterizó por tener las peores calidades en sus secuencias originales (calidad mala= muestra nº 1, 2, 7 y 12; calidad media= muestra nº 22), seguido 20 21 por el Data_2 (calidad mala= muestra nº 1; calidad media= muestras nº 3 y 5). Finalmente, el Data_3 (S. aureus) mostró buena calidad para las 24 muestras analizadas. A continuación, se procede a explicar alguno de los apartados contenidos en el informe html de FASTQC de una de las muestras trabajadas que presentaba calidad baja y, con ello, se demuestra la importancia de cada uno de los pasos ejecutados en el pre-procesamiento (ver material suplementario: Formato Digital): Formato FASTQC html report de la muestra: CFSAN002083_1_D1 (E. coli) 1- Módulo de estadísticas básicas: En este apartado se especifican los datos procedentes de la muestra: nombre del fichero que se va a trabajar, tipo de codificación ASCII de scores de calidad, número de secuencias totales, rango de longitud de las secuencias y GC%. 1- Raw_Data 3- TrimmingReads.pl 2- Trimmomatic 4- IlluQC_PRLL.pl 2- Módulo de calidad por base de la secuencia: Este modulo proporciona una gráfica que representa la calidad (eje X) de cada base en cada posición (eje Y). La gráfica se divide en tres zonas coloreadas en función de la puntuación de la calidad (verde= buena, naranja= razonable y roja= mala). 1- Raw_Data 2- Trimmomatic 3- TrimmingReads.pl 4- IlluQC_PRLL.pl En los datos originales, las cajas amarillas, que representan el rango intercuartílico (25-75%), alcanzan niveles de calidad 10 o inferiores y la mediana (línea roja) es inferior a calidad 25 en la parte final de la secuencia de nucleótidos, por lo que, indica que la calidad por base no es muy buena y es necesario trimar o recortar el extremo final para alcanzar mejores scores de calidad. Además, se observa como en las bases finales se alcanza el cuartil más bajo con calidades cercanas a 5. Con la etapa de trimado y filtrado de secuencias por calidad, finalmente, se obtienen calidades mejores, que se localizan dentro de la zona verde de la gráfica que indican que las calidades son superiores a score de 28. 3- Módulo de calidad por secuencia: Este módulo proporciona un informe de resultados de la calidad total por secuencia y permite observar si un subconjunto de secuencias tiene valores de calidad bajos. En este caso, tanto los datos originales como los datos procesados presentan un buen score de calidad que está alrededor de 34 (ver material suplementario: Formato Digital). 22 23 4- Módulo de contenido de bases en la secuencia: En este apartado se muestra la cantidad relativa de cada base. Esta cantidad debe reflejar la cantidad total de las bases en el genoma y no debe estar muy desequilibrada. Esta gráfica nos da información de los problemas ocurridos durante la secuenciación o la posibilidad de que exista contaminación de la librería. Se puede observar como hay un claro desequilibrio entre A-T y G-C en las 9 bases del inicio de la secuencia. Este fenómeno aparece en las 66 muestras analizadas y suele ser frecuente en secuenciaciones con la plataforma Illumina. Nuestra hipótesis acerca de este fenómeno es que puede estar relacionado con algún tipo de adaptador de dicha plataforma introducido al generar la librería (Figura-6). 5- Módulo de contenido GC por base: Se indica el contenido de pares de bases GC y el sistema emite un error cuando el contenido se aleja más del 10% de la media del contenido GC total. Se puede observar que ocurre algo similar a lo acontecido en el apartado anterior, un claro desequilibrio GC en las 9 bases del inicio de la secuencia, el resto bases se mantiene constante (Figura-7). Figura-6: Gráfica del módulo 4 Figura-7: Gráfica del módulo 5 6- Módulo de contenido GC por secuencia: Este módulo mide el contenido de GC a través de toda la longitud de cada secuencia de la muestra y la compara con una distribución normal del contenido de GC. En este caso el sistema emite una advertencia dado que la suma de las desviaciones de la distribución normal se eleva más de un 15% respecto de las lecturas (ver material suplementario: Formato Digital). 7- Módulo de contenido en bases desconocidas (N): Este módulo representa el número de bases desconocidas (N), en este caso el sistema no emite ningún aviso puesto que no se encuentran bases desconocidas en ningunas de las secuencias (ver material suplementario: Formato Digital). 8- Distribución de longitud de las secuencias: Este módulo genera un gráfico que muestra la distribución de tamaños de los fragmentos de la muestra secuenciada. Las muestras secuenciadas con Illumina proporcionan lecturas del mismo tamaño, sin embargo, en este caso como se han trimado los extremos que presentaban calidades bajas, el sistema de análisis de FASTQC emite una alarma para especificar que se han encontrado lecturas de tamaños diferentes como se muestran en las gráficas siguientes: 1- Raw_Data 2- Trimmomatic 3- TrimmingReads.pl 4- IlluQC_PRLL.pl 9- Secuencias duplicadas: Este módulo cuenta el grado de duplicación para cada secuencia respecto del conjunto total y crea un gráfico que muestra el número relativo de secuencias con diferentes grados de duplicación. En el caso de la muestra analizada, se observa que las secuencias duplicadas no superan el 20%, por lo que, el sistema no emite ninguna advertencia. A medida que los datos van siendo procesados podemos ver como el porcentaje de secuencias duplicadas se reduce y se mejora la calidad de los datos (ver material suplementario: Formato Digital): • 1-Raw Data= 12,93% • 2-Trimmomatic= 10,81% • 3-TrimmingReads.pl= 7,18% • 4-IlluQC_PRLL.pl= 7,18% 24 25 10- Secuencias k-mers sobrerepresentadas: Este módulo representa el número de k-mer encontrado en la librería de las secuencias analizadas, en concreto, 5-mer. Además, proporciona una lista de hits que muestra el patrón de enriquecimiento de ese Kmer a través de la longitud de las lecturas. Este análisis demostrará si tiene un enriquecimiento general o si hay un patrón de sesgo en diferentes puntos a lo largo de toda la secuencia. A continuación, se muestran las gráficas obtenidas tras el análisis de la muestra tomada como ejemplo: 1- Raw_Data 3- TrimmingReads.pl 2- Trimmomatic 4- IlluQC_PRLL.pl En este caso, como se puede observar en la representación superior, el sistema emite una advertencia puesto que existen varios k-mer que están enriquecidos más de 3 veces a lo largo de la longitud de la secuencia. 4.1.2 Ensamblado de novo de genomas y evaluación de la calidad del ensamblado En este trabajo se llevó a cabo la evaluación de un único ensamblador, Velvet, sobre 66 muestras: E. coli (n = 22 muestras), S. typhimurium (n = 20 muestras) y S. aureus (n = 24 muestras). Tras obtener las métricas propuestas por Velvet, se evaluó el ensamblado obtenido con QUAST que nos proporcionó un mayor número de métricas para poder determinar cuál de las muestras mostró una calidad óptima. Los genomas de referencia utilizados para calcular las métricas con QUAST fueron: • E. coli ATCC BAA-2209 (AZBZ01) • Salmonella enterica subsp. enterica serovar Typhimurium str. 14028S (CP001363) • Staphylococcus aureus subsp. aureus M013 (CP003166) Además, quisimos comprobar si la etapa de pre-procesamiento de los datos influía de forma importante en el ensamblado de las secuencias, para ello, realizamos una comparación de las métricas de los datos crudos sin procesar y de los datos crudos procesados. En el material suplementario de este trabajo se proporcionan un conjunto de tablas en las que se detallan los resultados obtenidos de los análisis de ensamblado, validación, así como, de la comparación de las métricas obtenidas de los datos ensamblados previamente procesados y sin procesar. DATA_1: Escherichia coli En general, para todas las muestras de E. coli se obtienen métricas bastante deficientes. Las métricas añadidas por QUAST corroboran los malos resultados obtenidos con el ensamblado de Velvet e indican que quizá puedan influir en análisis posteriores. Nueve de 22 muestras (CFSAN002083_1, CFSAN002084_2, CFSAN002093_3, CFSAN002094_4, CFSAN002128_11, CFSAN002129_12, CFSAN002140_18, CFSAN002151_21, y CFSAN002156_22) presentaron un nº de contigs superior a 800 y tamaños de N50 demasiado bajos (Tabla S-4 y Tabla S-5). Además, 7 de las 9 muestras anteriores, mostraron una cobertura estimada de las lecturas inferiores a 20X, lo que indica una baja fiabilidad de los ensamblados obtenidos. De entre todas las muestras con peores resultados de ensamblado, llama la atención lo ocurrido con la muestra 4 (CFSAN002094_4), la cual, presenta un tamaño de genoma de 9.125.980 pb mientras que el resto de muestras que forman parte del Data_1 presentan tamaños de genoma aproximadamente de 5Mb y son parecidos a lo obtenido en el genoma de referencia. Este fenómeno junto con el nº de genes predichos (8.830 genes) es indicativo de que la muestra secuenciada podría estar contaminada con algún otro DNA. 26 27 Tras comprobar que los datos previamente procesados presentaban unos resultados bastante deficientes, decidimos ensamblar los genomas a partir de los datos crudos sin procesar con la finalidad de observar diferencias entre ellos. Como se muestran en los datos representados en la Tabla S-5 del material suplementario, las métricas de ensamblado mejoran con la etapa de pre-procesamiento, por lo tanto, los malos resultados están relacionados con la mala calidad que presentaban las secuencias originales. La muestra con peor ensamblado, tanto para los datos procesados como los datos sin procesar, fue la muestra 4 (CFSAN002094_4) que presentaba nº de contigs (835 vs. 3.080), tamaño de N50 (51.662 vs. 12.706), tamaño de genoma (9.125.980 vs. 9.041.125). Por otro lado, hay que destacar que la muestra CFSAN002151_21 mostraba un menor nº de contigs con los datos sin procesar (1.748 vs. 750). Sin embargo, el tamaño final del genoma fue poco realista presentando un tamaño de 304.075 pb. DATA_2: Salmonella typhimurium En general para todas las muestras que forman parte del Data_2 se obtienen unas métricas de ensamblado con calidad óptima que coinciden con el análisis de validación proporcionado por QUAST (Tabla S-6). VelvetOptimiser selecciona como parámetro óptimo de ensamblado un tamaño de k-mer de 31 nucleótidos para las 20 muestras. La cobertura estimada es superior a 20X, el nº de contigs es inferior a 350, el tamaño del genoma estimado es aproximadamente de 5Mb y la fracción del genoma que se alinea con los contigs ensamblados se encuentra dentro del 94-97% en todas las muestras. Además, el nº de misassemblies, mismatches, indels y nº de bases desconocidas (Ns) son menores si comparamos con las muestras ensambladas del Data_1 (E. coli). Los genes predichos se encuentran en rangos comprendidos entre 4.470-5.100 genes dependiendo de la muestra y coinciden aproximadamente con los genes contenidos en el genoma de referencia seleccionado para este Dataset (Tabla S-11). La muestra 14, que se identificó como WAPHL-SAL-A00020_14, destacó por presentar los mejores resultados en sus métricas de ensamblado, dando lugar a un total de 109 contigs donde el 97,38% se alinean con el genoma de referencia, el contig más largo mostró una longitud de 704.358 pb y un tamaño de N50 de 267.273 pb (Tabla S-6). Seis de los contigs (L50) cubrieron el 50% del genoma y contenía un total de 4.626 genes. Una de las limitaciones de este ensamblado fue que presentó 11 misassemblies del tipo reagrupaciones (del inglés “relocation”), localizados en 5 contigs (longitud de contigs con misassemblies 1.579.322 pb) (Tabla S-11). Figura-8: Visualización del alineamiento de la muestra Nº 14 (WAPHL-SAL-A00020_14) con el genoma de referencia. (Imagen obtenida de la ejecución de QUAST). Los bloques de color verde corresponden a los contigs que no presentan misassemblies, mientras que los rectángulos de color rojo corresponden a los bloques resultantes después de dividir los contigs que contienen misassemblies [13]. En la Tabla S-7 del material suplementario se muestran los resultados obtenidos tras la comparación de los datos ensamblados para el Data_2, con y sin pre-procesamiento previo. Se puede observar como el número de contigs obtenido en el ensamblado de los datos procesados es mucho menor que en los datos sin procesar. Sin embargo, al comparar las demás métricas de ensamblado como N50, longitud del contig más largo, nº de contigs de tamaño mayor a 1 kb, se puede observar como los datos ensamblados sin procesamiento previo presentan una mejor calidad para las muestras nº 1, 7, 8, 10, 13 y 19 que están identificadas como: CFSAN003354_1, IEH-NGS-SAL-00086_7, IEH_NGS_SAL-00102_8, IEH-NGS-SAL00215_10, WAPHL-SAL-A00018_13 y WAPHL-SAL-A00035_19. Esto indica que la fase previa de preprocesamiento de los datos ha influido ligeramente en el ensamblado final de los genomas y que probablemente no depende del ensamblador seleccionado sino de los datos crudos obtenidos de la secuenciación. DATA_3: Staphylococcus aureus Los resultados obtenidos tras la etapa de ensamblado del conjunto de datos pertenecientes al Data_3 presentaban algunas discordancias. Por un lado, las métricas obtenidas de la ejecución de Velvet nos indican que presentan una calidad óptima: la cobertura estimada para el ensamblado de las lecturas oscila entre 18-195X, el nº de contigs obtenido es inferior a 200, el resto de métricas (N50, contig más largo, tamaño estimado del genoma …) presentan una calidad buena y son similares para el total de las 24 muestras estudiadas (Tabla S-8). Sin embargo, cuando realizamos la validación por QUAST, las métricas calculadas a partir del genoma de referencia seleccionado para este Dataset indican que la mayoría de los casos presentan errores (Tabla S-12). Este es el caso del nº de misassemblies, mismatches, indels y Ns que están presentes de forma abundante en todas las muestras lo que nos hace reflexionar si la referencia seleccionada para el alineamiento estaba muy alejada, desde el punto de vista filogenético, de las muestras problema y por ello el ensamblado de las secuencias presenta tantos errores. 28 29 Figura-9: Visualización del alineamiento de la muestra Nº 11 (H605_S9_11) con el genoma de referencia. (Imagen obtenida de la ejecución de QUAST). Por otro lado, la comparación de los ensamblados obtenidos con los datos procesados y sin procesar previamente nos muestran que hay 5 genomas correspondientes a las muestras nº 10, 11, 12, 19 y 22 (H604_S8_10, H605_S9_11, H1503_S15_12, M1313_S5_19, M1353_S9_20) que presentan mejores métricas de ensamblado sin trimar y filtrar previamente (Tabla S-9). Finalmente, al igual que sucedía en el Data_1, encontramos una muestra que destaca de las demás por presentar métricas mucho peores respecto a las 23 restantes. Es el caso de la muestra nº 6 (H597_S12_6), donde encontramos que los datos ensamblados sin procesar mejoran de forma considerable respecto a los datos procesados previamente, al igual que sucedía con las muestras nº 10, 11, 12, 19 y 22 (Tabla S-8 y S-9). En este trabajo decidimos ejecutar el software iMetAMOS con dos muestras de Datasets diferentes que fueron seleccionadas al azar con el fin de comprobar otras herramientas de ensamblado de novo (ver material suplementario: Formato Digital). Algunos de los resultados obtenidos tras la ejecución del programa fueron las siguientes: Muestra Nº 17: CFSAN002138-01_S12 (Escherichia coli) 1- Pre-procesamiento: Esta etapa del workflow incluye el filtrado de secuencias por calidad (ea-utils), selección de tamaño de k-mer óptimo (kmerGenie) y visualización de la calidad de las secuencias (fastQC). Figura-10: Calidad por base de secuencia después del filtrado y selección del tamaño de k-mer = 115 2- Ensamblado y Validación Figura-11: Evaluación de distintas herramientas de ensamblado por QUAST Como se puede observar en la figura-11, Spades fue el que mejor resultados de ensamblado proporcionó con un tamaño de k-mer de 115 seguido por MaSuRCA. Por el contrario, Velvet fue el ensamblador que peores métricas mostró y quedó en última posición en el ranking de iMetAMOS (ver material suplementario: Formato Digital). Muestra Nº 18: M1056_S3 (Staphylococcus aureus) 1- Preprocesamiento: El preprocesamiento se lleva a cabo igual que para la muestra anterior. En este caso el tamaño seleccionado de k-mer por KmerGenie es de 91. 30 31 Figura-12: Calidad por base de secuencia después del filtrado y selección del tamaño de k-mer= 91 2- Ensamblado y Validación Figura-13: Evaluación de distintas herramientas de ensamblado por QUAST La figura-13 representa los resultados obtenidos tras ejecutar distintos ensambladores para la muestra nº 18 de S. aureus. De nuevo, Spades se vuelve a clasificar como el mejor ensamblador con un tamaño de k-mer de 91. Velvet queda en una posición intermedia y, en este caso, el último del ranking fue Soapdenovo2. En el material suplementario en formato digital de este trabajo se incluyen los archivos de salida más importantes proporcionados por el programa iMetAMOS . 4.2 ANALISIS TERCIARIO: 4.2.1 Tipificación o “Genotyping” de los genomas bacterianos Un total de 66 muestras pertenecientes al conjunto de datos incluidos en el data_1, data_2 y data_3 se analizaron mediante herramientas bioinformáticas con el fin de obtener la caracterización y tipificación completa de todos los genomas. DATA_1: Escherichia coli El data_1 estaba compuesto por 22 muestras que fueron identificadas como Escherichia coli. Se identificó el perfil alélico correspondiente a los 7 genes analizados por MLST en todas las muestras a partir de los datos ensamblados con Velvet. De entre las 22 muestras de los genomas de E. coli, se identificaron 2 clusters, uno formado por 20 cepas pertenecientes a ST-16 (Complejo clonal ST-29) y otro cluster formado por 2 cepas pertenecientes a ST-32 (Complejo Clonal ST-32). Posteriormente, se llevó a cabo la tipificación por el método rMLST donde se amplió el perfil alélico a 53 genes con el fin de obtener mayor resolución en el análisis de la relación filogenética de los aislados. Los resultados destacan la identificación de 3 clusters: 1º cluster identificado como rST-2258 formado por 18 cepas que fueron inicialmente identificadas como ST-16 en todos los casos, 2º cluster formado por 2 cepas identificadas como rST-2254 que pertenecían previamente al ST-16. Por último, el 3º cluster formado por 2 cepas pertenecientes al clon ST-32 que fueron clasificadas por rMLST como rST- 1534 (Tabla-5). Tabla-5: Tipificación de los aislamientos de E. coli: MLST, Complejo clonal, rMLST y Serotipo. AISLADOS_DATA_1 CFSAN002083_1_D1 CFSAN002084_2_D1 CFSAN002093_3_D1 CFSAN002094_4_D1 CFSAN002095_5_D1 CFSAN002096_6_D1 CFSAN002116_7_D1 CFSAN002117_8_D1 CFSAN002118_9_D1 CFSAN002126_10_D1 CFSAN002128_11_D1 CFSAN002129_12_D1 CFSAN002131_13_D1 CFSAN002134_14_D1 CFSAN002135_15_D1 CFSAN002137_16_D1 CFSAN002138_17_D1 CFSAN002140_18_D1 CFSAN002142_19_D1 CFSAN002143_20_D1 CFSAN002151_21_D1 CFSAN002156_22_D1 ST Complejo Clonal r ST Serotipo 16 ST29 2258 16 ST29 2258 16 ST29 2258 16 ST29 2258 16 ST29 2258 16 ST29 2258 16 ST29 2258 16 ST29 2254 16 ST29 2254 16 ST29 2258 16 ST29 2258 16 ST29 2258 16 ST29 2258 16 ST29 2258 16 ST29 2258 16 ST29 2258 16 ST29 2258 16 ST29 2258 16 ST29 2258 16 ST29 2258 32 ST32 1534 32 ST32 1534 O111:H8 O(-):H8 O(-):H8 O111:H8 O111:H8 O111:H8 O111:H8 O111:H8 O111:H8 O111:H8 O111:H8 O(-):H(-) O111:H8 O111:H8 O111:H8 O111:H8 O111:H8 O(-):H8 O111:H8 O111:H8 O(-):H(-) O145:H- adk Designación de alelos de MLST fumC gyrB icd mdh purA recA 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 6 4 12 16 9 7 12 19 23 18 24 21 2 16 19 23 18 24 21 2 16 La Tabla_Typing (ver material suplementario: Formato Digital) representa el perfil alélico de los 53 genes analizados por rMLST para las 22 muestras estudiadas. Las muestras incluidas en los clones rST2254 y rST-2258 fueron identificadas como ST-16 por MLST, sin embargo, existen diferencias en la 32 33 secuencia de nucleótidos que codifica el gen rpIJ proporcionado por la técnica de rMLST lo que significa que se ha aumentado la resolución identificando dos sub-clusters más pequeños dentro del cluster mayoritario ST-16. Por otro lado, el clon rST-1534 (ST-32) se diferencia del clon rST-2258 (ST-16) en la secuencias de los genes rpsA, rpsB, rpsP, rpiB y rpIO lo que da lugar a una clasificación diferente en función de ST y rST. Finalmente, al obtener el perfil alélico de los 53 genes rps por el método rMLST, se observó que la muestra CFSAN002094_4 no solo identificaba genes de la especie E. coli sino que también identificaba genes de la especie Morganella morganii, por lo que se confirmó que esta muestra estaba contaminada con otra especie y que probablemente los problemas obtenidos durante la etapa de ensamblado podrían haber sido causados por este fenómeno (datos incluidos en material suplementario: Formato Digital). Además, decidimos analizar el serotipo de las cepas de E. coli (Tabla 5). De entre los resultados obtenidos destacan la presencia de 16 cepas con serotipo O111:H8 (n=14 rST-2258 y n=2 rST-2254), 3 cepas (rST-2258) con serotipo O(-):H8, 1 cepa (rST-1534) que presentaba O145:H(-) y 2 cepas donde no se identificaron los genes del antígeno somático de la pared ni del antígeno flagelar (n=1 rST-2258 y n=1 rST-1534). DATA_2: Salmonella typhimurium El data_2 estaba formado por 20 muestras que fueron identificadas como: Género Salmonella especie enterica y subespecie enterica serovar typhimurium, también conocida como Salmonella typhimurium. Se obtuvieron un total de 2 clusters, uno de ellos formado por 18 cepas que fue identificado como ST-19 y otro cluster con 2 cepas pertenecientes al ST-36. Tabla-6: Tipificación de los aislamientos de S. typhimurium: MLST y rMLST. AISLADOS_DATA_2 CFSAN003354_1_D2 CFSAN003377_2_D2 FSW0024_3_D2 FSW0026_4_D2 FSW0035_5_D2 IEHNGSSAL00053_6_D2 IEH-NGS-SAL-00086_7_D2 IEH-NGS-SAL-00102_8_D2 IEH-NGS-SAL-00199_9_D2 IEH-NGS-SAL-00215_10_D2 IEH-NGS-SAL-00217_11_D2 WAPHL-SAL-A00013_12_D2 WAPHL-SAL-A00018_13_D2 WAPHL-SAL-A00020_14_D2 WAPHL-SAL-A00021_15_D2 WAPHL-SAL-A00025_16_D2 WAPHL-SAL-A00033_17_D2 WAPHL-SAL-A00034_18_D2 WAPHL-SAL-A00035_19_D2 WAPHL-SAL-A00040_20_D2 ST r ST 19 19 36 36 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 19 3484 3484 1378 1378 1361 3484 1367 1397 3484 3484 3484 3484 3484 3484 3484 3484 3484 3484 3484 3484 Designación de alelos de MLST aroC 10 10 18 18 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 dnaN 7 7 14 14 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 7 hemD 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 12 hisD 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 purE 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 sucA 9 9 18 18 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 thrA 2 2 21 21 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 La identificación por rMLST mostró la presencia de 5 perfiles alélicos diferentes: rST-3484 (n=15), rST-1378 (n=2), rST-1361 (n=1), rST-1367 (n=1) y rST-1397 (n=1). Cuatro de ellos, fueron identificados previamente por MLST como ST-19 lo que indicó la existencia de variabilidad dentro del cluster ST-19. La diferencia entre los clones ST-19 y ST-36 radica en la secuencia que codifica los genes rpsB, rpsD, rpsS, rpIA, rpID, rpIK, rpIW, rpmA, rpmD y rpmG identificados por rMLST. Por otro lado, el clon rST-1384, que incluye la mayoría de las cepas, se diferencia de los clones rST-3461, rST-1367 y rST-1397, por la secuencia de los genes [rpIM], [rpIM, rpmD] y [rpsA], respectivamente (datos incluidos en material suplementario: Formato Digital). DATA_3: Staphylococcus aureus El data_3 estaba formado por 24 muestras que fueron identificadas como Staphylococcus aureus. El análisis de tipificación mostró mayor variabilidad entre las cepas pertenecientes al data_3, que el análisis realizado para las muestras del data_1 y data_2. Se identificaron un total de 4 clusters por MLST, ST-1835 (n=11) ST-1 (n=9), ST-852 (n=2) y ST-748 (n=2). Los clones ST-1, ST-852 y ST-748 fueron incluidos dentro del complejo clonal ST-1 y el linaje 8 lo que indica la estrecha relación que existe entre ellos. Tabla-7: Tipificación de los aislamientos de S. aureus: MLST, Complejo clonal y rMLST. AISLADOS_DATA_3 H401_S11_1_D3 H570_S5_2_D3 H582_S1_3_D3 H587_S6_4_D3 H596_S4_5_D3 H597_S12_6_D3 H599_S2_7_D3 H600_S7_8_D3 H602_S10_9_D3 H604_S8_10_D3 H605_S9_11_D3 H1503_S15_12_D3 M760_S12_13_D3 M767_S1_14_D3 M774_S7_15_D3 M775_S4_16_D3 M1048_S3_17_D3 M1056_S3_18_D3 M1313_S5_19_D3 M1353_S9_20_D3 M3292_S18_21_D3 M3492_S11_22_D3 M3505_S6_23_D3 M3510_S11_24_D3 ST Complejo Clonal r ST 1 1835 1835 1835 1835 1835 1835 1835 1835 1835 1835 1 1 1 1 1 1835 852 748 748 1 1 852 1 ST-1 ST-1 ST-1 ST-1 ST-1 ST-1 ST-1 ST-1 ST-1 ST-1 ST-1 ST-1 ST-1 4390 4428 4390 4390 4390 4390 4390 4390 4390 4390 4390 4390 4390 arcC 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Designación de alelos de MLST aroE glpF gmk pta tpi 1 1 1 1 1 1 245 1 1 1 1 245 1 1 1 1 245 1 1 1 1 245 1 1 1 1 245 1 1 1 1 245 1 1 1 1 245 1 1 1 1 245 1 1 1 1 245 1 1 1 1 245 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 245 1 1 1 1 68 1 1 1 132 1 1 1 1 132 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 68 1 1 1 1 1 1 1 1 yqiL 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ** símbolo (-) indica que el perfil alélico para rST no fue encontrado en la base de datos http://pubmlst.org/ El análisis por rMLST clasificó a las muestras en 2 clusters: rST-4390 formado por los clones ST-1, ST-852, ST-748 y rST-4428 que identificó únicamente un clon que pertenecía a ST-1 (H1503_S15_12) . El perfil alélico de los dos clusters obtenidos por rMLST difería únicamente en el gen rpIX. Además, es de destacar que el clon ST-1835 no pudo ser identificado a nivel de rST por presentar una variante alélica nueva (rpIX=4839) que aún no ha sido indexada en la base de datos de rMLST (http://pubmlst.org/). Por otra 34 35 parte, en la muestra nº 6 (H597_S12_6 ) solo se identificaron 5 de 53 genes debido a que el ensamblado previo fue de mala calidad (ver material suplementario: Formato Digital). Además, estos 5 genes fueron compartidos por la especie S. aureus y Enterococcus faecalis lo que complicó la etapa de tipificación por la técnica de rMLST y únicamente pudo clasificarse a nivel de ST, como ST-1835. 4.2.2 Estudio del fenotipo de los genomas bacterianos o “Phenotyping” Una vez realizado el estudio de tipificación o relación filogenética de los 66 genomas bacterianos incluidos en este estudio, decidimos analizar la composición de genes relacionados con la resistencia a antibióticos y con la virulencia, así como, estudiar el número de plásmidos y el grupo de incompatibilidad al que pertenecen, a través de las herramientas bioinformáticas descritas en el apartado de material y métodos. DATA_1: Escherichia coli 1- ESTUDIO DE RESISTENCIA A ANTIMICROBIANOS La presencia de genes de resistencia a antibióticos fue detectada en 10 de las 22 (45.4%) muestras de E. coli. Los genes hallados afectaban a diferentes familias de antibióticos, que incluyen: aminoglucósidos, β-lactámicos, sulfonamidas, tetraciclinas, trimetoprim, macrólidos y cloranfenicol. La muestra nº 10 (CFSAN002126_10) se caracterizó por ser la que más genes de resistencia portaba, afectando a todas las familias de antibióticos anteriormente mencionadas, a excepción de los macrólidos. (Tabla S-13). Los genes que afectaban a aminoglucósidos fueron los que más frecuentemente se detectaron en las cepas de E. coli, cuya resistencia en esta especie es adquirida. Estos genes se caracterizan por codificar enzimas modificadoras de aminoglucósidos (EMAs) y están relacionados con el mecanismo de acción que ejercen sobre la molécula. Los genes aph (3')-Ia (strA), aph(3'')-Ib (strB) y aph (6)-Id son ofosfotransferasas que afectan a la actividad de estreptomicina, kanamicina y neomicina. Por otro lado, el gen aadA2 (adenililtransferasa) afecta a gentamicina y tobramicina, dos antibióticos usados ampliamente en la práctica clínica. En cuanto a los genes que afectan a β-lactámicos, destaca la presencia de la enzima blaTEM en 5 de las 22 muestras. La enzima blaTEM-, es una β-lactamasa encontrada mayoritariamente en la familia Enterobacteriaceae, se caracteriza por afectar a penicilina y cefalosporinas de 1º y 2º generación. Las mutaciones de este gen dan lugar a otras variantes que afectan a cefalosporinas de amplio espectro y son conocidas con el nombre de β-lactamasas de espectro extendido (BLEE). Otro de los genes importantes detectados en una de las muestras estudiadas es la blaCMY, una cefalosporinasa del tipo ampC que se caracteriza por afectar a penicilinas, cefalosporinas y de no inhibirse con ácido clavulánico. La importancia de estos dos genes es que normalmente van asociados con elementos móviles de tipo plásmido que favorece su rápida diseminación entre bacterias de diferente especie incluso de diferente género. En la muestra nº 4 (CFSAN002094_4), que contenía genes conservados de la especie E. coli y M. morganii detectados previamente en el estudio de tipificación, se demostró la presencia del gen blaMOR, una cefalosporinasa del tipo ampC cromosómica de la especie M. morganii lo que se volvió a conformar que esta muestra estaba contaminada desde el inicio del análisis. 2- ESTUDIO DE FACTORES DE VIRULENCIA Los factores de virulencia encontrados para las muestras de E. coli se detallan en la Tabla S-19. Se detectaron una amplia gama de factores de virulencia, de los cuales, los que presentan una mayor relevancia son los descritos a continuación: Tabla- 8: Contenido de genes de virulencia en Dataset_1: E.coli GENES DESCRIPCIÓN Nº AISLADOS PORTADORES DEL GEN TRANSMISIÓN eae Intimin 21 - efa 1 EHEC factor for adherence 12 - ehx A Enterohemolysin 12 Plásmido Stx1 A Shiga-like toxin 1 A-subunit 18 Fago Stx1 B Shiga-like toxin 1 B-subunit 5 Fago Stx 2A Shiga-like toxin 2 A-subunit 5 Fago Stx 2B Shiga-like toxin 2 B-subunit 22 Fago En todas las muestras de E. coli analizadas destacó la producción de la toxina Shiga (stx) cuya transferencia está relacionada con fagos. Además, destaca la presencia en 21 cepas de la toxina responsable de la lesión de adherencia y la destrucción del enterocito (eae), el factor de adherencia de E. coli enterohemorrágico (efa, 12 cepas) que favorece la colonización del intestino y la producción de una hemolisina enterohemorrágica (ehx, 12 cepas) que normalmente está codificada en un plásmido que presenta una gran variabilidad genética. 3- ESTUDIO DE PLASMIDOS La Tabla S-16 muestra la diversidad de plásmidos encontrados en las muestras pertenecientes al data_1. Como se puede observar, el plásmido del grupo IncFII está presente en todas las muestras excepto en la muestra nº 21 (CFSAN002151_21) y nº 22 (CFSAN002156_22) las cuales pertenecen al ST-32 (rST1534). Además, estas muestras destacan por contener el plásmido tipo IncB/O/K/Z lo que indica que estas especies están claramente relacionadas y su aislamiento podría estar vinculado con algún tipo de brote. Por otro lado, el plásmido COL156, es detectado en 11 de 14 cepas pertenecientes al clon ST-16, mientras que las muestras del clon ST-32 carecen de este plásmido. 36 37 DATA_2: Salmonella typhimurium 1- RESISTENCIA ANTIBIOTICOS: Los genes seleccionados con mayor frecuencia en las 20 cepas analizadas de S. typhimurium, afectaron tanto a familias de antimicrobianos usados como terapia en el tratamiento de salmonelosis (βlactámicos, aminoglucosidos, fenicoles, quinolonas, trimetoprim) como a otros no usados para su control (tetraciclinas y sulfonamidas). El análisis de las muestras con resFinder mostró que la muestra nº 4 (FSW0026_4) fue la que mayor numero de genes portaba, por el contrario, en las muestras nº 1 (CFSAN003354_1) y nº 2 (CFSAN003377_2) se identificó únicamente un gen que afectaba a aminoglucósidos (aac(6')Iaa) (Tabla S-14). En aislados de Salmonella es frecuente encontrar la producción de β-lactamasas. En el caso de las 20 cepas testadas se detectaron los genes blaOXA, blaTEM, blaCMY los cuales afectan fundamentalmente a la actividad de penicilinas y cefalosporinas de 1 y 2 º generación y mantienen actividad a los demás βlactámicos. Por otro lado, se observó la frecuente producción de EMAs, de entre las que destacaban la detección de los genes strA y strB, que dan lugar a resistencia únicamente a estreptomicina y van precedidos por el gen sul2 que confiere resistencia a sulfonamidas. Se puede observar en la tabla *** como las muestras nº 3 (FSW0024_3), 4 (FSW0026_4), 7 (IEH-NGS-SAL-00086_7), 9 (IEH-NGS-SAL-00199_9), 15 (WAPHL-SAL-A00021_15), 17 (WAPHL-SAL-A00033_17), 18 (WAPHL-SAL-A00034_18) y 19 (WAPHL-SAL-A00035_19) experimentan este fenómeno, lo que indicó que el ensamblado presentó la calidad suficiente como para detectar ambos genes que estaban relacionados. Destacar que los genes sul1 y sul2 están asociados normalmente a integrones que van incluidas en elementos móviles como transposones y plásmidos, por lo que su diseminación entre bacterias se facilita. En cuanto a los mecanismos de resistencia que afectan al cloranfenicol, destacar como el mecanismo principal la inactivación enzimática mediada por la enzima cloranfenicol acetiltransferasa (cat A-B). Es rara la presencia de dos genes de resistencia del tipo cat A y cat B en la misma bacteria, en el caso de que coexistan dos genes de resistencia suelen presentar mecanismos de resistencia diferentes como es el caso de la muestra nº 4 (FSW0026_4) que contiene el gen catB3 y floR el cual codifica una bomba de expulsión de la molécula localizada en la pared celular de la bacteria. Finalmente, destacar que en las las cepas nº 3 (FSW0024_3) y nº 4 (FSW0026_4) fue detectado el gen qnr caracterizado por conferir resistencia a fluoroquinolonas e ir asociado a plásmidos conjugativos. Además, estos genes suelen incluirse en integrones, que son estructuras caracterizadas por presentar dos extremos conservados, 3' (gen quacEΔ1) y 5' (gen sul), lo que nos sugirió pensar que entre el material genético accesorio que contenían estos genomas se encontraban elementos móviles del tipo de plásmidos e integrones. 2- ESTUDIO DE FACTORES DE VIRULENCIA: La infección por Salmonella se caracteriza por dar lugar a un conjunto de manifestaciones clínicas donde la más importante es la inflamación intestinal seguida de la invasión del enterocito mediado por factores de virulencia. Se estima que el 4% del genoma son genes de virulencia requeridos para la infección lo que supone un total de 200 genes. La patogenicidad de Salmonella viene causada por dos tipos de factores de virulencia que se clasifican de la siguiente manera: • • Estructuras superficiales de la bacteria: ◦ Lipopolisacárido (LPS): Lípido A ◦ Flagelos ◦ Fimbrias Factores solubles codificados por genes de virulencia: Modifican la fisiología celular del hospedador y pueden estar localizados tanto en el cromosoma de la bacteria como en plásmidos. Además pueden estar sueltos o formando agrupaciones mayores llamadas islas de patogenicidad (IP). Tabla-9 : Contenido de genes de virulencia de mayor relevancia en Dataset_2: S. typhimurium CODIFICADO EN: GENES Nº AISLADOS Fimbrias polares largas o “Long polar fimbria” lpf 20 Fimbrias tipo I fim A-I-C-D-H-F 20 FIMBRIAS ISLAS DE PATOGENICIDAD SPI-1: codifican componentes estructurales de sistema de secreción tipo 3 inv A-B-C-D-E-F-G-H-I-J 20 SPI-1: codifican componentes estructurales de sistema de secreción tipo 3 prg H 20 SPI-1: proteínas formadoras de poros en el epitelio sip B-C 20 SPI-1: proteínas efectoras spt P 20 SPI-1 / 5: proteínas reguladoras hil A 20 SPI-2: aparato de sistema de secreción ssa 20 SPI-2: chaperonas sse 20 SPI-2: chaperonas ssc 20 SPI-2 / 5: regulación del sistema de secreción ssr 20 SPI-3: permite la adaptación en el interior del fagocito mgt C-B 20 SPI-5: proteínas efectoras sop B 20 SPI-5: proteínas efectoras pip B 20 Salmonella plasmid virulence spv R-A-B-C-D 20 Biosíntesis de fimbrias pef 4 Resistencia al suero rck 16 PLASMIDOS 38 39 Destacar que las 20 cepas de S. typhimurium analizadas en este trabajo presentan una gran variedad de factores de virulencia (Tabla 9 y Tabla S-20). Se caracterizan por contener islas de patogenicidad que son largas agrupaciones de genes dentro del cromosoma bacteriano que presentan un menor contenido en GC que el resto del cromosoma y se insertan dentro de genes que codifican ARNt. Del total de cepas de Salmonella estudiadas se detectaron las siguientes IP que contenían diversos genes cuya función se detalla a continuación: • SPI-1 (40Kb): intervienen en la patogenicidad intestinal (inflamación del epitelio y diarrea). • SPI-2 (40Kb): capacidad de la bacteria de sobrevivir en el interior de los macrófagos. Los genes de esta IP son esenciales en la infección sistémica. • SPI-3 (15Kb): adaptación de la bacteria en el interior del fagocito. • SPI-5 (7,4Kb): Participa en la patogenicidad de la bacteria asociándose con la IP1 y IP2. Además de los genes contenidos en IP, estas cepas se caracterizan por contener genes sueltos que no forman agrupaciones como por ejemplo el gen sif A (20 cepas) implicado en la multiplicación de la bacteria en el interior de los macrófagos. 3- ESTUDIO DE PLASMIDOS: Con frecuencia en las especies de Salmonella de serotipos adaptados al hombre, como es el caso de S. typhimurium, se encuentran plásmidos que contienen genes de virulencia, caracterizados por presentar tamaños de 50-150Kb. Todos los plásmidos de este tipo presentan una región denominada spv (“Salmonella plasmid virulence”) formada por 5 genes (spv R-A-B-C-D). Además, contiene otro loci que participa en la biosíntesis de fimbrias (pef) o en la resistencia al suero (rck). Estos plásmidos portan dos replicones funcionales, repB y repC, que se encargan de mantener bajo el número de plásmidos (1-2 copias) y el operon tra implicado en la transferencia del plásmido por conjugación. El análisis realizado con plasmidFinder reveló gran variedad de plásmidos en las 20 cepas de S.typhimurium. Los plásmidos encontrados con mayor frecuencia fueron los pertenecientes al grupo IncFIB (N=16 cepas) y IncFII (N= 17 cepas), seguido por IncP (N=13 cepas). Si relacionamos el tipo de plásmidos detectado con la tipificación de las cepas, podemos destacar que las cepas pertenecientes al ST-32 no portaban ninguno de estos plásmidos encontrado de manera frecuente. Sin embargo, se detectaron otros plásmidos del tipo IncQ1 (muestra nº 3 ST-32) y IncHI2 (muestra nº 4 ST-32) que suponemos que albergan los determinantes de resistencia qnr y sul2, en la muestra nº 3 (FSW0024_3), y genes qnr, sul1, sul2, dfrA12 y catB3 en la muestra nº 4 (FSW0026_4), en lugar de factores de virulencia, debido a la ausencia de los genes pef y rck, por lo que deducimos que los genes de virulencia van contenidos en IP integradas en el cromosoma bacteriano (Tabla S-17). DATA_3: Staphylococcus aureus 1- RESISTENCIA ANTIBIOTICOS: En la actualidad el 90% de las cepas de S.aureus son resistentes a penicilina y esto se debe a la producción de una β-lactamasa que es codificada por el gen blaZ. De las 24 muestras analizadas para este estudio, 21 (87%) presentaban resistencia para este gen. Sin embargo, dos de las muestras, la nº 6 (H597_S12_6) y la nº 23 (M3505_S6_23), a pesar de no expresar el gen blaZ mantienen la resistencia a penicilina debido a que produce el gen mecA. Todas las muestras mostraron la presencia de mecA a excepción de la muestra nº 12 (H1503_S15_12), que fue la que menor número de genes de resistencia portaba. En cuanto a resistencia a aminoglucósidos destacar la presencia de los genes aph(3')-III y ant(6)-Ia en 8 muestras y el gen aadD en 1 muestra. Las 24 cepas presentaban como mecanismo de resistencia la presencia de bombas de expulsión que afectó a tetraciclina (tet38). Nueve de las muestras mostraban resistencia a macrólidos y solo 1 muestra mostraba resistencia a trimetoprim. (Tabla S-15). 2- ESTUDIO DE FACTORES DE VIRULENCIA: Los factores de virulencia más importantes de las 24 cepas incluidas en el estudio están destacados en la Tabla 10 y Tabla S-21: Tabla- 10: Contenido de genes de virulencia de mayor relevancia en Dataset_3: S. aureus FACTOR DE VIRULENCIA GENES Nº AISLADOS Mecanismo de adherencia • Adherencia y colonización fnbp B 5 • Adherencia y colonización cna 23 • Formación de Biofilm ica A-B-C-R 24 • Antígeno capsular cap* - Producción de Toxinas • Hemolisinas Hla, hlb, hld, hlgA, hlgB, hlgC 24 • Leucocidinas (Panton-Valentine) lukF-PV, lukS-PV 5 • Exfoliativas eta 24 * Este gen presenta diferentes variantes y el nº de aislados está especificado en la Tabla ** del material suplementario 40 41 Los mecanismos de patogenia de dichos factores se explican a continuación: • Moléculas de adherencia: proteínas localizadas en la superficie de la bacteria y que favorecen la adherencia a los tejidos del hospedador para comenzar la colonización. • Formación de biofilms: conjunto de células que quedan adheridas a un sustrato y están embebidas en una sustancia polimérica dando lugar a alteraciones respecto al crecimiento, expresión de genes y producción de proteínas. Este proceso impide la entrada de antibióticos y de células del sistema inmune al interior provocando infecciones recurrentes. • Producción de toxinas: Se distinguen varios tipos de toxinas: ◦ Hemolisinas: proteínas que se secretan al exterior para formar poros en la membrana de la célula hospedadora y causar la lisis de ésta. Es altamente citotóxica para células del sistema inmune y es considerado uno de los factores de virulencia más importantes. ◦ Leucocidinas (leucocidina de Panton-Valentine) : esta formada por dos componentes (lukF-PV y lukS-PV) que se secretan de forma independiente en forma de monómeros y se anclan a la membrana de la célula hospedadora formando un complejo que conduce a la formación de un poro dando lugar a la muerte de la célula. Presenta una alta afinidad por leucocitos y está altamente asociado a S. aureus resistente a meticilina adquirido en la comunidad. Es responsable de la neumonía necrosante e infecciones de piel. Las muestran que presentan los genes lukF-PV y lukS-PV fueron, la muestra nº 1 (H401_S11_1), nº 15 (H1503_S15_12), 18 (M1056_S3_18), 19 (M1313_S5_19) y 23 (M3505_S6_23) y además, todas ellas, fueron portadoras del gen mecA. ◦ Toxinas exfoliativas: proteínas causantes del síndrome de la piel escaldada. Están presentes en el 10% de S. aureus y están codificadas por el gen eta que es detectado en el 100% de las muestras analizadas en este trabajo. Los datos analizados no mostraron la presencia de enterotoxinas que están asociadas con la intoxicación alimentaria y tampoco de la toxina causante del Síndrome de shock tóxico (TSST-1). 3- ESTUDIO DE PLASMIDOS: Los plásmidos de bacterias gram positivas no están tan bien caracterizados como los plásmidos de la familia Entrerobacteriaceae. En este estudio, decidimos utilizar la herramienta plasmidFinder para gram positivos sabiendo que la base de datos está en construcción. Entre los resultados obtenidos destaca la detección de genes relacionados con la replicación, denominados replicones (“rep”). Los replicones más representados en las muestras estudiadas son rep5, rep7 y rep16 (Tabla S-18). 5. CONCLUSIÓN Y DISCUSIÓN Uno de los objetivos iniciales de este TFM fue desarrollar un workflow para el análisis de datos de NGS, que incluía una etapa de control de calidad de secuencias, ensamblado de novo con Velvet y evaluación de la calidad del ensamblado con QUAST, con el objetivo de realizar un estudio de tipificación basado en la aproximación “gene-by-gene”. Sin embargo, debido a la limitación en el tiempo de prácticas no se pudo realizar, aunque éste era el objetivo principal. Como solución a esta limitación, decidimos redirigir el estudio hacia la caracterización fenotípica de los genomas bacterianos. El conjunto de datos estaba compuesto por 3 grupos taxonómicos: E. coli (n=22), S. typhimurium (n=20) y S. aureus (n=24). Todos los datos se analizaron sin conocer la información epidemiológica ni experimental asociada a cada una de las muestras. Los genomas fueron secuenciados mediante la plataforma Illumina MiSeq a partir de librerías PE con tamaño de lectura de la secuencia de 151 ó 251 pb. Los datos de las lecturas secuenciadas fueron proporcionados en formato fastq a la Unidad de Bioinformática (ISCIII) en el mes de junio 2014. La duración de este TFM fue de un periodo de 3 meses comprendido desde septiembre a noviembre de 2014. Los últimos avances en NGS han supuesto nuevos retos para el campo de la Microbiología Clínica y Salud Pública, sin embargo, la falta de herramientas automatizadas e intuitivas para llevar a cabo el análisis de datos sigue siendo una de las principales barreras [8,22,37]. Recientemente, se ha publicado una revisión de Fricke et al. donde se describen los principales retos asociados a la aplicación de datos de secuenciación de genomas bacterianos en el ámbito clínico, entre ellos, destaca la necesidad de normalizar las técnicas, gestionar los recursos informáticos que ayuden a reducir tanto el coste como el tiempo dedicado al análisis, así como, la integración del conjunto de los datos y el almacenamiento de los mismos [11]. Nuestro trabajo consistió en diseñar un workflow semi-automatizado donde se definió un conjunto de herramientas y parámetros para asegurar que los datos fueran reproducibles. Las etapas del workflow fueron ejecutadas para cada dataset de forma independiente (data_1, data_2 y data_3) [9]. Inicialmente, se observó gran variabilidad en la calidad de las secuencias originales, siendo las muestras pertenecientes al data_1 las que peores calidades presentaban, seguido por el data_2. El data_3 formado por 24 muestras presentó las mejores calidades. Hay que destacar que las muestras fueron secuenciadas por la misma tecnología pero diferente laboratorio y personal por lo que la variabilidad entre las muestras es comprensible. La estrategia seguida en la etapa de pre-procesamiento resultó eficaz en la mayoría de las muestras analizadas y mejoró de forma significativa las calidades de las muestras del data_1. Actualmente, existen dos estrategias de análisis de genomas: la primera, consiste en el alineamiento de las lecturas con el genoma de referencia para el estudio de variantes. La segunda, consiste en la reconstrucción del genoma de novo sin usar un genoma de referencia con el fin de obtener secuencias contiguas a partir de las cuales se extraerá la información de interés [37]. Para la realización de este trabajo se eligió la estrategia de ensamblado de novo , mientas que, otro estudiante, de este mismo máster, realizo 42 43 su proyecto basándose en la primera estrategia. Ambos trabajos tenían la finalidad de poder comparar en un futuro las dos estrategias y sacar conclusiones conjuntas. A diferencia de lo ocurrido en las competiciones de ensamblado (Assemblaton y GAGE), donde se evalúan diferentes ensambladores, en este trabajo únicamente se seleccionó una herramienta como consecuencia de la gran cantidad de muestras disponibles para el análisis [10,30,35]. Velvet se seleccionó por ser uno de los ensambladores más usados en la reconstrucción de genomas bacterianos secuenciados por Illumina, así como, por la capacidad de eliminar errores de secuenciación y por permitir la optimización de diferentes parámetros a partir del programa VelvetOptimiser.pl [39]. Sin embargo una de las limitaciones que tiene Velvet es que selecciona el mejor ensamblado en función de la métrica N50 [10,30,32,35]. La mayoría de los estudios publicados en la literatura seleccionan el mejor ensamblador basándose en el nº de contigs, tamaño del genoma o la métrica N50. En particular, el tamaño N50 rara vez presenta correlación con la calidad real del ensamblado, como se han demostrado en las recientes competiciones de ensamblado (Assemblaton, GAGE) [32]. Por este motivo decidimos añadir al workflow la etapa de evaluación de la calidad del ensamblado mediante QUAST. Desde el punto de vista del ensamblado, las métricas obtenidas para el conjunto de datos pertenecientes a data_1 (E. coli) fueron de calidad deficiente. Además, las métricas adicionales calculadas por QUAST corroboraron los malos resultados. Todo ello demuestra que, (i) Velvet no es la mejor herramienta de ensamblado, (ii) que la secuenciación no presenta la suficiente calidad y (iii) las características del genoma requieren de una secuenciación con diferentes características en tamaño de inserto o longitud de lectura. Si comparamos nuestros resultados con algunos estudios previos donde evalúan varios ensambladores, de entre ellos Velvet, para reconstruir el genoma de una cepa de E. coli, el nº de misassemblies obtenidos en los contigs ensamblados es muy superior en nuestro estudio [13]. Este fenómeno puede ser debido a errores cometidos durante el proceso de secuenciación o a la formación de quimeras entre las lecturas. Además, la fracción de genoma de referencia alineado con los contigs ensamblados no llega al 90%, el promedio de mismatches, indels y nº de bases desconocidas (Ns) fue bastante elevado para todas las muestras pertenecientes al data_1, con lo que volvemos a reiterar que Velvet no es la herramienta adecuada o que la referencia seleccionada no es la más correcta para comparar este conjunto de datos. Esta hipótesis fue confirmada tras observar el análisis de los resultados propuestos por el software iMetAMOS de dos muestras seleccionadas al azar. En ambas muestras Spades se mostró como el mejor ensamblador mientras que Velvet se clasificó en las últimas posiciones. Por otro lado, quisimos comprobar como afectaba la etapa de pre-procesamiento en el ensamblado de los genomas, para ello, realizamos la comparación de los ensamblados de las muestras procesadas y sin procesar. En general, se observó como las métricas de ensamblado mejoraban con la etapa de preprocesamiento, sobretodo atendiendo al data_1 que fue el que presentaba peores calidades. Sin embargo, es importante destacar que hubo un conjunto de muestras pertenecientes al data_2 y data_3 que presentaban mejores métricas cuando se ensamblaban los datos crudos sin procesar. Si relacionamos estos resultados con las calidades previas del data_2 y data_3 que fueron mejores respecto el data_1, podemos sacar como conclusión que la etapa de pre-procesamiento influyó de forma negativa en la etapa de ensamblado para 11 de 66 muestras incluidas en este análisis. Por lo tanto, una de las limitaciones a destacar en esta etapa de análisis fue que se utilizaron las mismas herramientas y parámetros para todo el conjunto de muestras sin atender a la calidad previa. Entre las posibles soluciones que se podrían haber aplicado para solucionar este problema, una podría haber sido diseñar otra estrategia que se adaptara mejor a las circunstancias de las 11 muestras que se vieron afectadas, y otra posibilidad podría haber sido tratar a cada muestra de forma independiente. Una de las aplicaciones de NGS en microbiología es estudiar la relación evolutiva entre las bacterias que le permite al microbiólogo rastrear los cambios espacio-temporales de las poblaciones bacterianas para identificar cepas productoras de brotes y su fuente de transmisión [8,22,31,37]. Existen diferentes aproximaciones y técnicas para establecer las relaciones filogenéticas. Para este trabajo se seleccionaron dos técnicas (MLST y rMLST) que nos permitió trabajar a partir de genomas ensamblados. La técnica MLST está basada en el análisis de las variaciones de 7 genes conservados y es útil para estudiar la diversidad de una amplia gamma de bacterias, presenta una gran reproducibilidad y permite almacenar la información en bases de datos que se van actualizando frecuentemente. Sin embargo, a pesar de ser un método robusto presenta algunas limitaciones, de entre la más importante destaca que no es capaz de proporcionar discriminación entre organismos estrechamente relacionados que pertenecen al mismo clon. Esta limitación obliga a completar el estudio de tipificación con otros métodos de mayor resolución, como por ejemplo los métodos basados en el estudio de los polimorfismo de un solo nucleótido (SNPs) para el análisis del genoma completo [29]. En este sentido, debido a las limitaciones anteriormente mencionadas decidimos incluir la técnica rMLST la cual está basada en ampliar el concepto de MLST aumentando el número de genes. En este caso se incluyen 53 genes que codifican la subunidad de las proteínas ribosomales y que están distribuidos a través del genoma, por lo que ofrece una cierta estabilidad de cara a los fenómenos de transferencia horizontal. Además, la gran variabilidad permite un mayor poder de discriminación entre especies que están estrechamente relacionadas y permite establecer agrupaciones de especies que presentan un alto grado de variabilidad dentro del mismo ST [18,29]. En relación a la tipificación realizada en este trabajo, podemos concluir que los resultados fueron coherentes con lo descrito anteriormente para el data_1 y data_2. Es importante destacar, las discrepancias encontradas para el data_3 respecto a la técnica rMLST, la cual se supone que tiene mayor resolución, sin embargo, ésta mostró un menor número de clusters respecto a la técnica MLST (3 clusters rMLST vs. 4 clusters MLST). Una de las posibles soluciones para esclarecer lo ocurrido con este dataset podría ser la realización de la tipificación basada en el enfoque “gene-by-gene” que está implementado con el software BIGsDB (Bacteial Isolates Genome Sequence database) que se apoya en el análisis de todos los genes del genoma de la bacteria y es conocido como whole-genome MLST (wgMLST) [2,16,17,19,36]. 44 45 A pesar del gran número de publicaciones sobre la tipificación de genomas bacterianos, tanto con la aproximación de SNPs como con la “gene-by-gene”, no hemos encontramos ningún estudio donde se comparan ambos enfoques. Puesto que este era el objetivo inicial de este trabajo y no pudo realizarse por la limitación del periodo de prácticas, decidimos proponerlo como una futura línea de investigación con el fin de completar el estudio y comparar todos los resultados de forma conjunta. A pesar de que los ensamblados obtenidos no presentaban a priori una calidad máxima, pudimos llegar a conocer con más detalle las características fenotípicas de los aislados gracias a las herramientas de análisis incluidos en el CGE (http://www.genomicepidemiology.org/). De entre los resultados más relevantes, desde el punto de vista de Salud Pública, cabe destacar que el total de las 22 muestras identificadas como E. coli presentaban como peculiaridad la producción de toxina Shiga, cuya transmisión está relacionada con el mecanismo mediado por fagos, acompañado de otras toxinas del tipo eae, efa ehx relacionadas con la patogenicidad de la bacteria. La especie de E. coli productor de toxina Shiga (STEC), es un patógeno que tiene una gran capacidad de diseminación a través de la ingestión de alimento o agua contaminados o por el contacto de persona a persona. Se caracteriza por causar diarreas con sangre y en algunos casos producir el Síndrome Urémico Hemolítico que viene acompañado de una insuficiencia renal grave, trombocitopenia y anemia hemolítica microangiopática que puede complicarse produciendo la muerte del individuo infectado. Por todo ello, es muy importante llevar a cabo un diagnostico y detección rápido para limitar su diseminación y evitar la aparición de brotes [10,15]. En relación con los resultados obtenidos en este trabajo, y teniendo en cuenta que no disponemos de la información epidemiológica de origen de los aislados ni de los pacientes afectados, no podemos concluir que las muestras incluidas en el data_1 fueran causantes de algún tipo de brote, a pesar de haber encontrado poca variabilidad en los datos pertenecientes a este dataset. El conjunto de muestras de S. typhimurium destacó por presentar gran cantidad de genes de resistencia algunos de ellos relacionados directamente con la transferencia a través de plásmidos conjugativos, como es el caso del gen qnr que afecta a quinolonas el cual es usado como tratamiento elección para salmonelosis. Además estas cepas se caracterizaron por presentar gran cantidad de factores de virulencia que en su mayoría estaban asociados a IP, lo que podría indicar que han sido adquiridas por transferencia horizontal a partir de fagos (transducción) o plásmidos (conjugación) [1,23,25,26,34]. En este set de datos se detectaron dos clusters, uno formado por 18 muestras (ST-19) y otro por 2 muestras (ST36), una situación similar a lo ocurrido en el data_1. Finalmente, lo más destacado del análisis llevado a cabo en las muestras de S. aureus fue encontrar el gen mecA en el 95,8% (23 muestras). El gen mecA, codifica para una proteína de unión a penicilina tipo 2 (PBP) que da lugar a una baja afinidad en la unión con la molécula de antibiótico de forma que inactiva completamente a todos los β-lactámicos [1,34]. Esta resistencia es una de las más importantes a tener en cuenta en infecciones causadas por S.aureus adquiridos en la comunidad o en el hospital. Además es importante mencionar que todas las muestras incluían un amplio repertorio de factores de virulencia que le permiten sobrevivir en condiciones extremas en el hospedador humano y que le permite producir manifestaciones, de entre las que destacan, la bacteriemia, la afectación de piel y tejidos blandos, infecciones del tracto respiratorio inferior, endocarditis, ostiomielitis, entre otras. Uno de los factores de virulencia más importantes fue la producción de leucocidina de Panton-Valentine, codificada por los genes LukS-PV y LukF-PV, que está altamente asociado a S. aureus resistentes a meticilina adquiridos en la comunidad. En todas las muestras donde se detectaron estos genes además se detectó la producción del gen mecA por lo que coincidiría con los datos publicados en la literatura [14,27]. Sin embargo, no podemos confirmar este hallazgo debido a que no tenemos los datos epidemiológicos que pudieran asegurar que estos aislados son adquiridos en la comunidad. Entre las limitaciones encontradas en el análisis fenotípico a través de las herramientas web de CEG destacan las siguientes: • La aplicación solo permite identificar genes de resistencia adquiridos y no detecta aquella resistencia causada por mutaciones del genoma. Como solución se propone completar esta información utilizando otras base de datos como por ejemplo ARG-ANNOT la cual está actualizada, curada y permite detectar los genes de resistencia más relevantes [12]. • La base de datos para plásmidos de gram positivos está en construcción y por lo tanto los resultados obtenidos en este trabajo son preliminares y sería necesario completarlo una vez esté terminada la aplicación. Como conclusión, en este trabajo hemos sido capaces de crear un workflow de análisis de datos que incluyen diferentes herramientas y parámetros, además de extraer la información más relevante de cada una de las muestras relacionadas con tipificación, genes de resistencia y virulencia, así como con los plásmidos relacionados con la transferencia horizontal. Sin embargo, al tratarse de un estudio “en ciego”, es difícil saber si se han interpretado correctamente los resultados puesto que no disponemos de los datos epidemiológicos y experimentales que certifiquen que son ciertos, por lo tanto sería necesario comprobar esta información en estudios posteriores. 46 47 8. REFERENCIAS BIBLIOGRAFICAS 1. Angela H et al. Acquired antibiotic resistance genes: an overview. Front Microbiol. 2011. 28;2:203. 2. Bialek-Davenet et al. Genomic definition of hypervirulent and multidrug-resistant Klebsiella pneumoniae clonal groups. Emerg Infect Dis. 2014. 20;11:1812-20. 3. Blanco M et al. Serotypes, virulence genes, and intimin types of Shiga toxin (verotoxin)-producing Escherichia coli isolates fromcattle in Spain and identification of a new intimin variant gene (eae-xi). J Clin Microbiol. 2004. 42;2:645-51. 4. Bolger, A. M. et al. Trimmomatic: A flexible trimmer for Illumina Sequence Data. Bioinformatics. 2014. 30;15:2114-20. 5. Carattoli A et al. PlasmidFinder and pMLST: in silico detection and typing of plasmids. Antimicrob. Agents Chemother. 2014. 58;7:3895-903 6. Carriço JA et al. Bioinformatics in bacterial molecular epidemiology and public health: databases, tools and the next generation sequencing revolution. Euro Surveill. 2013. 24; 18(4). 7. Dark MJ et al. Whole-genome sequencing in bacteriology: state of the art. Infect Drug Resist. 2013. 8;6:115-23. 8. Didelot X et al. Transforming clinical microbiology with bacterial genome sequencing. Nat Reviews, genetics, 13, 2012. 9. Edwards DJ et al. Beginner's guide to comparative bacterial genome analysis using next-generation sequence data. 2013. 3;1:2. 10. Earl, D. et al. Assemblathon 1: a competitive assessment of de novo short read assembly methods. Genome Res. 2011. 21:2224–2241. 11. Fricke WF et al. Bacterial genome sequencing in the clinic: Bioinformatic challenges and solutions. Nat Rev Genet. 2014. 15:49-55. 12. Gupta, SK et al. ARG-ANNOT, a new bioinformatic tool to discover antibiotic resistance genes in bacterial genomes. Antimicrob Agents Chemother. 2014. 58;1:212-20. 13. Gurevich A et al. QUAST: quality assessment tool for genome assemblies. Bioinformatics. 2013. 29;8:1072-5. 14. Harris SR et al. Evolution of MRSA during hospital transmission and intercontinental spread. Science. 2010. 327;5964:469-74. 15. Joensen KG et al. Real-time whole-genome sequencing for routine typing, surveillance, and outbreak detection of verotoxigenic Escherichia coli. J. Clin. Micobiol. 2014. 52;5: 1501-1510. 16. Jolley KA et al. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 2010. 10;11:595. 17. Jolley KA et al. Resolution of a meningococcal disease outbreak from whole-genome sequence data with rapid Web-basedanalysis methods. J Clin Microbiol. 2012. ;50;9:3046-53. 18. Jolley KA et al. Ribosomal multilocus sequence typing: universal characterization of bacteria from domain to strain. Microbiology. 2012. 158;Pt 4:1005-15. 19. Jolley KA et al. Automated extraction of typing information for bacterial pathogens from whole genome sequence data: Neisseria meningitidis as an exemplar. Euro Surveill. 2013. 18;4:20379. 20. Kisand V et al. Genome sequencing of bacteria: sequencing, de novo assembly and rapid analysis using open source tools. BMC Genomics. 2013. 1;14:211. 21. Koren S et al. Automated ensemble assembly and validation of microbial genomes. BMC Bioinformatics. 2014. 15:126. 22. Koser et al. Routine use of microbial whole genome sequencing in diagnostic and public health microbiology. Plos Pathogens 8, 2012. 23. Langille MG et al. Detecting genomic islands using bioinformatics approaches. Nat Rev Microbiol. 2010. 8;5:373-82. 24. Larsen MV et al. Multilocus Sequence Typing of Total-Genome-Sequenced Bacteria. J Clin Microbiol. 2012. 50;4:1355-61. 25. Leekitcharoenphon P et al. Evaluation of whole genome sequencing for outbreak detection of Salmonella enterica. PloS One. 2014. 9;2:e87991. 26. Leekitcharoenphon P et al. Genomic variation in Salmonella enterica core genes for epidemiological typing. BMC Genomics. 2012. 12;13:88. 27. Lindsay JA et al. Staphylococcus aureus: superbug super genome? Trends Microbiol 2004; 12: 378385. 28. MacLean D et al. Application of ‘next-generation’ sequencing technologies to microbial genetics. Nat Rev Microbiol. 2009. 7;4:287-96. 29. Maiden MC et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nat Rev Microbiol. 2013. 11;10:728-36. 30. Magoc T et al. GAGE-B: an evaluation of genome assemblers for bacterial organisms. Bioinformatics. 2013. 29;14:1718-25. 31. Medini D et al. Microbiology in the post-genomic era. Nat Rev Microbiol. 2008. 6;6:419-30. 32. Nagarajan N et al. Sequence assembly demystified. Nat Rev Genet. 2013. 14;3:157-67. 33. Paszkiewicz K et al. De novo assembly of short sequence reads. Brief Bioinform. 2010. 11;5:457-72. 34. Perry JA et al. The antibiotic resistome: what's new?. Curr Opin Microbiol. 2014. 21C:45-50. 35. Salzberg, S. L. et al. GAGE: a critical evaluation of genome assemblies and assembly algorithms. Genome Res. 2012. 22:557–567 . 36. Sheppard S et al. A Gene-By-Gene Approach to Bacterial Population Genomics: Whole Genome MLST of Campylobacter. Genes. 2012. 3;2:261-77. 37. Wyres KL et al. WGS Analysis and Interpretation in Clinical and Public Health Microbiology Laboratories: What Are theRequirementsand How DoExistingToolsCompare?. Pathogens. 2014. 3;2:437-58. 38. Zankari E et al. Identification of acquired antimicrobial resistance genes. J Antimicrob Chemother. 2012. 67;11:2640-4. 39. Zerbino DR et al. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008. 18;5:821-9. 48