Estimación de las probabilidades de drop-out y drop-in
Transcripción
Estimación de las probabilidades de drop-out y drop-in
PROBABILIDAD DE DROP-OUT Y DROP-IN (Pr(D), Pr(C)) Lourdes Prieto Instituto de Ciencias Forenses. Universidad de Santiago de Compostela Probabilidad de drop-out Pr(D) y drop-in Pr(C) • Utilidad de las simulaciones • Cálculo de la Pr(D) con regresión logística • Cálculo de la Pr(D) con aproximación basada en un modelo (sensitivity test) • Cálculo empírico de la Pr(C) Utilidad de las simulaciones • Cuando un proceso es complejo las simulaciones pueden ayudarnos a entender su comportamiento • Podemos comparar los resultados de una simulación por ordenador con los datos reales • Nuestros análisis son procesos bioquímicos complejos • Podemos usar simulaciones para: • Definir las causas del desequilibrio entre los alelos de un heterocigoto • Definir las causas del drop-out alélico • Mejorar la interpretación de perfiles (especialmente en mezclas) Probabilidad de drop-out Pr(D) y drop-in Pr(C) • Utilidad de las simulaciones • Cálculo de la Pr(D) con regresión logística • Cálculo de la Pr(D) con aproximación basada en un modelo (sensitivity test) • Cálculo empírico de la Pr(C) Pr(D) con regresión logística • Pr(D) = probabilidad de drop-out • Dos modelos basados en regresión logística: • Gill et al. FSIGenet., 3 (2) (2009): 104–111: Pr (D) se puede deducir a partir de una medida de la calidad del perfil, basada en la altura de los picos • T. Tvedebrin et al. FSI Genet. 3 (4) (2009) 222–226: Pr(D) se puede deducir a partir de una estima de la cantidad total de ADN • El objetivo primordial que resuelve esta técnica es el de modelar cómo influye en la probabilidad de aparición de un suceso, la presencia o no de diversos factores y el valor o nivel de los mismos Pr(D) con regresión logística • Modelo de la altura del pico superviviente (Surviving peak height model): Gill et al. FSIGenet., 3 (2) (2009): 104–111 • Imaginemos un heterocigoto que ha perdido un alelo • Si la altura del pico superviviente es muy baja, la probabilidad de que se perdiera un alelo es alta • D = drop-out y se define mediante una variable binaria: ISFG recommendations 2006 Pr(D) con regresión logística • La probabilidad de drop-out se define como una probabilidad condicional: • P(D/X) • 0 y 1 son dos parámetros que se estiman usando datos experimentales (muestras de ADN a las que les inducimos el dropout) • 0 expresa la probabilidad de drop-out extremo • 1 expresa los cambios en la probabilidad de drop-out a medida que las alturas del pico superviviente varían • Ejemplos en: H. Haned et al., FSIgen 5 (2011): 525-531 Pr(D) con regresión logística Cálculo de la probabilidad de drop-out en el laboratorio • Selección del rango • Diluciones seriadas (ej.: 200pg a 10 pg) • Seleccionar un rango que comprenda perfiles completos y perfiles con casi drop-out completo • Recolección de datos • Seleccionar 100 muestras con genotipos diferentes que estén en ese rango y analizarlas • Bajar el límite de detección tanto como sea posible (por ej.: 30 rfus) • Cálculo de la probabilidad de drop-out • Estima de los parámetros 0 y 1. Probabilidad de drop-out Pr(D) y drop-in Pr(C) • Utilidad de las simulaciones • Cálculo de la Pr(D) con regresión logística • Cálculo de la Pr(D) con aproximación basada en un modelo (sensitivity test) • Cálculo empírico de la Pr(C) Pr(D) con aproximación basada en un modelo (sensitivity tests) Depende de: • El número de alelos observados en la muestra problema • Los genotipos de los contribuyentes Se cuestiona: • ¿Cuáles son las probabilidades de drop-out que nos han llevado a observar el mismo número de alelos que los presentes en la muestra problema? • ¿Cuál es la distribución del número de alelos en la muestra problema condicionado a la Pr(D)? Pr(D) con aproximación basada en un modelo • ¿Cuáles son las probabilidades de drop-out que nos han llevado a observar el mismo número de alelos que los presentes en la muestra problema? No conocemos las probabilidades de drop-out, pero podemos evaluar las Pr(D) que pueden haber llevado a observar un perfil (individual o mezcla) similar al que estamos investigando Podemos construir distribuciones empíricas del número de alelos, condicionadas a un rango de probabilidad de drop-out de 0 a 1 [0, 1], usando simulaciones con el algoritmo de Monte-Carlo Pr(D) con aproximación basada en un modelo Método Monte-Carlo • Es un estadístico numérico, usado para aproximar expresiones matemáticas complejas y costosas de evaluar con exactitud • Para procesos que poseen un comportamiento eminentemente aleatorio • Soluciona problemas generando números aleatorios adecuados y observando qué fracción de los números obedecen a una propiedad o propiedades Pr(D) con aproximación basada en un modelo Propiedades de nuestros casos (ejemplo) • Mezcla de 2 personas • 51 alelos observados en el epg (16 aSTRs) • Perfiles de víctima y sospechoso disponibles: • Víctima: 31 alelos • Sospechoso: 30 alelos 52 alelos distintos LRmixStudio sensitivity test: simula un gran número de mezclas que tengan las propiedades de nuestro epg Alelos observados Alelos esperados 51 52 Pr(D) con aproximación basada en un modelo • Procedimiento de simulación del Monte-Carlo para la estimación de la Pr(D) • El sensitivity test se lleva a cabo desde el punto de vista del fiscal y de la defensa (para evitar sesgos). • Suponiendo Hp: Víctima y Sospechosos han contribuido a la mezcla • Suponiendo Hd: Víctima y Desconocido han contribuido a la mezcla Hp MEZCLA 51 alelos Víctima Sospechoso Hd MEZCLA 51 alelos Víctima Desconocido Suponiendo Hp • Si la víctima y el sospechoso contribuyeron a la mezcla, tendríamos que haber detectado 52 alelos en total • LRmix simula el genotipado de un perfil de 52 alelos, suponiendo diferentes probabilidades teóricas de drop-out (desde 0.01 a 0.99). • Posteriormente, cuenta los alelos obtenidos en cada simulación y los añade a una tabla. Locus Victim Suspect Alelos distintos D10S1248 14-16 14-15 3 VWA 15-16 16-16 2 D16S539 12-14 9-10 4 D2S1338 20-21 16-20 3 D8S1179 15-15 11-13 3 D21S11 31.2-33.2 31-31.2 3 D18S51 12-15 12-14 3 D22S1045 11-15 15-16 3 D19S433 16-16.2 14-16 3 TH01 9-9.3 9.3-9.3 2 FGA 22-23 20-21 4 D2S441 10-14 11-11.3 4 D3S1358 14-15 15-18 3 D1S1656 11-14 12-17.3 4 D12S391 20-23 17-19 4 SE33 17-28.2 24.2-25.2 4 Suponiendo Hp • Muestreo al azar suponiendo diferentes Pr(D) Hp Se mezclan los alelos de V + S PrD =0.01 Alelos totales V + S = 52 PrD =0.5 PrD =0.99 Muestreo # Alelos Muestreo # Alelos Muestreo # Alelos 1 52 1 26 1 3 2 51 2 25 2 2 3 52 3 24 3 3 4 52 4 23 4 1 . . . . . . . . . . . . N 50 N 26 N 1 RANGO DE PROBABILIDADES DE DROP-OUT = 0.01 a 0.99 Suponiendo Hp • Obviamente, cuando se aplica una probabilidad de drop- out baja (ver tabla PrD=0.01), se detectan casi todos los alelos distintos de víctima y sospechoso (ej. 52, 51, 50 alelos) y cuando se aplican probabilidades de drop-out muy elevadas (ver tabla PrD=0.99) sólo se detectan unos pocos alelos. • Los datos obtenidos (perfiles simulados y sus correspondientes probabilidades de drop-out) se agrupan por el número de alelos obtenidos en el perfil resultante. Sólo se tendrán en cuenta los perfiles que contengan el mismo número de alelos que el perfil de nuestro epg (51 alelos). Suponiendo Hp • Estos perfiles de 51 alelos se habrán generado principalmente en un rango específico de probabilidades de drop-out. Suponiendo Hd • Se realiza la misma simulación (sensitivity test), desde el punto de vista de la defensa Hd MEZCLA 51 alelos Víctima Desconocido • En este caso, se mezclan los alelos de la víctima y los de un perfil generado al azar. • Veamos cómo se construyen los perfiles al azar Pr(D) con aproximación basada en un modelo • Procedimiento de simulación del Monte-Carlo Se basa en el muestreo al azar de alelos (randomly sampling alleles) PRIMER MUESTREO:5-7 5 SEGUNDO MUESTREO:8-9 9.3 TERCER MUESTREO:9-9.3 7 6 10 8 9 N MUESTREO:9-10 Tras muchas repeticiones los alelos más frecuentes se seleccionarán con más probabilidad que los menos frecuentes Suponiendo Hd • Se simula el genotipado de una mezcla de la víctima + desconocido teniendo en cuenta diferentes probabilidades teóricas de drop-out (otra vez desde 0.01 a 0.99). Hd Se mezclan alelos de V + U Alelos totales de V + U = depende del perfil de U • Muestreo al azar suponiendo diferentes Pr(D) PrD =0.01 PrD =0.5 PrD =0.99 Muestreo # Alelos Muestreo # Alelos Muestreo # Alelos 1 56 1 27 1 3 2 55 2 28 2 2 3 56 3 28 3 5 . . . . . . . . . . . . . . . . . . N 57 N 29 N 1 RANGO DE PROBABILIDADES DE DROP-OUT = 0.01 a 0.99 Suponiendo Hd • Los datos (perfiles simulados y sus correspondientes probabilidades de drop-out) se agrupan por el número de alelos obtenidos en los perfiles resultantes. Sólo se tienen en cuenta los perfiles simulados que contienen el mismo número de alelos que nuestro epg (51 alelos). Sensitivity test • LRmix proporciona los percentiles 5 y 95 para ambas distribuciones de 51 alelos (Hp y Hd) Under Hp 5% 0.01 95% 0.15 Under Hd 5% 0.01 95% 0.11 En este ejemplo, la Pr(D) para un perfil de 51 alelos (como el detectado en nuestro epg) tiene un valor entre 0.01 y 0.15 Pr(D) con aproximación basada en un modelo • ¿qué significan los percentiles? • Un percentil es el valor de una variable bajo el cual se encuentran un cierto porcentaje de las observaciones • El percentil 20 es el valor bajo el cual se encuentran el 20% de las observaciones • Si un valor se encuentra en el percentil 86, esto significa que ese valor es mayor que el 85% del resto de observaciones Probabilidad de drop-out Pr(D) y drop-in Pr(C) • Utilidad de las simulaciones • Cálculo de la Pr(D) con regresión logística • Cálculo de la Pr(D) con aproximación basada en un modelo (sensitivity test) • Cálculo empírico de la Pr(C) Cálculo empírico de la Pr(C) • P. Gill et al., An investigation of the rigor of interpretation rules for STRs derived from less than 100 pg of DNA, FSI 112 (2000) 17-40. • La probabilidad de observar un alelo A contaminante es: • Pr(C) freqA • La probabilidad de drop-in (Pr(C)) puede ser distinta en cada laboratorio. Se estima a partir de los controles negativos de extracción: • Si analizamos “n” controles negativos y en ellos aparecen “y” alelos, entonces Pr(C) = y/n Cálculo empírico de la Pr(C) • Cálculo de Pr(C): controles negativos de extracción • Ejemplo: Pr(C) IDF+, 50rfus, extracción orgánica = 0,077 (y=10, N=130)