Estimación de las probabilidades de drop-out y drop-in

Transcripción

Estimación de las probabilidades de drop-out y drop-in
PROBABILIDAD DE DROP-OUT Y
DROP-IN (Pr(D), Pr(C))
Lourdes Prieto
Instituto de Ciencias Forenses. Universidad de Santiago
de Compostela
Probabilidad de drop-out Pr(D) y drop-in Pr(C)
• Utilidad de las simulaciones
• Cálculo de la Pr(D) con regresión logística
• Cálculo de la Pr(D) con aproximación basada en un
modelo (sensitivity test)
• Cálculo empírico de la Pr(C)
Utilidad de las simulaciones
• Cuando un proceso es complejo las simulaciones pueden
ayudarnos a entender su comportamiento
• Podemos comparar los resultados de una simulación por
ordenador con los datos reales
• Nuestros análisis son procesos bioquímicos complejos
• Podemos usar simulaciones para:
• Definir las causas del desequilibrio entre los alelos de un
heterocigoto
• Definir las causas del drop-out alélico
• Mejorar la interpretación de perfiles (especialmente en mezclas)
Probabilidad de drop-out Pr(D) y drop-in Pr(C)
• Utilidad de las simulaciones
• Cálculo de la Pr(D) con regresión logística
• Cálculo de la Pr(D) con aproximación basada en un
modelo (sensitivity test)
• Cálculo empírico de la Pr(C)
Pr(D) con regresión logística
• Pr(D) = probabilidad de drop-out
• Dos modelos basados en regresión logística:
• Gill et al. FSIGenet., 3 (2) (2009): 104–111: Pr (D) se puede
deducir a partir de una medida de la calidad del perfil, basada en la
altura de los picos
• T. Tvedebrin et al. FSI Genet. 3 (4) (2009) 222–226: Pr(D) se
puede deducir a partir de una estima de la cantidad total de ADN
• El objetivo primordial que resuelve esta técnica es el de
modelar cómo influye en la probabilidad de aparición de
un suceso, la presencia o no de diversos factores y el
valor o nivel de los mismos
Pr(D) con regresión logística
• Modelo de la altura del pico superviviente (Surviving peak height
model): Gill et al. FSIGenet., 3 (2) (2009): 104–111
• Imaginemos un heterocigoto que ha perdido un alelo
• Si la altura del pico superviviente es muy baja, la probabilidad de que se
perdiera un alelo es alta
• D = drop-out y se define mediante una variable binaria:
ISFG recommendations 2006
Pr(D) con regresión logística
• La probabilidad de drop-out se define como una
probabilidad condicional:
• P(D/X)
• 0 y 1 son dos parámetros que se estiman usando datos
experimentales (muestras de ADN a las que les inducimos el dropout)
• 0 expresa la probabilidad de drop-out extremo
• 1 expresa los cambios en la probabilidad de drop-out a medida que
las alturas del pico superviviente varían
• Ejemplos en: H. Haned et al., FSIgen 5 (2011): 525-531
Pr(D) con regresión logística
Cálculo de la probabilidad de drop-out en el laboratorio
• Selección del rango
• Diluciones seriadas (ej.: 200pg a 10 pg)
• Seleccionar un rango que comprenda perfiles completos y perfiles
con casi drop-out completo
• Recolección de datos
• Seleccionar 100 muestras con genotipos diferentes que estén en
ese rango y analizarlas
• Bajar el límite de detección tanto como sea posible (por ej.: 30 rfus)
• Cálculo de la probabilidad de drop-out
• Estima de los parámetros 0 y 1.
Probabilidad de drop-out Pr(D) y drop-in Pr(C)
• Utilidad de las simulaciones
• Cálculo de la Pr(D) con regresión logística
• Cálculo de la Pr(D) con aproximación basada en un
modelo (sensitivity test)
• Cálculo empírico de la Pr(C)
Pr(D) con aproximación basada en un
modelo (sensitivity tests)
Depende de:
• El número de alelos observados en la muestra problema
• Los genotipos de los contribuyentes
Se cuestiona:
• ¿Cuáles son las probabilidades de drop-out que nos han
llevado a observar el mismo número de alelos que los
presentes en la muestra problema?
• ¿Cuál es la distribución del número de alelos en la
muestra problema condicionado a la Pr(D)?
Pr(D) con aproximación basada en un modelo
• ¿Cuáles son las probabilidades de drop-out que nos han
llevado a observar el mismo número de alelos que los
presentes en la muestra problema?
No conocemos las probabilidades de drop-out, pero podemos
evaluar las Pr(D) que pueden haber llevado a observar un perfil
(individual o mezcla) similar al que estamos investigando
Podemos construir distribuciones empíricas del número de alelos,
condicionadas a un rango de probabilidad de drop-out de 0 a 1 [0,
1], usando simulaciones con el algoritmo de Monte-Carlo
Pr(D) con aproximación basada en un modelo
Método Monte-Carlo
• Es un estadístico numérico, usado para
aproximar expresiones
matemáticas complejas y costosas de
evaluar con exactitud
• Para procesos que poseen un
comportamiento
eminentemente aleatorio
• Soluciona problemas generando
números aleatorios adecuados y
observando qué fracción de los números
obedecen a una propiedad o
propiedades
Pr(D) con aproximación basada en un modelo
Propiedades de nuestros casos (ejemplo)
• Mezcla de 2 personas
• 51 alelos observados en el epg (16 aSTRs)
• Perfiles de víctima y sospechoso disponibles:
• Víctima: 31 alelos
• Sospechoso: 30 alelos
52 alelos distintos
LRmixStudio sensitivity test: simula un gran
número de mezclas que tengan las propiedades
de nuestro epg
Alelos
observados
Alelos
esperados
51
52
Pr(D) con aproximación basada en un modelo
• Procedimiento de simulación del Monte-Carlo para la
estimación de la Pr(D)
• El sensitivity test se lleva a cabo desde el punto de vista del
fiscal y de la defensa (para evitar sesgos).
• Suponiendo Hp: Víctima y Sospechosos han contribuido a la mezcla
• Suponiendo Hd: Víctima y Desconocido han contribuido a la mezcla
Hp
MEZCLA 51
alelos
Víctima
Sospechoso
Hd
MEZCLA 51
alelos
Víctima
Desconocido
Suponiendo Hp
• Si la víctima y el sospechoso
contribuyeron a la mezcla,
tendríamos que haber detectado
52 alelos en total
• LRmix simula el genotipado de
un perfil de 52 alelos, suponiendo
diferentes probabilidades teóricas
de drop-out (desde 0.01 a 0.99).
• Posteriormente, cuenta los alelos
obtenidos en cada simulación y
los añade a una tabla.
Locus
Victim
Suspect
Alelos
distintos
D10S1248
14-16
14-15
3
VWA
15-16
16-16
2
D16S539
12-14
9-10
4
D2S1338
20-21
16-20
3
D8S1179
15-15
11-13
3
D21S11
31.2-33.2
31-31.2
3
D18S51
12-15
12-14
3
D22S1045
11-15
15-16
3
D19S433
16-16.2
14-16
3
TH01
9-9.3
9.3-9.3
2
FGA
22-23
20-21
4
D2S441
10-14
11-11.3
4
D3S1358
14-15
15-18
3
D1S1656
11-14
12-17.3
4
D12S391
20-23
17-19
4
SE33
17-28.2
24.2-25.2
4
Suponiendo Hp
• Muestreo al azar suponiendo diferentes Pr(D)
Hp
Se mezclan los alelos de V + S
PrD =0.01
Alelos totales V + S = 52
PrD =0.5
PrD =0.99
Muestreo
# Alelos
Muestreo
# Alelos
Muestreo
# Alelos
1
52
1
26
1
3
2
51
2
25
2
2
3
52
3
24
3
3
4
52
4
23
4
1
.
.
.
.
.
.
.
.
.
.
.
.
N
50
N
26
N
1
RANGO DE PROBABILIDADES DE DROP-OUT = 0.01 a 0.99
Suponiendo Hp
• Obviamente, cuando se aplica una probabilidad de drop-
out baja (ver tabla PrD=0.01), se detectan casi todos los
alelos distintos de víctima y sospechoso (ej. 52, 51, 50
alelos) y cuando se aplican probabilidades de drop-out
muy elevadas (ver tabla PrD=0.99) sólo se detectan unos
pocos alelos.
• Los datos obtenidos (perfiles simulados y sus
correspondientes probabilidades de drop-out) se agrupan
por el número de alelos obtenidos en el perfil resultante.
Sólo se tendrán en cuenta los perfiles que contengan el
mismo número de alelos que el perfil de nuestro epg (51
alelos).
Suponiendo Hp
• Estos perfiles de 51 alelos se habrán generado
principalmente en un rango específico de probabilidades
de drop-out.
Suponiendo Hd
• Se realiza la misma simulación (sensitivity test), desde el
punto de vista de la defensa
Hd
MEZCLA 51
alelos
Víctima
Desconocido
• En este caso, se mezclan los alelos de la víctima y los de
un perfil generado al azar.
• Veamos cómo se construyen los perfiles al azar
Pr(D) con aproximación basada en un modelo
• Procedimiento de simulación del Monte-Carlo
Se basa en el muestreo al azar de alelos (randomly sampling alleles)
PRIMER MUESTREO:5-7
5
SEGUNDO MUESTREO:8-9
9.3
TERCER MUESTREO:9-9.3
7
6
10
8
9
N MUESTREO:9-10
Tras muchas repeticiones los alelos más frecuentes se seleccionarán con más
probabilidad que los menos frecuentes
Suponiendo Hd
• Se simula el genotipado de una mezcla de la víctima + desconocido teniendo en
cuenta diferentes probabilidades teóricas de drop-out (otra vez desde 0.01 a 0.99).
Hd
Se mezclan alelos de V + U
Alelos totales de V + U =
depende del perfil de U
• Muestreo al azar suponiendo diferentes Pr(D)
PrD =0.01
PrD =0.5
PrD =0.99
Muestreo
# Alelos
Muestreo
# Alelos
Muestreo
# Alelos
1
56
1
27
1
3
2
55
2
28
2
2
3
56
3
28
3
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
N
57
N
29
N
1
RANGO DE PROBABILIDADES DE DROP-OUT = 0.01 a 0.99
Suponiendo Hd
• Los datos (perfiles simulados y sus correspondientes probabilidades
de drop-out) se agrupan por el número de alelos obtenidos en los
perfiles resultantes. Sólo se tienen en cuenta los perfiles simulados
que contienen el mismo número de alelos que nuestro epg (51
alelos).
Sensitivity test
• LRmix proporciona los percentiles 5 y 95 para ambas
distribuciones de 51 alelos (Hp y Hd)
Under Hp
5%
0.01
95%
0.15
Under Hd
5%
0.01
95%
0.11
En este ejemplo, la Pr(D) para un perfil de 51 alelos (como el detectado en
nuestro epg) tiene un valor entre 0.01 y 0.15
Pr(D) con aproximación basada en un modelo
• ¿qué significan los percentiles?
• Un percentil es el valor de una variable bajo el cual se
encuentran un cierto porcentaje de las observaciones
• El percentil 20 es el valor bajo el cual se encuentran el 20% de
las observaciones
• Si un valor se encuentra en el percentil 86, esto significa que
ese valor es mayor que el 85% del resto de observaciones
Probabilidad de drop-out Pr(D) y drop-in Pr(C)
• Utilidad de las simulaciones
• Cálculo de la Pr(D) con regresión logística
• Cálculo de la Pr(D) con aproximación basada en un
modelo (sensitivity test)
• Cálculo empírico de la Pr(C)
Cálculo empírico de la Pr(C)
• P. Gill et al., An investigation of the rigor of interpretation
rules for STRs derived from less than 100 pg of DNA, FSI
112 (2000) 17-40.
• La probabilidad de observar un alelo A contaminante es:
• Pr(C) freqA
• La probabilidad de drop-in (Pr(C)) puede ser distinta en
cada laboratorio. Se estima a partir de los controles
negativos de extracción:
• Si analizamos “n” controles negativos y en ellos aparecen “y”
alelos, entonces Pr(C) = y/n
Cálculo empírico de la Pr(C)
• Cálculo de Pr(C): controles negativos de extracción
• Ejemplo: Pr(C) IDF+, 50rfus, extracción orgánica = 0,077 (y=10,
N=130)

Documentos relacionados