generalidades

Transcripción

generalidades
GENERALIDADES
Concepto de Bioestadística: La estadística es un conjunto de métodos y procedimientos
utilizados para coleccionar datos con el fin de organizarlos, tabularlos e interpretarlos. Si
estos datos u observaciones se relacionan con los seres vivos, se trata entonces de
bioestadística.
Se puede decir que la bioestadística es una ciencia puesto que la organización e
interpretación de datos implica la utilización del método científico. Sin embargo también
suele considerarse como un arte en cuanto que la recolección de datos requiere de habilidad
y artificios, sobre todo para ajustarlos lo más posible a la realidad.
Campo e importancia. La estadística juega un papel importante en casi todas las facetas y
actividades del ser humano. Se ocupa inicialmente en asuntos de estado, negocios,
economía, educación. Actualmente ha adquirido relevancia en el área de la salud,
fundamentalmente en epidemiología.
Los avances tecnológicos enfrentan al estudioso o investigador del área de la salud con
información cuantitativa más que descriptiva. En este sentido la estadística viene a ser el
lenguaje necesario para coordinar y manejar el material.
Variables. Una característica relevante de los seres vivos es la de manifestar variabilidad,
es decir, presentar diferencias entre individuos aunque pertenezcan al mismo grupo. Un
símbolo que puede representar valores diferentes y previamente fijados se denomina
variable independiente; si el símbolo representa valores correspondientes a los prefijados,
se trata entonces de una variable dependiente. La variación puede ser continua o discreta.
La continuidad implica que entre dos valores considerados siempre habrá la posibilidad de
encontrar otros valores más. Cuando no ocurre esto se dice que los valores o los números
son discretos.
Funciones. Si a cada valor posible de una variable X le corresponde un valor de otra
variable Y, se dice entonces que Y es función de x, y se escribe Y= F(X). No
necesariamente tienen que utilizarse los símbolos Y y X. Es mas, en ocasiones es mucho
mejor utilizar otras letras que nos hablen más de lo que estamos representando con ellas.
Por ejemplo para representar tiempo una t, para representar volumen una v y así por el
estilo. Si dijéramos por ejemplo que la producción de maíz en los últimos 3 años en el país
PPP, fue de 20 000 toneladas en 1998, de 32 000 toneladas en 1999 y 37 000 toneladas en
2000, entonces estamos hablando de una función, donde para cada año hay una
correspondiente cantidad de maíz, y podríamos utilizar la “M” para representar cantidad de
maíz y la “a” para representar años. Así pues, M es función de a. M = F(a).
Gráficos. Un gráfico es la representación de las relaciones entre variables. En estadística se
utilizan diferentes tipos de gráficos, según la naturaleza de los datos involucrados y el
propósito del gráfico. Entre otros podemos citar los de barras, de líneas, circulares (pastel),
de dispersión. Es importante entender que un gráfico debe servir para aclarar, no para
confundir.
Elaboró: Guillermo Castañeda Tovar
1
UACQB_UAG
Redondeo. Sabemos que redondear significa aproximar una cantidad a otra. Para
comprender el sentido de eso supongamos que el numero 230 lo queremos redondear en las
centenas; para ello tenemos que pensar que dicho numero se encuentra entre 200 y 300, y
mas cerca de 200, así que la aproximación del mismo es 200; si en cambio se tratara de
redondear el 270, entonces tendríamos que decir que es 300, ya que el 270 también se
encuentra entre 200 y 300, pero mas cerca de 300- Otro ejemplo: se tiene el numero 436 y
se quiere redondear pero ahora en las decenas; este numero se encuentra entonces entre 430
y 440. Pero más cerca de 440. Por lo tanto al redondear escribiremos 440. Si por el
contrario se tratara del número 432, entonces el redondeo sería 430. El problema pudiera
ser para números que se encuentran a la misma distancia de los extremos, por ejemplo 250;
para redondearlo en centenas, vemos que se encuentra a la misma distancia de 200 y de
300; en estos casos se adopta como criterio aproximar hacia el par, lo que implica en
algunos casos incrementar una unidad en el numero precedente al 5, y dejarlo como está ,
en otros.
Notación exponencial. La notación exponencial consiste en escribir las cantidades, sobre
todo cuando éstas tienen numerosas cifras, con unas cuantas y multiplicando por potencias
de base 10. Por ejemplo: 2 000, 24 000, 800, 300 000, los podemos escribir como: 2xl0 3,
2.4x104, 8x102, 3x105 .También podemos pensar en números como: 0.000 16, 0.000 035,
0.004. Estos se escriben como: 1.6x10-4, 3.5x10-5, 4x10-3 respectivamente. Se suele utilizar
normalmente una cifra entera.
Elaboró: Guillermo Castañeda Tovar
2
UACQB_UAG
PRESENTACIÓN DE DATOS UTILIZANDO TABLAS
Planeta
Velocidad
(m/s)
Mercurio
29.7
Venus
29.8
Tierra
18.5
Marte
15.0
Júpiter
8.1
Saturno
6.0
Urano
4.2
Neptuno
3.4
País
China
India
U.R.S.S
EE.UU.
Indonesia
Brasil
Japón
Año
1920
1930
1940
1950
1960
1970
1980
En esta tabla se presentan las
velocidades orbítales de los planetas
del sistema solar.
Como se puede apreciar hay 2
variables, planeta y velocidad. La
primera de ellas es discreta y la
segunda continua
Población
(millones)
1038
768
278
239
173
135
121
En esta otra se presenta los siete
países con mayor población en el año
de 1986.
La cantidad de habitantes en cada
uno de esos se rodea a millones
Varones Hembras
53.6
58.1
60.8
65.6
66.6
67.1
70.0
Esta tabla da la expectativa de
vida de un niño nacido en EE.UU.
durante 1920-1980. Se establece
diferencias entre varones y
hembras
54.6
61.6
65.2
71.1
73.1
74.7
77.4
Año Elemental Media Superior
1960
32.4
10.2
3.6
1965
35.3
13.0
5.7
1970
37.1
14.7
7.4
1975
33.8
15.7
9.7
1980
30.6
14.6
10.2
Elaboró: Guillermo Castañeda Tovar
Aquí se ve la cantidad (en millones)
de estudiantes en enseñanza
elemental, media y superior, en
EE.UU.
3
UACQB_UAG
Tabla: Clasificación por tipo de lesión y polimorfismo X
Plimorfismo X
Normal
Cáncer
Lesión I
Lesión II
Total
Total
Homocigoto
Silvestre
13
3
8
5
29
Homocigoto
Mutante
34
12
9
11
66
Heterocigoto
43
15
13
14
85
90
30
30
30
180
Tabla: Frecuencia de VPH en casos y controles
CASOS
Positivo
Negativo
Total
N
%
86
4
90
95.6
4.4
100
Elaboró: Guillermo Castañeda Tovar
CONTROLES
N
%
20
70
90
4
22.2
77.8
100
TOTAL
N
%
106
74
180
58.9
41.1
100
UACQB_UAG
ESCALAS DE MEDICIÓN
Una escala de medición determina grados o valores de una característica también determina
los métodos estadísticos que se usan para analizar los datos. Por tanto, es importante definir
las características por medir. Las tres escalas de medición que se presentan con mayor
frecuencia en medicina son: nominales, ordinales y numéricas.
Escalas nominales
Se usan para el tipo más simple de medición cuando los valores de los datos se ajustan en
categorías. Por ejemplo, para describir el resultado de los pacientes tratados con IL-2: si
desarrollaron o no bacteriemia. En este ejemplo, el resultado puede tener uno de dos
valores: sí o no.
Muchas clasificaciones en investigación médica se valoran con una escala nominal. Así
como los resultados de un tratamiento médico o un procedimiento quirúrgico, la presencia
de un riesgo posible o los factores de exposición se describen frecuentemente como
presentes o ausentes. Los resultados también pueden describirse con más de dos categorías,
como al clasificar el microorganismo aislado de cultivos de pacientes, Staphylococus
aureus, Staphylococus epidermidis. .
Los datos evaluados en una escala nominal se llaman también observaciones cualitativas,
debido a que describen la calidad de una persona o cosa estudiada, u observaciones
categóricas porque los valores se agrupan en categorías. Por lo regular, los datos nominales
o cualitativos se describen en términos de porcentajes o proporciones.
Escalas ordinales
Si hay un orden inherente entre las categorías, se dice que las observaciones se miden en
una escala ordinal. Estas observaciones aun se clasifican, como en las escalas nominales,
pero algunas tienen "más" o son "más grandes que" otras. Los clínicos a menudo usan
escalas ordinales para ayudar a determinar la cantidad de riesgo que tiene un paciente o el
tipo de tratamiento que es apropiado. Por ejemplo, los tumores, se clasifican en etapas
según su grado de desarrollo. La clasificación internacional para valorar la etapa de un
carcinoma de cuello uterino es una escala ordinal de O a IV, donde la etapa O representa
carcinoma in situ y la etapa IV, carcinoma que se extiende más allá de la pelvis o que afecta
a la mucosa de vejiga y recto.
Las clasificaciones basadas en el grado del trastorno también se aplican a otras
enfermedades además del carcinoma. Por ejemplo, los sujetos con artritis se clasifican en
cuatro clases de acuerdo con la gravedad del deterioro: clase I, actividad normal, a clase 4,
incapacidad en silla de ruedas.
Una clase especial de escala ordinal es la llamada escala de posición, donde las
observaciones se clasifican de mayor a menor (o viceversa). Por ejemplo, las causas de
peso bajo al nacer en lactantes como desnutrición, abuso de drogas, cuidados prenatales
inadecuados, etcétera; pueden colocarse dentro de un intervalo desde lo más frecuente hasta
Elaboró: Guillermo Castañeda Tovar
5
UACQB_UAG
lo menos usual; esto, para ayudar a los médicos a dirigir los esfuerzos de educación del
paciente. También la duración de procedimientos quirúrgicos podría traducirse en una
escala de posición u ordinal para obtener una medida de la dificultad del procedimiento (el
más difícil, el segundo más difícil y así sucesivamente). En este ejemplo, la diferencia en
tiempo para el primero y segundo procedimiento no es por fuerza la misma que para otros
dos cualesquiera.
Al igual que en las escalas nominales, se emplean a menudo porcentajes y proporciones en
escalas ordinales.
Escalas numéricas
Las observaciones donde las diferencias entre cifras se traducen a una escala numérica, se
designan en ocasiones como observaciones cuantitativas, debido a que miden la cantidad de
algo. Hay dos clases de escalas numéricas: continua, y discreta. Una escala continua tiene
valores en continuo. La edad por ejemplo, es un dato continuo ya que puede tener cualquier
valor decimal o entero entre cero y la edad del individuo más viejo, es decir, puede
especificarse de manera tan precisa como sea necesario. En estudios de adultos, y en
general es suficiente que la edad se anota con respecto al año más próximo; en niños
pequeños, es mejor la edad respecto del mes más próximo. Otros ejemplos de datos
continuos son peso, estatura, tiempo de supervivencia, grado de movimiento de una
articulación y numerosos valores de laboratorio, como glucosa, sodio, potasio o ácido úrico
séricos.
Cuando una observación numérica puede tomar sólo valores enteros, la escala de medición
es discreta. Por ejemplo, el recuento de objetos (número de embarazos, de operaciones
previas, de factores de riesgo) son medidas discretas. Si en un estudio se van a evaluar tres
características de los pacientes: porcentaje de saturación del colesterol en bilis, edad y sexo;
las dos primeras serian una escala numérica continua debido a que pueden tener cualquier
valor individual en la escala de valores posibles. El sexo del paciente tiene una escala
nominal sólo con dos valores. Si en otro estudio se observa a una determinada cantidad de
pacientes durante un periodo determinado para observar si desarrollan cálculos biliares, el
número de dichos cálculos es un ejemplo de una medición numérica discreta.
FILAS DE DATOS
Datos recogidos que no han sido organizados. Por ejemplo, alturas de los estudiantes de un
grupo de cien estudiantes; puntajes de un Test aplicado a un grupo de 60 alumnos.
ORDENACIONES (RANGO).
Una ordenación es un conjunto de datos numéricos en orden creciente o decreciente. La
diferencia entre el mayor y menor se llama rango de ese conjunto de datos.
DISTRIBUCIONES DE FRECUENCIAS.
Al resumir grandes colecciones de datos, es conveniente distribuirlos en clases o categorías,
determinando la cantidad de individuos correspondientes a cada clase. A esta cantidad de
Elaboró: Guillermo Castañeda Tovar
6
UACQB_UAG
individuos por clase se le denomina frecuencia de clase. La tabulación de esas clases y sus
correspondientes frecuencias constituyen una distribución de frecuencias.
FRECUENCIA ABSOLUTA y RELATIVA
La frecuencia absoluta es, como ya lo hemos dicho la cantidad de individuos que hay en
cada clase. La frecuencia relativa para cada clase es la relación entre la frecuencia absoluta
y el número total de individuos. La suma de las frecuencias absolutas siempre será igual al
número de individuos N, ∑fabs = N; mientras que la suma de las frecuencias relativas será
igual a la unidad, ∑.frel = 1.
La siguiente tabla es un ejemplo de distribución de frecuencias de las alturas de 100
estudiantes varones de la universidad PQR
Altura
(cm.)
160-162
163-165
166-168
169-171
172-174
Número de
estudiantes
5
18
42
27
8
Los datos así organizados en clases como en la anterior distribución de frecuencias se
llaman datos agrupados.
INTERVALOS DE CLASE y LÍMITES DE CLASE
El símbolo que define una clase, como el 160-162 en la Tabla anterior, se llama un
intervalo de clase. Los números extremos, 160 y 162, se llaman respectivamente. límite
inferior de clase y límite superior de clase.
Un intervalo de clase que, al menos en teoría, carece de límite superior o inferior indicado,
se llama intervalo de clase abierto, Por ejemplo, refiriéndonos a edades de personas, la
clase «65 años o más» es un intervalo de clase abierto.
FRONTERAS DE CLASE
Si se considera que entre el límite superior de una clase y el límite inferior de la siguiente
clase existe la posibilidad de tener valores intermedios, entonces al punto medio entre ellos
se le considera como el verdadero valor que separa una clase de la otra y se llama frontera
de clase. Así pues 162.5 cm. es el punto medio entre 162 y 163. A veces se usan las
fronteras de clase como símbolos para la clase. Así, las clases de la Tabla anterior se
pueden indicar por 159.5-162.5, 162.5-165.5, etc.
TAMAÑO O ANCHURA DE UN INTERVALO DE CLASE
El tamaño o anchura de un intervalo de clase es la diferencia entre las fronteras de clase
superior e inferior. Si todos los intervalos de clase de una distribución de frecuencias tienen
Elaboró: Guillermo Castañeda Tovar
7
UACQB_UAG
la misma anchura, ésta será igual a la diferencia entre los límites inferiores o superiores de
clases sucesivas.
MARCA O VALOR DE CLASE
La marca de clase es el punto medio del intervalo de clase y se obtiene promediando los
límites inferior y superior de clase. Así que las marcas de clase del intervalo 160- 162 es
(160 + 162)/2 = 161. La marca de clase se denomina también punto medio de la clase.
REGLAS GENERALES PARA FORMAR DISTRIBUCIONES DE FRECUENCIAS
1. Determinar el mayor y el menor de todos los datos, hallando así el rango (diferencia
entre ambos).
2. Dividir el rango en un número adecuado de intervalos de clase del mismo tamaño. Si ello
no es factible, usar intervalos de clase de distintos tamaños o intervalos de clase abiertos.
Se suelen tomar entre 5 y 20 intervalos de clase, según los datos. Los intervalos de clase se
eligen también de modo tal que las marcas de clase ( o puntos medios) coincidan con datos
realmente observados. Ello tiende a disminuir el llamado error de agrupamiento que se
produce en análisis ulteriores. No obstante, las fronteras de clase no debieran coincidir con
datos realmente observados.
3. Determinar el número de observaciones que caen dentro de cada intervalo de clase; esto
es, hallar las frecuencias de clase. Esto se logra mejor con una hoja de recuentos.
HISTOGRAMAS y POLIGONOS DE FRECUENCIAS
Los histogramas y los polígonos de frecuencias son dos representaciones gráficas de las
distribuciones de frecuencias.
Un histograma o histograma de frecuencias, consiste en un conjunto de rectángulos con
bases en el eje x. centros en las marcas de clase y longitudes iguales a los tamaños de los
intervalos de clase y áreas proporcionales alas frecuencias de clase.
Si los intervalos de clase tienen todas las mismas anchuras, las alturas de los rectángulos
son proporcionales a las frecuencias de clase, y entonces es costumbre tomar las alturas
iguales a las frecuencias de clase. En caso contrario, deben ajustarse las alturas.
A continuación se presentan datos correspondientes a número de serie y valor de la altura
en cm. de 62 plantas de trigo. Los valores están ordenados en forma creciente. Con esos
datos construyamos una tabla de frecuencias.
Número
00
01
02
03
04
05
06
07
08
Altura
51
55
64
66
66
67
68
69
69
Número
20
21
22
23
24
25
26
27
28
Altura
76
77
78
79
79
79
80
80
80
Elaboró: Guillermo Castañeda Tovar
Número
40
41
42
43
44
45
46
47
48
8
Altura
82
83
83
84
84
84
85
85
85
Número
60
61
UACQB_UAG
Altura
92
99
09
10
11
12
13
14
15
16
17
18
19
70
71
71
72
73
74
74
74
75
75
75
29
30
31
32
33
34
35
36
37
38
39
80
80
80
80
81
81
81
81
82
82
82
49
50
51
52
53
54
55
56
57
58
59
85
85
86
86
88
89
89
89
90
90
91
Como los datos ya están ordenados procedemos a definir las clases (grupos). Para ello
debemos decidir un valor para los intervalos.
Tomemos como valor 5
Clases
51-55
56-60
61-65
66-70
71-75
76-80
81-85
86-90
91-95
96-100
Conteo
//
Como podemos, ver se
forman 10 intervalos de clase;
así que procedemos a contar y
anotar
la
cantidad
de
individuos correspondientes a
cada clase.
/
//// //
//// ////
//// //// ///
//// //// //// ///
//// ///
//
/
Frecuencia
2
0
1
7
10
13
18
8
2
1
Enseguida construimos nuestra tabla de frecuencias, omitiendo el conteo e incorporando
algunos elementos más.
Intervalos
de clase
51-55
56-60
61-65
66-70
71-75
76-80
81-85
86-90
91-95
Valor Frecuencia
de clase absoluta
53
2
58
0
63
1
68
7
73
10
78
13
83
18
88
8
93
2
Elaboró: Guillermo Castañeda Tovar
Frecuencia
relativa
2/62
0/62
1/62
7/62
10/62
13/62
18/62
8/62
2/62
9
Frecuencia
acumulada
2
2
3
10
20
33
51
59
61
UACQB_UAG
96-100
98
1
62
1/62
1
62
Ahora construimos gráficos (Histograma y Polígono de frecuencias) utilizando los datos de
nuestra tabla.
fa
HISTOGRAMA
20
18
16
14
12
10
8
6
4
2
0
53
58
63 68 73 78 83 88
VALORES DE CLASE
58
63 68 73
78 83
VALORES DE CLASE
93
98
20 -
15 -
POLÌGONO DE
FRECUENCIA
fa
10 -
5 -
0 -
53
88
93
98
A continuación tenemos una serie de números que corresponden a calificaciones finales de
matemáticas de 80 estudiantes. Con esos datos, elaborar una tabla de distribución de
frecuencia, construir el respectivo histograma y hallar lo que se indica en cada uno de los
incisos
68
73
61
66
96
79
84
79
65
78
78
62
75
88
75
82
89
67
82
73
87
75
61
97
Elaboró: Guillermo Castañeda Tovar
68
60
74
94
75
78
90
93
62
77
95
85
10
62
71
95
69
60
76
88
59
78
74
79
65
76
85
63
68
83
71
93
75
72
60
71
75
UACQB_UAG
63
86
a)
b)
c)
d)
e)
f)
80
67
73
73
57
81
88
72
78
63
62
76
76
75
53
85
74
77
la calificación más alta
la más baja
el rango
las 5 más altas
las 5 más bajas
el número de estudiantes con calificación de 75 ó más
En la siguiente fila de datos se muestran los pesos (en libras) de 40 estudiantes de una
universidad Americana.
138
146
168
146
161
164
158
126
173
145
150
140
138
142
135
132
147
176
147
142
144
136
163
135
150
125
148
119
153
156
149
152
154
140
145
157
144
165
135
128
Con estos datos construir dos tablas de frecuencias, una de 5 intervalos y otra de 12. En
cada una de ellas se deberá considerar: clases, frecuencia, valor de clase y frecuencia
acumulada, así como la construcción de los respectivos histogramas y polígonos de
frecuencia.
GRÁFICOS
Utilizando las tablas de datos que ya tenemos vamos a construir algunos gráficos
manualmente y utilizando la computadora.
Con los datos de la primera tabla construir un gráfico circular; con los de la tercera un
gráfico de columnas y con las demás cada cual elige el tipo de gráfico.
En el siguiente cuadro se pueden apreciar datos que corresponden a escalas nominales y
ordinales.
Elaboró: Guillermo Castañeda Tovar
11
UACQB_UAG
Cultivos de catéter de pacientes hipotéticos con o sin bacteriemia
Paciente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Bacteriemia
Sí
No
No
No
No
No
No
No
Sí
No
Sí
Sí
No
No
Sí
Sí
Sí
No
No
No
Cultivo
S. aureus
Sin crecimiento
No practicado
S. epidermidis
S. epidermidis
Sin crecimiento
S. epidermidis
Sin crecimiento
Sin crecimiento
No practicado
S. aureus
S. aureus
S. epidermidis
Sin crecimiento
No practicado
Sin crecimiento
S. aureus
Sin crecimiento
S. epidermidis
S. aureus
Paciente
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Bacteriemia
No
No
Sí
Sí
No
No
No
No
No
No
Sí
Sí
Sí
No
No
Sí
Sí
No
Sí
No
Cultivo
Sin crecimiento
S. epidermidis
S. aureus
S. epidermidis
No practicado
No practicado
S. epidermidis
Sin crecimiento
Sin crecimiento
Sin crecimiento
No practicado
No practicado
S. aureus
S. epidermidis
S. epidermidis
Sin crecimiento
S. aureus
S. epidermidis
S. epidermidis
No practicado
Una tabla muy simple puede ser la que muestra la frecuencia de pacientes con o sin
bacteriemia
Bacteriemia
Sí
No
Pacientes
15
25
Como se puede observar para construcción de esta tabla no se consideraron los datos de la
columna de cultivo.
Una tabla más compleja puede ser aquella en la que se consideren además los cultivos y se
establezca la frecuencia de bacteriémicos y no bacteriémicos en los diferentes cultivos,
como se muestra a continuación.
Cultivo de catéter
Sin cultivo
Sin crecimiento
S. aureus
S. epidermidis
Total
Bacteriémicos
3
3
7
2
15
Elaboró: Guillermo Castañeda Tovar
No bacteriémicos
5
9
1
10
25
12
UACQB_UAG
MEDIDAS DE TENDENCIA CENTRAL
Una de las características más sobresalientes de la distribución de datos es su tendencia a
acumularse hacia el centro de la misma. Esta característica se denomina Tendencia Central.
En estadística las medidas de tendencia central son:
Media.
Mediana.
Moda.
Media:
Es el promedio aritmético de las observaciones y se representa por X. Para calcularla se
suman todas las observaciones y se divide entre el número de observaciones. La media
aritmética de n valores, es igual a la suma de todos ellos dividida entre n. Esta puede
representarse con la siguiente fórmula:
x
x
n
Ejemplo:
Mediante los siguientes datos hallar la media aritmética.
10, 8, 6, 5, 10, 9
Solución:
10

8

6

5

10

9
x


8
6
Además de la media aritmética que es a la que nos hemos referido, se puede considerar
también la media geométrica y la media armónica.
Media geométrica:
La media geométrica G, de un conjunto de números positivos es la raíz n-ésima del
producto de esos números.
n(
G

x
)(
x
)....(
x
)
1
2
n
3
3

(
2
)(
4
)(
8
)
64

4
Por ejemplo, la media geométrica de 2, 4 y 8 es: G
Se prefiere este tipo de medida cuando se tienen valores en proporciones o porcentajes.
Ejemplo: En una cosecha de maíz se tomaron unas muestras de la relación del peso del
grano con el peso del maíz en mazorca; las muestras fueron las siguientes:
8
88
.89
%
9
49
68
.06
%
72

De tal manera que: G
o bien:
8 49 7
 
9 72 9
G

88
.
89

68
.
06

77
.
78
%
Elaboró: Guillermo Castañeda Tovar
13
UACQB_UAG
Media armónica:
La media armónica H, de un conjunto de números positivos es el recíproco de la media
aritmética de los recíprocos de esos números.
N
H
1
x
3
3


3
.
43
Por ejemplo, la media armónica de los números 2, 4 y 8 es: H
1 1 1 7


2 4 8 8
Esta medida se prefiere cuando los datos que se tienen son tasas, por ejemplo de
nacimientos, de mortalidad, velocidades en km/h.
En relación a estos tres tipos de medias se puede decir que:
X>G>H
Mediana
Es el punto central de una serie de datos, es decir, la mitad de las observaciones es menor y
la otra mitad es mayor. Para representarla suele utilizarse M o Md.
Ejemplo:
Hallar la mediana en los siguientes datos.
25, 28, 30, 26, 32
Solución:
Se ordenan en forma creciente o decreciente y se toma el valor central.
25, 26, 28, 30, 32
mediana = 28
Pasos para su cálculo:
1.- Las observaciones se ordenan de menor a mayor o viceversa.
2.- Contar para encontrar el valor medio. En número impar de observaciones, la mediana es
el valor medio, para el número par se define como la media de los dos valores centrales.
Una de sus ventajas es que es menos sensible a los calores extremos que la media.
Moda
La moda es el valor que se presenta con mayor frecuencia. Por la regular se usa para un
número grande de observaciones cuando el investigador desea hacer notar el "valor más
popular".
Por ejemplo,
Datos: 23, 25 20, 23, 21, 20, 23, 22
Los números que se repiten son el 20 y el 23; el 20 dos veces y el 23 tres veces, así
que la moda es 23.
Estas medidas también se pueden calcular con datos agrupados. Y reciben en ocasiones
nombres particulares.
Elaboró: Guillermo Castañeda Tovar
14
UACQB_UAG
Media ponderada
La media se conoce como media ponderada y se calcula mediante la siguiente fórmula:
fx

N
Clase Modal:
Para las tablas de frecuencia, la moda se estima por la clase modal, que es el intervalo que
tiene el número más grande de observaciones, o dicho de otra manera, la frecuencia más
alta.
Como ejemplo y para ahorrar tiempo, tomemos la tabla de distribución de frecuencia que
tenemos en la página 8. No se requiere frecuencia relativa ni acumulada. Pero necesitamos
de una columna donde tengamos el producto (valor de clase) (frecuencia absoluta).
Intervalos
de clase
51-55
56-60
61-65
66-70
71-75
76-80
81-85
86-90
91-95
96-100
Valor Frecuencia
de clase absoluta
53
2
58
0
63
1
68
7
73
10
78
13
83
18
88
8
93
2
98
1
(V.C)(Fabs)
106
0
63
476
730
1014
1494
704
186
98
4871
Para calcular la media tenemos que sumar los productos de frecuencia por valor de clase y
dividir el resultado entre 62.
4871

78
.5645
62
Como se puede observar, el valor obtenido con los datos agrupados es muy similar al que
se obtiene haciendo el cálculo con la fila de datos.
La moda con los datos agrupados es 83, que es el valor de clase del grupo en el que
encontramos la mayor frecuencia. En este caso, en la fila de datos encontramos otros
valores que se repiten más.
La moda en la fila de datos es 80, pues aparece 7 veces; y después está el 85, repetido 5
veces.
Elaboró: Guillermo Castañeda Tovar
15
UACQB_UAG
De tal manera que podemos concluir que la moda obtenida así no corresponde precisamente
al valor más popular de una fila de datos.
La mediana con datos agrupados se calcula mediante la fórmula:


N
/
2

(
f
)

1


Med

L

I
1

f
med

L1 = frontera de clase inferior del grupo donde se ubica la mediana.
N = número de datos
(∑f)1 = suma de las frecuencias inferiores a las de la mediana
fmed = frecuencia de la clase donde se ubica la mediana.
I = tamaño del intervalo.
Observando con atención nuestra tabla de distribución nos damos cuenta que la frontera de
clase inferior del grupo de la mediana es 75.5, la frecuencia acumulada del cuarto grupo es
20, la frecuencia del grupo de la mediana es 13 y el tamaño de intervalo es 5. Por lo tanto
podemos escribir, sustituyendo en la fórmula:
62
/
2

20


Med

75
.
5

5

79
.
7


 13

Hagamos otro ejercicio con los datos agrupados de las calificaciones de 80 estudiantes.
Tenemos 9 grupos, siendo 5 el ancho de los intervalos.
GRUPOS
53 – 57
58 – 62
63 – 67
68 – 72
73 – 77
78 – 82
83 – 87
88 – 92
93 – 97
FRECUENCIA
ABSOLUTA
2
10
8
9
20
12
7
5
7
FRECUENCIA
ACUMULADA
2
12
20
29
49
61
68
73
80
VALOR DE
CLASE
55
60
65
70
75
80
85
90
95
Media Ponderada (µ) =
Mediana =
Moda =
Elaboró: Guillermo Castañeda Tovar
16
UACQB_UAG
EJERCICIO
Utilizando datos de la siguiente tabla, realicemos algunos cálculos
Pacientes
Colesterol
Total
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
6.8
5.3
6.1
4.3
5.0
7.1
5.5
3.8
4.6
6.0
7.2
6.4
6.0
5.5
5.8
8.8
4.5
5.9
Cambio en
diámetro
vascular
0.13
0
-0.18
-0.15
0.11
0.43
0.41
-0.12
0.06
0.06
-0.19
0.39
0.30
0.18
0.11
0.94
-0.07
-0.23
Tomemos los valores (ordenados) de colesterol total/HDL, de los 18 pacientes.
3.8, 4.3, 4.5, 4.6, 5.0, 5.3, 5.5, 5.5, 5.8, 5.9, 6.0, 6.0, 6.1, 6.4, 6.8, 7.1, 7.2, 8.8
Con ellos calculemos media, mediana y moda.
Para calcular la media, lo único que hacemos es sumar todos los valores y dividir entre 18,
que es la cantidad de valores, dándonos como resultado: 5.81
La media es muy sensible a valores extremos. En nuestro ejemplo el valor 8.8 se dispara; si
ese valor se quitara y nos quedáramos con 17 datos, entonces el resultado de promediar los
17 valores sería: 5.64, pudiéndose apreciar una diferencia relativamente notoria con 5.81
Para el cálculo de la mediana se deben ordenar los datos y tomar el punto medio de la
cadena. Como son 18 datos, la mediana es el promedio de los valores noveno y décimo (5.8
y 5.9) o 5.85. La mediana indica que la mitad de los valores de colesterol total/HDL en este
grupo de pacientes es menor de 5.85 y la mitad es mayor de 5.85.
La mediana es menos sensible a valores extremos que la media. Por ejemplo, si la
observación más grande, 8.8, se excluyera de la muestra, la mediana sería el valor noveno,
5.8, que no es muy diferente de 5.85. Otra característica útil de la mediana es que puede
Elaboró: Guillermo Castañeda Tovar
17
UACQB_UAG
usarse con observaciones ordinales, debido a que su cálculo no emplea los valores reales de
las observaciones.
La moda es el dato que más se repite. Entre los datos de colesterol total/HDL de los 18
pacientes, ninguna observación sencilla se presenta con mayor frecuencia. Tanto 5.5 como
6.0 se repiten dos veces y las demás observaciones ocurren sólo una vez; de esta manera,
desde el punto de vista técnico el valor de colesterol total/HDL de este grupo de pacientes
tiene dos modas: 5.5 y 6.
Uso de las medidas de tendencia central
Dado un conjunto de observaciones, un investigador puede preguntarse naturalmente ¿qué
medida de tendencia central es mejor para usar con los datos? Para tomar una decisión al
respecto son importantes dos factores: la escala de medición (ordinal o numérica) y el tipo
de distribución de las observaciones, por ejemplo si una distribución es simétrica alrededor
de la media o si se sesga a la izquierda o a la derecha de la media. Esta información ayuda a
decidir cuál medida de tendencia central es mejor.
Si hay observaciones distantes sólo en una dirección (ya sean unos cuantos valores
pequeños o unos cuantos grandes) se dice que es una distribución sesgada. Si los valores
distantes son pequeños, la distribución se sesga a la izquierda o tiene sesgo negativo; si los
valores distantes son grandes, la distribución se sesga a la derecha o presenta sesgo
positivo. Una distribución simétrica tiene la misma forma a los dos lados de la media. Las
siguientes reglas ayudan a un investigador a decidir la medida de tendencia central que
conviene para un conjunto determinado de datos.
1 .La media se usa para datos numéricos y distribuciones simétricas (no sesgadas).
2. La mediana se emplea para datos ordinales o numéricos con distribución sesgada.
3. De manera básica, el modo se usa para distribuciones bimodales.
4. El uso primario de la media geométrica es para observaciones medidas en una escala
logarítmica.
Los puntos siguientes ayudan al lector a conocer la forma de una distribución sin observarla
en realidad.
I. Si media y mediana son iguales, la distribución de observaciones es simétrica.
2. Si la media es mayor que la mediana, la distribución está sesgada a la derecha. .
3. Si la media es menor que la mediana, la distribución está sesgada a la izquierda.
Elaboró: Guillermo Castañeda Tovar
18
UACQB_UAG
MEDIDAS DE DISPERSIÓN
Supóngase que todo lo que se sabe acerca de los 18 pacientes del caso anterior, es que la
media de colesterol total/HDL es 5.81. Ésta es una información útil, pero para lograr una
idea mejor de la distribución de valores de estos individuos se requiere conocer algo acerca
de la dispersión o variación de las observaciones. En medicina se usan con frecuencia
varias mediciones estadísticas para describir la dispersión de datos: rango, desviación
estándar, coeficiente de variación. Estas se describen en las siguientes secciones.
Rango (amplitud). De ésta ya hemos hablado y sabemos que es la diferencia entre la
observación más grande y la menor. Por ejemplo, el valor más pequeño de colesterol
total/HDL entre los 18 pacientes sin crecimiento de la lesión es 3.8, y el más alto es 8.8; por
tanto, el rango es 8.8 - 3.8 = 5. Muchos autores proporcionan los valores mínimo y máximo
en lugar del rango, y en algunos casos estos valores constituyen información más útil. El
rango real no puede determinarse a partir de datos presentados en una tabla de frecuencia,
pero puede obtenerse un cálculo aproximado al utilizar el límite inferior del intervalo de
clase menor y el límite superior del intervalo de clase más alto.
Desviación media. Es el promedio de los valores absolutos de las desviaciones,
entendiéndose por desviaciones la diferencia entre cada uno de los datos y la media de la
fila de datos.
Dicho de otra manera, se trata de medir la forma en que las observaciones se dispersan
alrededor de la media, parece buena idea calcular una desviación "promedio" o "media".
Para ello se calcula la desviación de cada observación con respecto a la media, se suman
estas desviaciones y se divide la suma entre n para formar una analogía con respecto a la
propia media. En símbolos, la desviación media es:
(x)
DM
n
El problema con este índice es que la suma de las desviaciones de las observaciones desde
su media siempre es cero, y el valor del índice será cero en todos los casos. Es por eso que
la suma se hace con los valores absolutos de las desviaciones. El valor absoluto de un
número es su valor positivo y se simboliza con barras verticales a cada lado del número o la
cifra. Por ejemplo, el valor absoluto de 5, es |5| y el valor absoluto de -5, es también |5|.
Aunque conceptualmente no hay error en esta fórmula, no tiene algunas propiedades
estadísticas importantes, y por ello no se usa.
Desviación estándar. Es la medida de dispersión más frecuente para definir datos médicos
y del área de la salud; aunque su significado y cálculo son algo complejos, en definitiva es
valioso conocerla. Sin duda, la mayoría de los lectores usará una computadora (o
calculadora) para determinar la desviación estándar, pero aquí se presentan los pasos que se
requieren para su cálculo, debido a que ayudan a una mayor comprensión de esta medición
estadística.
Elaboró: Guillermo Castañeda Tovar
19
UACQB_UAG
Para calcular este índice, se toma como base el concepto anterior, elevando al cuadrado las
desviaciones y reemplazando a n del denominador con n -1 (véase la explicación que sigue)
y finalmente se extrae raíz cuadrada. La fórmula es entonces:
(x
x
)

DE

2
n

1
El nombre que recibe esta medición estadística antes de extraer raíz cuadrada es varianza,
pero la desviación estándar es la medición estadística de interés primario.
La razón para el uso de n -1 en lugar de n en la fórmula para la desviación estándar es
complicada. Simplemente, puede decirse que n-l en el denominador proporciona una
estimación más precisa de la desviación estándar verdadera de la población, y tiene
propiedades matemáticas deseables para las inferencias estadísticas. (Una explicación más
exacta toma en cuenta las restricciones impuestas a los datos por la definición de desviación
estándar; esto es, las cantidades al cuadrado y luego sumadas constituyen desviaciones de la
media de los datos. Si hay n observaciones, también existen desviaciones de la media. No
obstante, puesto que la suma de las desviaciones equivale a cero, una vez que se especifica
n-l de las desviaciones, la última desviación ya está determinado como el valor que
originará que la suma de las desviaciones sea cero. Por ende, el denominador usa el número
de las cantidades independientes (en este caso n -1), lo que se conoce como grados de
libertad.
La fórmula anterior para desviación estándar casi nunca se presenta, en libros
introductorios, como la mejor para calcular este parámetro. La fórmula anterior se llama
fórmula de definición.
Ahora realizaremos un cálculo con las observaciones sobre el cambio de diámetro del vaso
para 18 pacientes (tabla de la página 17). Los cálculos necesarios para computar la
desviación estándar son los siguientes:
1. Si X es el cambio en el diámetro del vaso para cada paciente, entonces la media de estos
cambios es: X= 2.18/18 = 0.12.
2. Este valor, 0.12, se sustrae de cada observación para formar las desviaciones X - X.
3. Se eleva al cuadrado cada desviación para formar (X -X )2 .(Obsérvese que los cálculos
de la columna 4 se aproximaron a cuatro decimales para evitar error al redondear la cifra
cuando se extraiga la raíz cuadrada en el paso 6.)
4. Súmense las desviaciones al cuadrado para formar: ∑(X- X )2 = 1.4586.
5. El resultado del paso 4 se divide entre n -1, se obtiene 0.0858. Este valor es la varianza.
6. Se obtiene la raíz cuadrada de la varianza (valor del paso 5); queda 0.29. Este valor es la
desviación estándar.
Elaboró: Guillermo Castañeda Tovar
20
UACQB_UAG
Pacientes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Sumas
x
0.13
0
-0.18
-0.15
0.11
0.43
0.41
-0.12
0.06
0.06
-0.19
0.39
0.30
0.18
0.11
0.94
-0.07
-0.23
2.18
x-x’
0.01
-0.12
-0.30
-0.27
-0.01
0.31
0.29
-0.24
-0.06
-0.06
-0.31
0.27
0.18
0.06
-0.01
0.82
-0.19
-0.35
(x-x’)2
0.0001
0.0144
0.0999
0.0792
0.0001
0.0961
0.0841
0.0576
0.0036
0.0036
0.0961
0.0729
0.0324
0.0036
0.0001
0.6724
0.0361
0.1225
1.4586
1.4586
VAR


0
.
0858
17
DESV.EST

0.00858

0
.
29
La desviación estándar del cambio en el diámetro del vaso es 0.29mm. Sin embargo,
obsérvese la gran desviación al cuadrado, 0.6724, para el paciente 16. Esta observación sola
contribuye casi con la mitad de la variación en los datos, debido a que la suma de las
desviaciones al cuadrado es 1.4586. La desviación estándar de los 17 pacientes restantes
(después de eliminar al paciente 16) es bastante menor, 0.22, lo cual demuestra el enorme
efecto y que incluso una sola observación distante puede tener sobre el valor de la
desviación estándar.
La desviación estándar, igual que la media, requiere datos numéricos y es muy importante
en estadística. En primer lugar, es parte esencial de numerosas pruebas estadísticas. En
segundo lugar, es muy útil para definir la dispersión de las observaciones alrededor de la
media.
COEFICIENTE DE VARIACIÓN
Es una medida útil de la dispersión relativa de los datos, y se usa a menudo en ciencias
biológicas. Por ejemplo, supóngase que los autores del estudio sobre dieta y lipoproteínas
desean comparar la variabilidad en la proporción de colesterol total/HDL con la del cambio
del diámetro vascular de los 18 pacientes cuya lesión no creció. La media y la desviación
Elaboró: Guillermo Castañeda Tovar
21
UACQB_UAG
estándar de colesterol total/HDL (en milimoles por litro) son 5.81 y 1.2, respectivamente;
para el cambio del diámetro vascular (en milímetros) son 0.12 y 0.29, de modo respectivo.
Una comparación de 1.20 y 0.29 no tiene sentido debido a que colesterol y diámetro
vascular se miden en escalas diferentes. El coeficiente de variación ajusta las escalas, de
manera que puede efectuarse una comparación sensible.
El coeficiente de variación se define como la desviación estándar dividida entre la media
por 100%. Origina una medida de la variación relativa con respecto a la media. Por tanto, la
fórmula para coeficiente de variación (CV) es:
De esta fórmula, CV para colesterol total/HDL es (1.20/5.81) (100%) = 20.7% y CV para el
cambio de diámetro vascular es (0.29/0.12) (100%) = 241.7%. Por tanto, puede concluirse
que la variación relativa en el cambio de diámetro vascular es mucho mayor que la de
proporción de colesterol.
MEDIDAS PARA DESCRIBIR RELACIONES ENTRE DOS CARACTERÍSTICAS
Las medidas descritas hasta ahora son apropiadas sólo para resumir observaciones sobre
una característica. Sin embargo, gran parte de la investigación en medicina se interesa en la
relación entre dos o más características. Las secciones siguientes se enfocan en el análisis
de la relación entre dos variables medidas en la misma escala, sea numérica, ordinal o
nominal.
COEFICIENTE DE CORRELACIÓN
El coeficiente de correlación es una medida de la relación entre dos características
numéricas, simbolizada por X y Y. La fórmula del coeficiente de correlación, simbolizado
por r, es:




X

X
Y
Y


 


X

X
Y
Y

r

2
2
Si tomamos los datos del cuadro de los 18 pacientes de estudio de dieta y lipoproteínas
(hoja 17), podemos calcular el coeficiente de correlación entre los valores de colesterol
total/HDL, y cambio del diámetro vascular. Para entender mejor cómo aplicar la fórmula,
construiremos una tabla con los datos necesarios. Representaremos con X el colesterol total
y con Y el cambio en el diámetro vascular. Los pasos a seguir son los siguientes:
1.- calcular la media, tal y como ya lo sabemos para cada característica, X, Y
2.- calcular la diferencia entre cada valor X y su media
3.-calcular la diferencia entre cada valor Y y su media
4.-realizar el producto de las diferencias
5.-calcular los cuadrados de cada una de las diferencias
X
Y
Elaboró: Guillermo Castañeda Tovar
22
UACQB_UAG
6.8
5.3
6.1
4.3
5.0
7.1
5.5
3.8
4.6
6.0
7.2
6.4
6.0
5.5
5.8
8.8
4.5
5.9
5.81
0.13
0
-0.18
-0.15
0.11
0.43
0.41
-0.12
0.06
0.06
-0.19
0.39
0.30
0.18
0.11
0.94
-0.07
-0.23
0.12
0.99
-0.51
0.29
-1.51
-0.81
1.29
-0.31
-2.01
-1.21
0.19
1.39
0.59
0.19
-0.31
-0.01
2.99
-1.31
0.09
0.01
-0.12
-0.30
-0.27
-0.01
0.31
0.29
-0.24
-0.06
-0.06
-0.31
0.27
0.18
0.06
-0.01
0.82
-0.19
-0.35
0.9801
0.2601
0.0841
2.2801
0.6561
1.6641
0.061
4.0401
1.4641
0.0361
1.9321
0.3481
0.0361
0.0961
0.0001
8.9401
1.7161
0.0081
24.6378
0.0001
0.0144
0.0900
0.0729
0.0001
0.9661
0.0841
0.0576
0.0036
0.0036
0.0961
0.0729
0.0324
0.0036
0.0001
0.6724
0.0361
0.1225
1.4586
0.0099
0.0612
-0.087
0.4077
0.0081
0.3999
-0.0899
0.4824
0.0726
-0.0114
-0.4309
0.1593
0.0342
-0.0186
0.0001
2.4518
0.2489
-0.0315
3.6668
Estos valores se sustituyen en la fórmula. Obteniéndose el coeficiente de correlación.
3
.
6668
3
.
6668
r

 
0
.
61
5
.
9947
24
.
6378
1.4586
A continuación se presentan datos de pacientes; con esos datos calcular el coeficiente de
correlación por grupos de edad.
GRUPO A
GRUPO B
GRUPO C
Edad
(años)
P sistólica
(mm Hg)
Edad
(años)
P sistólica
(mm Hg)
Edad
(años)
P sistólica
(mm Hg)
22
23
24
27
28
29
30
32
33
35
40
131
128
116
106
114
123
117
122
99
121
147
41
41
46
47
48
49
49
50
51
51
51
139
171
137
111
115
133
128
183
130
133
144
52
54
56
57
58
59
63
67
71
77
81
128
105
145
141
153
157
155
176
172
178
217
Interpretación de coeficientes de correlación
Elaboró: Guillermo Castañeda Tovar
23
UACQB_UAG
¿Qué significa una correlación de 0.61 entre colesterol y cambio en el diámetro vascular? ,
¿Cuál es la relación entre estas dos variables? Mencionaremos unas cuantas características
del coeficiente de correlación que ayudan a interpretar su valor numérico ya describir una
relación.
El coeficiente de correlación oscila desde -1 a +1, en el que -1 describe una relación lineal
(o línea recta) negativa perfecta, y +1 describe una relación lineal (o línea recta) positiva
perfecta. Una correlación de 0 significa que no hay relación lineal entre las dos variables.
Existe una correspondencia entre la cifra del coeficiente de correlación y lo disperso de las
observaciones.
La interpretación del valor de r, depende en gran medida de las características medidas, por
ejemplo si se trata de mediciones muy precisas, es posible esperar coeficientes de
correlación muy elevados. En el área médica el comportamiento de las características
biológicas de los individuos en muchas ocasiones no está definido de forma precisa el
comportamiento de cada una en función de la otra, hay más variabilidad y en ocasiones los
aparatos que se utilizan para su medición no son precisos, luego entonces, cabe esperar
coeficientes de correlación más bajos.
1)
2)
3)
4)
Correlaciones de 0 a 0.25 (o de -25) indican correlación escasa o falta de correlación.
de 0.25 a 0.5 (o de -0.25 a -0.50) indica cierto grado de correlación,
de 0.50 a 0.75 (o de -0.50 a -0.75) la relación es de moderada a buena, y
mayor de 0.75 (o de -0.75) es muy buena a excelente.
Cuando la correlación se aproxima a cero, la “forma” del patrón de observaciones es más o
menos circular. Conforme el valor de la correlación se aproxima a + l o -1, la forma se
vuelve más elíptica, hasta que en + l o -1 las observaciones quedan directamente sobre la
línea recta. Con una correlación de 0.50, cabe esperar una dispersión de datos con forma
más a menos oval.
En ocasiones, la correlación se eleva al cuadrado para formar un valor estadístico muy útil
llamado coeficiente de determinación. El coeficiente de correlación posee varias
características que merecen mencionarse. El valor del coeficiente de correlación es
independiente de cualquier unidad usada para medir las variables. Por ejemplo, supóngase
que dos estudiantes de medicina miden las estaturas y los pesos de un grupo de niños
preescolares para determinar la correlación entre estatura y peso. La estatura se mide en
centímetros y el peso en kilogramos, y se encuentra un coeficiente de correlación, de 0.70.
¿Cuál sería la correlación si se hubieran usado a. pulgadas y libras? Por supuesto, todavía la
misma. 0.70, debido a que el denominador en la fórmula para el coeficiente de correlación
se ajusta para la escala de las unidades.
El valor del coeficiente de correlación se altera de modo importante por la presencia de un
valor alejado o distante, como sucede con la desviación estándar. En el ejemplo hipotético
de 18 pacientes, el eliminar al individuo que presentaba valores elevados tiene un efecto
sorprendente, reduciendo la correlación de 0.61, como se calculó en la sección previa, a
0.32.
VARIACION EN LOS DATOS
Elaboró: Guillermo Castañeda Tovar
24
UACQB_UAG
En numerosas instituciones hospitalarias, una enfermera reúne cierta información acerca de
un paciente (por ejemplo estatura, peso, fecha de nacimiento, presión sanguínea, pulso) y la
registra en el expediente médico antes de que el clínico examine al enfermo. Supóngase
que la presión sanguínea del paciente quedo asentada en el expediente como 140/88; el
medico que toma de nuevo la presión como parte del examen físico encuentra una lectura
de 148/96. ¿Cuál de las presiones sanguíneas es correcta? ¿Cuáles podrían ser los factores
de la diferencia de las observaciones? Aquí se emplean la presión sanguínea y otros
ejemplos clínicos para analizar fuentes de variación en los datos y maneras de medir la
confiabilidad de las observaciones.
Factores que pueden originar variación en las observaciones clínicas
Las causas de variación – es decir, variabilidad en mediciones del mismo sujeto- de
observaciones clínicas y de laboratorio, pueden clasificarse en tres categorías: 1) variación
en las características que se están midiendo, 2) variación introducida por el examinador y
3) variación debida al instrumento o método empleado. Es especialmente importante
controlar la variación que se origina por estos últimos dos factores, tanto como sea posible.
Puede haber una variabilidad sustancial en la medición de características biológicas. Por
ejemplo, la presión arterial de un individuo no es igual de un momento a otro y por tanto,
los valores de presión arterial variaran. La descripción de los síntomas que un paciente
expresa a dos médicos distintos, puede variar debido a que es posible que el enfermo olvide
algún dato. Los fármacos y las enfermedades también afectan la manera en que se comporta
un paciente y cual es la información que recuerda para proporcionar a una enfermera o al
medico.
Aun cuando no hay un cambio en el sujeto, observadores distintos pueden comunicar
mediciones diferentes. Cuando el examen de una característica requiere agudeza visual,
como la lectura de un esfigmomanómetro o la observación de los datos de un estudio
radiológico, pueden originarse diferencias debido a las capacidades visuales variables de
los observadores. Es posible que tales diferencias también desempeñen una función cuando
se requiere escuchar (detectar ruidos cardiacos) o sentir (palpar órganos internos). Algunos
individuos simplemente tienen mayor destreza que otros para obtener antecedentes o
practicar ciertos exámenes.
Repetir aspectos dudosos del examen o pedir a un colega que efectué algún aspecto
fundamental de aquel (de manera ciega, desde luego) reduce la posibilidad de error.
Disponer de lineamientos operacionales bien definidos para el uso de escalas de
clasificación, ayuda a los individuos a utilizarlas de modo consistente. Muchos errores
pueden eliminarse asegurándose que los instrumentos estén calibrados de manera apropiada
y se usen correctamente, con lo que se reduce la variación.
Maneras de determinar la confiabilidad de las mediciones
Una manera frecuente de asegurar la confiabilidad de las mediciones, en especial con
propósitos de investigación, consiste en repetir la medición y evaluar el grado de
concordancia. Cuando una persona mide la misma característica dos veces y compara los
resultados, se obtiene un índice de variabilidad intraobservador llamado confiabilidad
Elaboró: Guillermo Castañeda Tovar
25
UACQB_UAG
intratasador o intraclasificador. Cuando dos o mas individuos determinan la misma
característica y sus mediciones se comparan, se obtiene un índice de variabilidad
interobservadores llamado confiabilidad.
Como ejemplo, supóngase que un clínico desea determinar la confiabilidad de mediciones
del diámetro traqueal en placas de tórax de cierto número de pacientes. Un enfoque
consiste en medir la traquea en un grupo de placas y anotar las mediciones. Luego, algunos
días o semanas después, deben medirse de nuevo las mismas placas sin consultar las cifras
anteriores. El diámetro traqueal se mide en una escala numérica, y el parámetro estadístico
usado para analizar la relación entre dos características numéricas es el coeficiente de
correlación del cual ya hemos hablado anteriormente. Por tanto, la correlación entre dos
conjuntos de mediciones del diámetro traqueal proporcionara una medida de cuan
confiables son las mediciones del clínico.
Otro aspecto de la confiabilidad se refiere a los propios instrumentos y a su propiedad para
proporcionar mediciones reproducibles. El coeficiente de variación expuesto con
anterioridad, se usa típicamente para demostrar la confiabilidad de las mediciones o los
análisis de laboratorio.
Elaboró: Guillermo Castañeda Tovar
26
UACQB_UAG
PROBABILIDAD
ANTECEDENTES HISTÓRICOS DE LA PROBABILIDAD.
La teoría de la Probabilidad nace en los juegos de azar, cuando los apostadores utilizaron
las bases matemáticas para conocer las posibilidades que se tenían para ganar en un juego.
En los inicios del siglo XVII, algunos matemáticos, como Gombauld, Pascal y Fermat,
resolvieron algunos problemas sencillos y compartieron sus resultados. Las cartas que se
escribieron estos tres personajes, constituyen las bases de la Teoría de la Probabilidad.
Años más tarde, Bernoulli, Moivre, Bayes y Lagrange, desarrollaron fórmulas y técnicas
para calcular probabilidades. A finales del siglo, otro matemático llamado Karl Gauss
presentó también algunos trabajos relacionados con la probabilidad. Fue a principios del
siglo XIX que Pierre Simon, marqués de Laplace, recopiló todas las ideas anteriores y
compiló la primera Teoría General de Probabilidad.
Y aun cuando inicialmente la Teoría de Probabilidad fue aplicada en las mesas de juego, sin
embargo, en la actualidad, se utiliza en estudios de problemas sociales, económicos, de
salud y es la base para las aplicaciones estadísticas en esas disciplinas y para la toma de
decisiones. “Es notable -comenta Laplace- que una ciencia que comenzó a partir de los
juegos de azar pueda haberse convertido en el objeto más importante del conocimiento
humano.”.
CONCEPTOS BÁSICOS DE PROBABILIDAD.
Probabilidad: es la posibilidad de que algo suceda. (Incertidumbre).
La probabilidad se expresa o cuantifica mediante números fraccionarios, ejemplo: 1/3 , 1/6,
½, etc.; o tambien con números decimales, ejemplo: 0.150, 0.167, 0.500, 0.975. etc.; estos
números están comprendidos entre el cero y el uno: 0 < P < 1 .
Cuando el valor de la probabilidad es cero, significa que algo nunca va a suceder
(ocurrencia imposible); mientras que el valor de probabilidad igual a uno, indica que algo
va a suceder con toda seguridad (ocurrencia segura).
El concepto de probabilidad es utilizado para aquellas situaciones en donde se tienen varias
alternativas de la ocurrencia de un suceso o evento, todas posibles pero ninguna segura.
Aquí están implicados 3 conceptos: la situación o experimento; lo que ocurre como
consecuencia del experimento, llamado evento; todas las posibles ocurrencias, llamadas
espacio de eventos o espacio muestral.
Experimento.- Es cualquier situación que puede ser repetida bajo condiciones
esencialmente estables.
Evento.- Es uno o más de los posibles resultados de hacer algo.
Espacio muestral.- Es el conjunto de todos los eventos simples de un experimento.
Elaboró: Guillermo Castañeda Tovar
27
UACQB_UAG
Al lanzar una moneda, si cae águila es un evento, si cae sol, es otro evento. Este proceso
tendrá como posibles resultados dos eventos.
Al seleccionar a un alumno del grupo, los resultados posibles son tantos como el número de
alumnos que tenga el grupo,
La suma que resulta de lanzar dos dados, tiene como eventos posibles los números 2, 3, 4,
5, 6, 7, 8, 9, 10, 11 y 12. Pero no debemos confundirnos pensando que estos once números
constituyen el espacio muestral. La cantidad de eventos simples de este experimento son 36
pues por ejemplo el caso de obtener 8 implica varias combinaciones 3,5 – 6,2 – 4,4 y otras
más.
ENFOQUE CLÁSICO o “a priori” que proviene de los juegos de azar y se emplea
cuando los espacios muestrales son finitos y tienen resultados igualmente probables. En
estas condiciones la probabilidad de que ocurra un suceso determinado está dada por la
relación entre el número de eventos favorables y la totalidad de casos posibles.
eventos
favorables
p
(
E
)

total
de
eventos
La probabilidad, como ya hemos dicho, varía entre 0 y 1 ó entre 0% y 100%. 0 < p < 1.
Ejemplo, si en una caja hay 10 canicas; 2 de ellas blancas y 8 negras, la probabilidad de
tomar al azar una blanca sería:
Total de eventos 10,
Eventos favorables 2
2
p 0.2
10
Ejercicio 1. Lanzamiento de una moneda
Existen 2 posibles resultados. 1.-La cara hacia arriba es águila
2.- La cara hacia arriba es sol
De tal manera que la probabilidad de que ocurra cualquiera de ellos es de
1
2
Ejercicio 2. De un paquete de barajas se saca una carta; este paquete consta de 52 cartas, 26
negras y 26 rojas: 13 espadas, 13 tréboles, 13 corazones y 13 diamantes, que a su vez
constan de As, J, Q, K y del 2 al 10. Calcular:
La probabilidad de que la carta sea un as es de:
Elaboró: Guillermo Castañeda Tovar
28
4
52
UACQB_UAG
La probabilidad de que la carta sea negra es de.
26
52
La probabilidad de que la carta sea trébol es de:
13
52
Ejercicio 3. Lanzamiento de dos dados (caras que caen hacia arriba)
El espacio muestral de este experimento está constituido por 36 eventos simples, esto es, 36
pares de números, que se muestran en la siguiente tabla:
1,1 1,2 1,3 1,4 1,5 1,6
2,1 2,2 2,3 2,4 2,5 2,6
3,1 3,2 3,3 3,4 3,5 3,6
4,1 4,2 4,3 4,4 4,5 4,6
5,1 5,2 5,3 5,4 5,5 5,6
6,1 6,2 6,3 6,4 6,5 6,6
Consideremos algunos eventos para este experimento
A: caen dos números iguales
B: la suma es 7
C: cae más de 9
D: los dos son número par
Calcular ahora la probabilidad para cada uno de esos eventos:
P(A) =
P(B) =
P(C) =
P(D) =
Elaboró: Guillermo Castañeda Tovar
29
UACQB_UAG
ENFOQUE DE FRECUENCIA RELATIVA, o “a posteriori" que se basa en la
frecuencia relativa de ocurrencia de un evento con respecto a un gran número de ensayos
repetidos. La definición clásica se ve limitada a situaciones en las que hay un número
finito de resultados igualmente probables. Sin embargo, hay problemas prácticos que no
son de este tipo y la definición clásica no se puede aplicar.
Intentemos contestar las preguntas siguientes:
 ¿Cuál es la probabilidad de que yo viva 85 años?
 ¿Cuál es la probabilidad de un alumno de este grupo llegue a ser Presidente
de la República?
Lo más seguro es de que no podamos ser capaces de emitir una respuesta sin antes hacer
algo de experimentación sobre cuales son esas probabilidades.
A este planteamiento de probabilidad se le conoce como: Frecuencia Relativa de
Presentación de un Evento. Un ejemplo es el estudio de cálculo del riesgo de pérdidas en
las pólizas de seguros de vida y comerciales, que hicieron los británicos el siglo pasado al
obtener datos sobre nacimientos y defunciones.
La frecuencia relativa de Presentación de un evento define la probabilidad como:
a) La frecuencia relativa observada de un evento durante un gran número de
intentos ó
b) la fracción de veces que un evento se presenta a la larga, cuando las condiciones
son estables.
Ejemplo: Una compañía de seguros posee datos actuariales registrados y sabe que de los
hombres de 40 años de edad, 60 de cada 100,000 morirán al año. Entonces utilizando esta
información, la compañía estima la probabilidad de muerte de personas de 40 años como:
P = 60 / 100,000 = 0.0006
Otro ejemplo: si se pregunta por la probabilidad de que un paciente sea curado mediante
cierto tratamiento médico, o la probabilidad de que un determinado laboratorio clínico
emita resultados falsos, entonces no hay forma de introducir resultados igualmente
probables. Por ello se necesita un concepto más general de probabilidad.
Supongamos que se realiza un experimento n veces y que en esta serie de n ensayos el
evento A ocurre exactamente r veces, entonces la frecuencia relativa del evento es r/n, o
sea, fr (E) = f (E) = r/n.
A medida que aumentamos n, las frecuencias relativas correspondientes serán más estables;
es decir; tienden a ser casi las mismas; en este caso decimos que el experimento muestra
regularidad estadística o estabilidad de las frecuencias relativas. Esto se explica, por
ejemplo, con el lanzamiento de una moneda gran número de veces.
Experimento:
Elaboró: Guillermo Castañeda Tovar
30
UACQB_UAG
Arrojar al aire una moneda 100 veces 20 estudiantes
Estudiante
Cara
Cruz
Sumas
11
12
44
55
56
45
100 100
1
44
56
100
13
48
52
100
2
47
53
100
14
50
50
100
3
49
51
100
15
43
57
100
4
55
45
100
16
54
46
100
5
45
55
100
17
55
45
100
6
49
51
100
18
45
55
100
7
51
49
100
19
49
51
100
8
48
52
100
20
58
42
100
9
62
38
100
10
47
53
100
suma
Desviación
998
1002
2000
+2
-2
0
TIPOS DE EVENTOS
Utilizaremos las dos tablas que aparecen a continuación para ilustrar algunas definiciones
y reglas para determinar probabilidades en los diferentes tipos de eventos:
Tabla 1
Seropositividad en homosexuales
Seronegativos
Seropositivos
<= 29 meses
Seropositivos
> 29 meses
Total
Proporción T4/T8
baja
4
5
Proporción T4/T8
normal
27
2
Total
11
1
12
20
30
50
31
7
Tabla 2 sobre sexo y tipo sanguíneo.
Tipo sanguíneo
O
A
B
AB
Varones
0.21
0.215
0.055
0.02
0.50
Mujeres
0.21
0.215
0.055
0.02
0.50
Total
0.42
0.43
0.11
0.4
1.00
En probabilidad, un experimento se define como cualquier proceso planeado de obtención
de datos. En el caso de la tabla 1, el experimento es el proceso para determinar el estado
seronegativo o seropositivo de un grupo de 50 varones homosexuales. Un experimento
consiste en varias pruebas independientes bajo las mismas condiciones; en este ejemplo,
una prueba consiste en determinar el estado del suero de un varón individual. Cada prueba
Elaboró: Guillermo Castañeda Tovar
31
UACQB_UAG
puede originar 1 de 3 resultados: p (seronegativo, seropositivo por 29 meses o menos, o
seropositivo por más de 29 meses). La probabilidad de un resultado particular, léase
resultado A, se simboliza P(A). Por ejemplo, si el resultado A es “seronegativo”, la
probabilidad de que un homosexual en un estudio sea seronegativo es: P (seronegativo) =
31/50 = 0.62
En el caso de la tabla 2, las probabilidades de resultados diferentes ya se calcularon. Los
resultados de cada prueba para determinar tipo sanguíneo son O, A, B y AB. De los datos
del cuadro se puede decir que la probabilidad de que un individuo tenga tipo sanguíneo A
es: P (tipo A) = 0.43. Los datos de tipo sanguíneo ilustran dos características importantes de
la probabilidad:
1.- la probabilidad de cada resultado (tipo sanguíneo) es mayor o igual a cero.
2.- la suma de las probabilidades de los diversos resultados es 1.
Los eventos pueden definirse como resultados sencillos o como conjuntos de resultados.
Por ejemplo, los resultados del estado del suero son seronegativo, seropositivo por 29
meses o menos, y seropósitivo por mas de 29 meses; pero se desea definir un evento como
homosexual seronegativo y seropositivo. El evento “seropositivo” comprende dos
resultados: <= 29 meses y >29 meses, en ocasiones se desea conocer la probabilidad de que
un evento no ocurra: un evento opuesto al que interesa se designa como evento
complementario de ser “seronegativo” es “no ser seronegativo”. La probabilidad del
complemento es:
P(complemento de seronegativo)
7

1219
 
0
.38
=
50 50
=P(no
ser
seronegativo)
=P(seropositivo)
Observe que la probabilidad de un evento complementario también puede encontrarse
restando de 1 la probabilidad del evento que interesa, y en algunas situaciones su cálculo
puede ser más sencillo. Así, se obtiene: P (complemento de seronegativo) = 131
P(seronegativo) = 1  0.38
50
Eventos mutuamente excluyentes y regla de adición.
Dos eventos o más son mutuamente excluyentes si la ocurrencia de uno de ellos impide la
de los demás. Para el caso de la tabla 1, los resultados son mutuamente excluyentes; es
decir, un homosexual no puede ser a la vez seropositivo<=29 meses y seropositivo >29
meses. Además, todos los eventos complementarios se excluyen también de manera
mutua, sin embargo, los eventos pueden ser mutuamente
excluyentes sin ser
complementarios si hay tres o más eventos posibles.
La probabilidad de que ocurran eventos mutuamente excluyentes es la probabilidad de que
se presente uno u otro evento. Esta probabilidad se encuentra sumando las probabilidades
de los dos eventos, lo cual se conoce como regla de adición para probabilidades.
P(A o B) = La probabilidad de que suceda el evento A o el B = P(A) + P(B)
Elaboró: Guillermo Castañeda Tovar
32
UACQB_UAG
Por ejemplo, la probabilidad de tener tipo sanguíneo O o tipo sanguíneo A es: P(O o A) =
P(O) + P(A) = 0.42 +0.43 =0.85
Otro ejemplo: Sea el grupo compuesto por Pablo, María, Juan, Pedro, Carmela, Roberto,
Cecilia y Enrique. Se va a elegir un individuo.
1º.- ¿Cuál es la probabilidad de que Juan sea elegido? P(J) = 1/8 = 0.125
2º.- ¿Cuál es la probabilidad de que el elegido sea Juan o Cecilia?
P(Juan o Cecilia) = 1/8 + 1/8 = 2/8 = ¼ = 0.25
La tabla siguiente contiene los datos sobre el tamaño de las familias de un pueblo del
municipio de Chilpancingo. Se tiene interés en saber ¿Cuál es la probabilidad de que al
escoger una familia de ese pueblo al azar, esta tenga cuatro o más hijos?
Número de hijos
Proporción de familias que
tienen esa cantidad de hijos
0
1
2
3
4
5
6
ó más
0.05
0.10
0.30
0.25
0.15
0.10
0.05
P(4, 5, 6 ó más) = P(4) + P(5) + P(6 ó más) = 0.15 + 0.10 + 0.05 = 0.30
¿Funciona la regla de adición para más de dos eventos? La respuesta es si, siempre que
sean mutuamente excluyentes. Más adelante se estudiara este enfoque para eventos que no
se excluyen de manera mutua.
¿Cuáles de los siguientes son parejas de eventos mutuamente excluyentes al sacar una carta
de un mazo de 52 barajas?
Un corazón y una reina
Una espada y una carta roja
Un número par y una espada
Un as y un número impar.
¿Cuáles de los siguientes son resultados mutuamente excluyentes al lanzar dos dados?
Un total de cinco puntos y un cinco en un dado.
Un total de siete puntos y un número par de puntos en ambos dados.
Un total ocho puntos y un número impar de puntos en ambos dados.
Un total de nueve puntos y un dos en uno de los dados.
Un total de diez puntos y un cuatro en un dado.
Eventos independientes y regla de multiplicación
Dos eventos son independientes si el resultado de uno no tiene efecto en el del otro. Dicho
de otra manera la ocurrencia de uno no impide que pueda ocurrir el otro. Usando el ejemplo
del tipo sanguíneo, se definirá también un segundo evento, como el sexo del individuo,
que consiste de los dos resultados “varón” y “mujer”. En este caso, sexo y tipo sanguíneo
son dos eventos independientes; el sexo de un sujeto no afecta en modo alguno a su tipo
sanguíneo y viceversa. La probabilidad de dos eventos independientes es la de que ambos
Elaboró: Guillermo Castañeda Tovar
33
UACQB_UAG
se presenten, y se encuentra multiplicando las probabilidades de los dos eventos, lo cual se
conoce como regla de multiplicación para probabilidades. Por ejemplo, la probabilidad de
ser varón y tener tipo sanguíneo O es:
p (varón y tipo sanguíneo O) = P (varón) x P (tipo sanguíneo O) = 0.50 x 0.42 = 0.21
La probabilidad de ser varón, 0.50, y la probabilidad de tener tipo 0, 0.42, se designan
como probabilidades marginales; es decir, se presentan en los “bordes” de una tabla de
probabilidad. La probabilidad de ser varón y tener tipo sanguíneo 0, 0.21, se llama
probabilidad de unión o unida; es la probabilidad de que el “varón” y “tipo sanguíneo O”
ocurran de modo conjunto.
Eventos no independientes o condicionales y regla de multiplicación modificada
Hallar la probabilidad de unión de dos eventos cuando no son independientes es un poco
más complejo que la simple multiplicación de dos probabilidades marginales. Cuando dos
eventos no son independientes, el que un evento suceda depende de si el otro ha ocurrido.
Sea A el evento “razón T4/T8 baja”y B el evento “seropositivo”. Se desea conocer la
probabilidad del evento A dado el evento B, que se escribe P(A/B), donde la línea vertical
se lee “dado”. De los datos del cuadro, la probabilidad de una razón T4/T8 baja, dado que
511
0.842
el paciente es seropositivo, es: P(T4/T8 baja / seropositivo) =
. Esta
712
probabilidad, que se designa como probabilidad condicional; es la de un evento, dado que
se haya presentado otro evento. Puesto de otra manera, la probabilidad de una razón T4/T8
baja es condicional en el evento de seropositividad; ahora puede sustituir a P(T4/T8 baja)
en la regla de multiplicación. Si se reúnen las expresiones, es posible encontrar la
probabilidad de unión de tener una razón T4/T8 baja y ser seropositivo:
P (T4/T8 baja y seropositivo)= P (T4/T8 baja | seropositivo) x P (seropositivo)=
16
20
x 
0
.
842
x
0
.
38

0
.
32
19
50
La probabilidad de tener una razón baja y ser seropositivo puede determinarse también
hallando la probabilidad condicional de ser seropositivo, dada una razón T4/T8 baja, y
sustituyendo esa expresión en la regla de multiplicación para P (seropositivo). Por
consiguiente, se obtiene:
P (T4/T8 baja y seropositivo) = P (seropositivo y T4/T8 baja) = P (seropositivo | T4/T8
16
20
x 
0
.
80
x
0
.
40

0
.
32
baja) x P(T4/T8 baja) =
20
50
Eventos no mutuamente excluyentes y regla de adición modificada
En este caso dos eventos se pueden presentar al mismo tiempo, por lo que la probabilidad
se reduce para evitar el conteo doble, ya que la posibilidad de que podamos obtener ambos
eventos juntos existe.
P(A o B) = P(A) + P(B) – P(AB)
En donde: P(AB) es la probabilidad de que A y B sucedan juntos.
Elaboró: Guillermo Castañeda Tovar
34
UACQB_UAG
Ejemplo: ¿Cuál es la probabilidad de sacar un as o un corazón de un paquete de 52 cartas?
P(as o corazón) = P(as) + P(corazón) – P(as y corazón)
P(as o corazón ) = 4/52 + 13/52 – 1/52 = 16/52 = 4/13
REPRESENTACIÓN DE LA PROBABILIDAD UTILIZANDO DIAGRAMAS DE
JOHN VENN:
A
A
B
Dos eventos mutuamente excluyentes
B
Dos eventos no mutuamente excluyentes
Otro ejemplo: Los empleados de una empresa han elegido a cinco de ellos para que los
representen en una reunión administrativa sobre productividad. El perfil de ellos se muestra
en la tabla anexa.
1. hombre
edad 30 años
2. hombre
edad 32 años
3. mujer
edad 45 años
4. mujer
edad 20 años
5. hombre
edad 40 años
Este grupo de empleados decide elegir un vocero de manera aleatoria (sacando de un
sombrero uno de los nombres de ellos), ¿cuál es la probabilidad de que el vocero sea una
mujer o persona cuya edad esté por arriba de los 35 años?
P(mujer o mayor de 35 años) = P (mujer) + P(mayor de 35) – P(mujer y mayor de 35 años)
P(mujer o mayor de 35 años) = 2/5 + 2/5 – 1/5 = 3/5
Ejemplo: sexo y grupo sanguíneo no son eventos mutuamente excluyentes debido a que la
ocurrencia de uno no impide la del otro. La regla de adición debe modificarse en esta
situación; de otro modo, la probabilidad de que los dos eventos ocurran se agregara dos
veces en el cálculo.
En la tabla 2, la probabilidad de ser varón es 0.50 y la probabilidad de tipo sanguíneo O
es 0.42. Sin embargo, la probabilidad de ser varón o tener tipo sanguíneo O no es 0.50 +
0.42, debido a que en esta suma, los varones con tipo sanguíneo O se han contado dos
veces. Por tanto, puede sustraerse la probabilidad de ser varón y tener tipo sanguíneo O,
0.21. El calculo es: P (varón o tipo O) = P (varón) + P (tipo O) – P (varón y tipo O)=
0.50 +0.42 - 0.21 = 0.71.
Por supuesto si no se sabe que P(varón y tipo O) = 0.21, debe usarse la regla de la
multiplicación (en este caso, para eventos independientes) para determinar esta
probabilidad.
Elaboró: Guillermo Castañeda Tovar
35
UACQB_UAG
EJERCICIOS DIVERSOS
En un grupo de 30 estudiantes, de los cuales 20 son mujeres, encontramos que de éstas 12
son de tipo sanguíneo O, 6 del tipo A y 2 de tipo B; en los varones encontramos 6 de tipo
O, 3 de tipo A y 1 de tipo B.
Siendo los eventos:
M: mujeres
H: hombres
A: tipo sanguíneo A
B: tipo sanguíneo B
O: tipo sanguíneo O
calcular las siguientes probabilidades al seleccionar un estudiante de ese grupo:
a)
b)
c)
d)
e)
P(H)
P(M)
P(A)
P(B)
P(O)
f)
g)
h)
i)
j)
P(H | O)
P(O | H)
P(H o M)
P(H y M)
P(A o B)
Una urna contiene 6 bolas rojas, 4 blancas y 5 azules; calcular la probabilidad de que al
extraer al azar una bola ésta:
a)
b)
c)
d)
e)
sea roja
sea blanca
sea azul
no sea roja
sea roja o blanca
Se lanzan dos dados sobre la mesa; calcular las probabilidades de que:
a)
b)
c)
d)
e)
f)
g)
h)
Las caras sumen 7
Las caras sean iguales
La suma de las caras sea número par
Ambas caras sean número impar
La suma es 6 dado que ambas son número par
Ambas son número par, dado que la suma es 6
La suma es 6 y ambas son par
La suma es 6 o ambas son par
Se lanzan tres monedas al aire; calcular la probabilidad de obtener:
a) Dos águilas y un sol
b) Una águila y dos soles
c) Las tres águilas
d) Los tres soles o una águila y dos soles
Elaboró: Guillermo Castañeda Tovar
36
UACQB_UAG
En la siguiente tabla aparece color y marca de 20 autos que participan en un concurso, de
acuerdo con esos datos calcular las probabilidades que se solicitan:
Tsuru
Platina
Corsa
a)
b)
c)
d)
e)
f)
Rojo
5
2
1
Azul
3
5
4
Que el auto sea rojo
Que el auto sea un Platina
Que el auto sea Tsuru o Corsa
Que el auto sea un Platina rojo
Que el auto sea Platina sabiendo que es rojo
Que el auto sea Tsuru o azul
En un grupo de 20 pacientes se determinó que 4 eran de tipo sanguíneo A, 10 de tipo
sanguíneo O, 5 de tipo B y sólo uno de tipo AB. Se tiene que seleccionar uno de esos
pacientes; cual es la probabilidad de que el seleccionado sea:
a) de tipo A o B
b) de tipo O o AB
Se hace girar una perinola marcada del 1 al 5 en sus respectivas caras. Qué probabilidad
hay de que al detenerse ocurran los siguientes eventos:
a) que pare en 3 ó 4
b) que pare en número impar
En un hospital nacieron el día de ayer 20 bebes; los cuales se encuentran en cunas
numeradas del 1 al 20. De éstos 6 tuvieron un peso menor de 3 kg, 4 pesaron exactamente 3
kg y 10 pesaron más de 3 kg. Calcular la probabilidad de que al seleccionar uno de los
bebes, éste sea:
a) de 3 o más kilogramos.
b) de 3 o menos kilogramos
Se está repartiendo un lote de autos a un grupo de personas que resultaron ganadoras de un
concurso. 20 de los autos son de color rojo, 50 de color gris, 10 son de color amarillo y 20
de color azul. Si Juan resulto ganador, calcular la probabilidad de que le toque un auto:
a) gris o azul
b) amarillo o rojo
Se extrae una carta de una baraja americana (52 cartas), calcular la probabilidad de que
dicha carta:
a) sea un as
b) sea de corazones
c) sea un as de corazones
d) sea un as, sabiendo que es de corazones
e) sea de corazones, sabiendo que es as
f) sea un as o bien sea de corazones
Elaboró: Guillermo Castañeda Tovar
37
UACQB_UAG
1.- En un estudio de vialidad de un grupo de 100 personas, de los cuales, 60 son hombres y
40 son mujeres, se obtuvieron los siguientes datos:
Manejan hábilmente
Manejan con dificultad
No saben manejar
Mujeres
18
10
12
40
Hombres
20
30
10
60
Total
30
50
20
100
Siendo los eventos:
M: es mujer
H: es hombre
MH: maneja hábilmente
MD: maneja con dificultad
NM: no sabe manejar
Calcular las probabilidades indicadas, al seleccionar un individuo de ese grupo:
P(NM) =
P(H) =
P(MH|M) =
P(MH y M) =
P(MH o M) =
P(MD o NM) =
P(H y NM) =
Tres urnas contienen: la número uno, 9 bolas blancas y una negra; la número dos, 5 bolas
blancas y 20 negras y la número 3, 8 bolas blancas 10 negras Se elige al azar una urna y se
extrae, también al azar, una bola que resulta blanca. ¿Cuál es la probabilidad de que la urna
elegida haya sido la primera?.
Elaboró: Guillermo Castañeda Tovar
38
UACQB_UAG
2.- En un estudio de personas adictas al tabaco donde se trabajo con un grupo de 100
personas, de las cuales 30 son mujeres, y 70 son hombres.
Los resultados arrojaron que de las mujeres 10 fumaban y 20 no, y de los hombres 50
fumaban y 20 no lo hacían.
Fuman
No fuman
Mujeres
10
20
30
Hombres
50
20
70
Total
60
40
100
En un estudio realizado con el alumnado de una primaria de 100 alumnos, de los cuales 60
son mujeres y cuarenta hombres. Los resultados fueron: de las mujeres 24 usaban lentes y
36 no; de los hombres 16 usaban lentes y 24 no.
Lentes
No lentes
Mujeres
24
36
60
Elaboró: Guillermo Castañeda Tovar
Hombres
16
24
40
39
Total
40
60
100
UACQB_UAG
TEOREMA DE BAYES
La regla de multiplicación para probabilidades cuando los eventos no son independientes
pueden usarse para derivar un tipo de una importante formula llamada TEOREMA DE
BAYES. Debido a que P( B y D) es igual a P(B|D) x P(D) y a P(B) y P(D) no son iguales a
cero.
Las dos formulas del teorema de Bayes son importantes debido a que con frecuencia dos
clínicos conocen solo una de las probabilidades pertinentes y deben determinar la otra. (1)
TEOREMA DE BAYES: en el año 1763, dos años después de la muerte de Thomas Bayes
(1702-1761), se publico una memoria en la que aparece, por primera vez , la determinación
de la probabilidad de las causas a partir de los efectos que han podido ser observados. El
cálculo de dichas probabilidades recibe el nombre de teorema de bayes.
El teorema de BAYES se apoya en el proceso inverso al que hemos visto en el teorema de
la probabilidad total.
Teorema de la probabilidad total: a partir de las probabilidades del suceso A
(probabilidad de que llueva o de que haga buen tiempo) deducimos la probabilidad del
suceso B(que ocurra un accidente).
Teorema de bayes: a partir de que ha ocurrido el suceso B (ha ocurrido un accidente)
deducimos las probabilidades del suceso A (¿estaba lloviendo o hacia buen tiempo?).
La formula del Teorema de Bayes es:



P
Ai
*
P
B
/
Ai


P
Ai
/
B




P
Ai
*
P
B
/
Ai

EJEMPLO 1:
El parte metereologico ha anunciado tres probabilidades para el fin de semana:
a) Que llueva: probabilidad del 50%.
b) Que neve: probabilidad del 30%.
c) Que haya niebla: probabilidad del 20%
Según estos posibles estados metereológicos, la posibilidad de que ocurra un accidente
es la siguiente:
a) Si llueve: probabilidad de accidente del 20%
b) Si neva : probabilidad de accidente del 10%
c) Si hay niebla: probabilidad de accidente del 5%
Elaboró: Guillermo Castañeda Tovar
40
UACQB_UAG
Resulta que efectivamente ocurre un accidente y como no estábamos en la ciudad no
sabemos que tiempo hizo (nevó, llovió o hubo niebla). El Teorema de Bayes nos
permite calcular estas probabilidades:
Las probabilidades que manejamos antes de conocer que ha ocurrido un accidente se
denominan “probabilidades a priori” (lluvia con el 50%, nieve con el 30% y niebla con
el 20%).
Una vez que incorporamos la información de que ha ocurrido un accidente, las
probabilidades del suceso A cambian: son probabilidades condicionadas P(A/B), que se
denominan “probabilidades a posteriori”.
Vamos a aplicar la formula:
P
(
Ai
)
*
P
(
B
/
Ai
)


P
Ai
/
B

P
(
Ai
)
*
P
(
B
/
Ai
)

a) Probabilidad de que estuviera lloviendo:
0
.
50
*
0
.
20
P
(
Ai
/
B
)


0
.
714
(
0
.
50
*
0
.
20
)

(
0
.
30
*
0
.
10
)

(
0
.
20
*
0
.
05
)
La probabilidad de que efectivamente
(probabilidad a posteriori) es del 71.4%.
estuviera
lloviendo el
día del accidente
b) probabilidad de que estuviera nevando:
0
.
30
*
0
.
10
P
(
Ai
/
B
)


0
.
214
(
0
.
50
*
0
.
20
)

(
0
.
30
*
0
.
10
)

(
0
.
20
*
0
.
05
)
La probabilidad de que estuviera nevando es del 21.4%.
c) probabilidad de que hubiera niebla :
0
.
20
*
0
.
05
P
(
Ai
/
B
)


0
.
071
(
0
.
50
*
0
.
20
)

(
0
.
30
*
0
.
10
)

(
0
.
20
*
0
.
05
)
La probabilidad de que hubiera niebla es del 7.1%
Elaboró: Guillermo Castañeda Tovar
41
UACQB_UAG
EJEMPLO 2: Tres industrias suministran microprocesadores a un fabricante de telemetria.
Todos se elaboran supuestamente con las mismas especificaciones. No obstante, el
fabricante ha probado durante varios años los microprocesadores, y los registros indican la
siguiente información:
Instalación
proveedora
1
2
3
Fracción de Fracción
defectuosos
suministrada por
0.02
0.15
0.01
0.80
0.03
0.05
Se selecciona un microprocesador y al probarlo resulta defectuoso. Sea el evento B: que el
articulo este defectuoso, y el evento Ai: que el articulo proviene de la i = enésima
instalación (i = 1, 2,3), se puede evaluar entonces P(Ai/B).
Suponga que se desea determinar la probabilidad de que el artículo provenga de la
instalación 3, dado que salió defectuoso.
P
(
A
)

P
(
B
/
A
)
3
3

P
A
/
B

3
P
(
A
)

P
(
B
/
A
)

P
(
A
)

P
(
B
/
A
)

P
(
A
)

P
(
B
/
A
)
1
1
2
2
3
3




0
.
05
0
.
03
3
P
(
A
/
B
)


3








0
.
15
0
.
02

0
.
80
0
.
01

(
0
.
05
)(
0
.
03
)
25
R.- la probabilidad de que el artículo provenga de la
defectuoso es de un 12%.
instalación 3 dado que salió
Ejercicio 1: dos urnas contienen, la número uno, 9 bolas blancas y una negra; la número
dos, 5 bolas blancas y 20 negras. Se elige al azar una urna y se extrae, también al azar, una
bola que resulta blanca. ¿Cuál es la probabilidad de que la urna elegida haya sido la
primera?.
Sean:
A = evento sale blanca
H1 = evento se elige la primera urna
H2 = evento se elige la segunda urna
Elaboró: Guillermo Castañeda Tovar
42
UACQB_UAG
Lo que debe calcularse es P (H2|A). Se supondrá que las dos urnas son exteriormente
idénticas y consecuentemente que las probabilidades a priori p (Hi) son iguales, esto es:
P(H1) = P(H2) = ½
Además, de acuerdo con la composición de cada urna, se tiene:
P(A/H1) =
9
5
, P(A/H2) =
10
25
En estas condiciones la fórmula de Bayes da:


P
(
H
)
P
A
|
H
1
1


P
H
|
A

1







P
H
P
A
|
H

P
H
P
A
|
H
1
1
2
2
19
9
210


= 81.8 %
19
1 5
11

210 225
Ejercicio 2: una prueba para detectar Diabetes tiene una eficiente del 95%, es decir, que
solo 95 de cada 100 casos se detecta la diabetes con esta prueba a una persona que padece
esta enfermedad. Supóngase que el 2% de las pruebas que resultan positivas son de gente
sana, y que el 3% de la población del lugar padece esta enfermedad.
1. ¿Cuál es la probabilidad de que una persona seleccionada al azar pueda ser
declarada diabética por la prueba?
2. si la prueba indica que la persona es Diabética, ¿Cuál es la probabilidad de que
realmente lo sea?
Eventos: B1 = (Tiene Diabetes); B2 = (No tiene diabetes)
Espacio muestral de B:S = (B1,B2)
Evento E: (la prueba detecta diabetes)
Solución:
P(B1) = 0.03; P(B2) = 0.97
P(E/B1) = 0.95; P(E/B2) = 0.02
1.- Probabilidad de que una persona sea declarada diabética por la prueba es:
P
(
E
)

P
(
E
/
B
)
P
(
B
)

P
(
E
/
B
)
P
(
B
)
1
1
2
2
Elaboró: Guillermo Castañeda Tovar
43
UACQB_UAG










P
E

0
.
95
0
.
03

0
.
02
0
.
97

0
.
0479
2.- probabilidad de que la prueba indique que la persona sea diabética y realmente lo
sea:




P
B
P
E
/
B
1
1


P
B
/
E

1







P
B

P
E
/
B

P
B

P
E
/
B
1
1
2
2


0
.
03

0
.
95


P
B
/
E


0
.
59
1





0
.
03

0
.
95

0
.
97

0
.
02
Elaboró: Guillermo Castañeda Tovar
44
UACQB_UAG
Ejercicio 3:
En un hospital especializado ingresan 50% de enfermos con Leucemia, 30% con cáncer de
colon y 20 % con anemia aplasica. La probabilidad de curación completa de Leucemia es
de 0.7, de 0.8 para cáncer de colon y de 0.9 para anemia aplasica, un enfermo internado en
el hospital fue dado de alta sano. ¿Hallar la probabilidad de que este enfermo tenía
Leucemia?
P (L)= Enfermos que ingresan con Leucemia = 50%.
P(C)= enfermos que ingresan con cáncer de colon 30%.
P(A)= enfermos que ingresan con anemia aplasica = 20%.
B = enfermo que se curo.
P(B/L) = 0.7.
P(B/C) = 0.8.
P(B/A) = 0.9.



P
L
P
B
/
L

P
L
/
B










P
L
P
B
/
L

P
C
P
B
/
C

PA
P
B
/
A


0
.
5
0
.
7


P
L
/
B





0
.
5
0
.
7

0
.
3
0
.
8

0
.
2
0
.
9
0
.
35
0
.
35


P
L
/
B


0
.
45
0
.
35

0
.
24

0
.
18
0
.
77
Elaboró: Guillermo Castañeda Tovar
45
UACQB_UAG
MUESTREO
Población: Conjunto de individuos que poseen alguna característica en común que los
define como grupo, se denomina población o universo. Cada población tiene su propia
naturaleza y magnitud.
En medicina el término población suele referirse a pacientes u otros organismos vivos, sin
embargo también se utiliza para denotar conjuntos de objetos inanimados, tales como
colecciones de informes, de radiografías, de cargos de un hospital, entre otros.
Muestra:
En ocasiones las poblaciones son demasiado grandes y resulta poco práctico, inoperante e
incluso, imposible trabajar con el universo total. En esos casos suele extraerse una cantidad
limitada de individuos de la población total para trabajar con ella. A ese subconjunto se le
denomina muestra. El muestreo permite realizar los estudios o investigaciones con mayor
rapidez y menor costo.
En estadística las muestras se toman al azar; esto significa que todos los individuos de la
población tienen la misma posibilidad de pertenecer al subconjunto muestra.
Tipos de muestreo:
El muestreo puede ser: 1) Aleatorio simple; 2) Sistemático; 3) Estratificado; 4) De
conglomerados.
1) Aleatorio simple.
En este tipo de muestreo cada sujeto de la población total tiene la misma probabilidad de
ser seleccionado para el estudio. Para definir la muestra se utiliza normalmente una tabla de
números aleatorios. (A continuación se presenta una tabla reducida).
927415
926937
867169
857169
512500
062454
806702
837815
926839
854813
851595
449353
169116
139470
433775
221922
740207
525873
734185
773112
956521
515107
388342
542747
843384
423050
881309
163631
453853
731620
452454
556695
586865
358095
761861
232624
078048
755998
499711
463857
168117
014658
832261
032683
085361
670884
772977
622143
767825
978100
262448
806050
756231
528858
107191
398839
854928
866034
254256
781983
Elaboró: Guillermo Castañeda Tovar
169280
159944
993050
131188
398488
840940
367506
938278
284716
589512
688990
123754
469281
660128
515960
495004
875559
444933
616625
078184
46
326569
821115
639410
926198
774767
845839
729850
231305
916182
147694
461777
722070
258737
342072
759056
881970
246288
785944
243045
380752
266541
317592
698969
371071
383837
979662
457758
219737
467113
389180
647487
935916
989450
681203
150336
792001
000144
018016
251938
492215
UACQB_UAG
Existen diferentes formas para iniciar con la selección, una de ellas puede ser lanzar un
dado 2 veces, la cara del primer lanzamiento corresponderá a un grupo grande de renglones,
la del segundo lanzamiento indicará el renglón particular del grupo. A partir de allí se
realiza un desplazamiento por las filas o por las columnas y se van seleccionando los
números que corresponda a los datos reales, hasta completar el tamaño de la muestra.
2) Muestreo sistemático.
Este consiste en seleccionar a los sujetos cada determinado número. (Cada tres, cada
siete…). El número se determina dividiendo la población total entre el tamaño de la
muestra. Por ejemplo si la población es de 2000 individuos y la muestra de 200, entonces la
selección en la tabla de números aleatorios se hace cada 10 lugares.
3) Muestreo estratificado.
Es aquel en el que previamente se divide la población en subgrupos, a los que se les llama
estratos, y de cada estrato se elige una muestra parcial y posteriormente se suman las
muestras de los diferentes estratos para tener así la muestra total.
4) Muestreo de conglomerados.
Una muestra aleatoria de conglomerados se obtiene en un proceso de dos etapas.
La población se divide en conglomerados y de estos se selecciona un subconjunto. Los
conglomerados se basan en áreas geográficas o distritos, este enfoque es más utilizado en
investigación epidemiológica que en investigación clínica.
Ejemplos de conglomerados: Manzanas, colonias o barrios, instituciones de salud de una
ciudad, determinadas localidades pertenecientes a los municipios, o los municipios de un
estado, etc.
Elaboró: Guillermo Castañeda Tovar
47
UACQB_UAG

Documentos relacionados