2 curiosidades sobre estadistica descriptiva

Transcripción

2 curiosidades sobre estadistica descriptiva
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
NÚMEROS Y PALABRAS.
Autor: Juan M. R. Parrondo
Para la mayoría de la gente los números y las palabras pertenecen a reinos separados e
incluso antagónicos. O se es “de letras”, o “de ciencias”, y cada materia pertenece a uno u otro
campo sin posibilidad de conexión entre sí. Sin embargo, desde hace varias décadas, existe una
disciplina que aplica técnicas matemáticas al estudio del lenguaje: la lingüística matemática . Una
parte importante de esta disciplina es la lingüística cuantitativa, que consiste en el estudio
estadístico de textos, facilitado por la mayor potencia y capacidad de memoria de los ordenadores
actuales.
Vamos a explorar algunas curiosidades de esta lingüística cuantitativa utilizando textos que
se pueden encontrar en Internet: Don Quijote , Cien años de soledad y el original en inglés del
Ulysses de Joyce. Los he analizado por medio de TextStat, un programa gratuito que realiza
estadísticas elementales de cualquier texto, creado por la Universidad Libre de Berlín. Se pueden
encontrar muchos programas como éste en Internet, algunos gratuitos y otros comerciales, bajo el
nombre genérico de Natural Language Processing (NPL) software (programas para el
procesamiento del lenguaje natural). Han sido diseñados para tratar aspectos gramaticales del
lenguaje, para administrar grandes conjuntos de textos que se denominan corpus, para encontrar
concordancias, es decir, las apariciones de una determinada palabra en un corpus, y para algunas
otras funciones relacionadas con el estudio matemático del lenguaje.
Uno de los primeros hallazgos de la lingüística cuantitativa fue la llamada ley de Zipf , una
sorprendente regularidad en cómo se distribuyen las palabras en un texto de cualquier lengua. Se
toma un texto suficientemente largo y se cuenta el número de veces que aparece en él cada palabra.
Hay palabras, como “el”, “de” o “que”, que aparecerán un gran número de veces, y otras más raras
que sólo aparecerán una vez. A continuación colocamos las palabras en una lista, ordenándolas de
más a menos frecuentes. El orden que una palabra ocupa en la lista se denomina rango . Así, en el
caso de Cien años de soledad , el rango de “de” es 1, el de “la” es 2, el de “que”, 3, el de “y”, 4, el
de “el”, 5, etc. Pues bien, la ley de Zipf afirma que la frecuencia f de una palabra dada es
inversamente proporcional a su rango r , es decir:
f=
a
r
en donde a es una constante que depende del texto utilizado. Se trata evidentemente de una ley
aproximada, puesto que puede dar frecuencias no enteras e incluso menores de uno para rangos muy
grandes. Una generalización de la ley, también aproximada pero que se adapta mejor a cualquier
tipo de texto, supone que la distribución de frecuencias es una ley de potencias :
f=
a
rb
en donde b es un exponente cercano a 1.
Para ver si un texto satisface la ley de Zipf o su generalización, es necesario construir la lista
y representar las frecuencias f de cada palabra en función de su rango r . Sin embargo, es más útil
hacer esa representación en ejes logarítmicos , es decir, en ejes en donde cada cantidad no varía de
unidad en unidad sino en intervalos dados por las distintas potencias de diez. Esta representación
1 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
equivale a dibujar la gráfica del logaritmo de f frente al logaritmo de r, que se relacionan de la
siguiente forma:
log( f )=log(a)−b⋅log(r )
Como a es una constante, esta ecuación nos dice que la gráfica de log f en función de log r ,
o, equivalentemente, la de f en función de r con ejes logarítmicos, será una recta inclinada hacia
abajo y con pendiente b.
Cien años de soledad
verifica la ley de Zipf. La novela
tiene un total de 138.014 palabras,
entre las cuales hay 16.019
diferentes. TextStat realiza una
tabla con la frecuencia de cada una
de estas 16.019 palabras. En la
figura 1 pueden ver la gráfica de la
frecuencia en función del rango.
Los puntos azules son las
frecuencias de cada palabra en el
texto y la línea roja es la recta que
mejor se aproxima a los puntos:
una ley de potencias con a =
13.083 y b = 1,0086. El exponente
b es muy cercano a 1, de modo que podemos decir que la ley de Zipf original se cumple con
bastante aproximación en la novela de García Márquez.
En la figura 2 podemos ver la
ley de Zipf para Don Quijote , en el
que hay 22.941 tipos de palabras
entre las 381.222 que componen el
texto. La línea roja representa de
nuevo la ley de potencias que mejor
se ajusta a los datos “experimentales”
y en este caso es la función f =
142.271∙ r–1,2136, es decir, una ley de
potencias con exponente b = 1,2136.
El exponente se aleja
significativamente de 1, el exponente
de la ley de Zipf original, pero
también podemos observar que no
reproduce bien el comportamiento de
las palabras más frecuentes. He
dibujado en verde la ley de Zipf
“genuina”, es decir, con exponente b
= 1, que mejor se ajusta a los datos y el resultado no es peor que el de la mejor ley de potencias. Lo
que ocurre en este caso es que la ley de Zipf genuina se ajusta bien a los puntos con mayor
frecuencia, pero se desvía de los puntos con mayor rango y menor frecuencia. ¿Qué se puede
concluir entonces? Yo diría que ni la ley de Zipf ni la de potencias se ajustan a los datos de El
Quijote. Aunque las palabras más frecuentes sí cumplen aquélla, parece haber un número
2 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
demasiado pequeño de palabras “raras”, es decir, de palabras que aparecen sólo una vez. Esta
escasez hace que al ajustar una ley de potencias, ésta se incline en exceso y no pueda dar cuenta de
modo preciso del comportamiento de las palabras más frecuentes.
Para ver la universalidad de
la ley de Zipf, les presento el
análisis del original en inglés del
Ulises de James Joyce. A pesar de
ser una novela en donde hay una
mayor experimentación con el
lenguaje, los datos se ajustan
bastante bien a la ley de Zipf.
Frecuencia y rango están
relacionados por una ley de
potencias con a = 52.467 y
exponente b = 1,0793, aunque se
observa una desviación con
respecto a la ley en las palabras
más frecuentes.
Zipf introdujo su ley en 1949, en un libro titulado El comportamiento humano y la ley del
mínimo esfuerzo. La razón de este título es que la ley puede derivarse suponiendo que el lenguaje
natural se ha desarrollado de modo que transmita la mayor cantidad de información con el menor
número de palabras. Benoit Mandelbrot también realizó en 1951 una demostración similar. Sin
embargo, ambas demostraciones implican una relación entre el rango de la palabra y su longitud, de
modo que las palabras más frecuentes son las más cortas. Por último, la ley de Zipf, aunque es sólo válida de modo aproximado, permite hacer
algunas predicciones interesantes acerca de la estadística de un texto. Una de ellas es la relación
entre el tamaño de un texto o número total de palabras que lo componen, y su vocabulario. Esta
relación nos da una idea de la riqueza de vocabulario de cada texto.
LA ENIGMÁTICA SUCESIÓN DE TITIUS­BODE.
Autor: Vicente Viana Martínez
Cuando se formó el Sistema Solar, hace unos 4.600 millones de años, nueve planetas
comenzaron a orbitar alrededor de una joven estrella siguiendo unas órbitas elípticas de baja
excentricidad que, para mayor sencillez vamos a considerar circulares.
La distancia a la cual giran los planetas alrededor del Sol quedó establecida según unos
procesos físicos que hoy en día ignoramos en su detalle, y al margen de improbables perturbaciones
exteriores siguen girando verificando inexorablemente la segunda ley de la dinámica de Newton.
Nos podíamos preguntar si las distancias a las que orbitan los planetas siguen alguna ley o
bien su distribución alrededor del Sol es totalmente aleatoria.
Como las teorías sobre la formación del Sistema Solar no son lo suficientemente
satisfactorias, son muchas las dudas que los científicos tienen sobre el origen de los planetas y lo
3 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
más sensato sería pensar que se distribuyeron al azar con unas masas y una composición
impredecible antes de su formación.
Sin embargo, en 1.766 Johann Daniel Titius formuló una teoría muy curiosa basada en una
sucesión de números. En primer lugar tomó las distancias medias del Sol a cada uno de los 6
planetas conocidos en ese momento (Mercurio, Venus, Tierra, Marte, Júpiter y Saturno). Dividió
esas distancias entre el valor de la distancia Sol­Tierra, cuyo valor es de 149,6 millones de
kilómetros y que se conoce como 1 unidad astronómica (1 U.A.), resultando los siguientes valores.
PLANETAS
DISTANCIA AL SOL
Mercurio
0,4 U.A.
Venus
0,7 U.A.
Tierra
1 U.A.
Marte
1,5 U.A.
Júpiter
5,2 U.A.
Saturno
9,5 U.A.
Ahora estableció una sucesión de término general, 0,4 +
primer término de la sucesión se establece como 0,4 para n = 1.
n−2
3· 2
10
para
n ≥ 2 . El
Dando valores a n obtenemos los términos.
0,4 0,7 1 1,6 2,8 5,4 10 19,6 38,8 77,2 ...
Si comparamos con los siete primeros términos de la sucesión de Titius comprobamos la
casi total correspondencia entre dicha sucesión y las distancias planetarias al Sol medidas en
Unidades Astronómicas.
Existe una importante discrepancia en esta sucesión. El valor 2,8 en la sucesión de Titius no
aparece en las distancias de los planetas. Parece como si entre Marte y Júpiter tuviera que existir
otro planeta situado a 2,8 U.A. del Sol. Lo asombroso del asunto es que a dicha distancia
exactamente, se descubrieron posteriormente los asteroides Ceres e Ícaro y posteriormente lo que se
conoce con el nombre de cinturón de asteroides, fragmentos de un antiquísimo 5º planeta que nunca
llegó a formarse, conformando el actual conjunto de asteroides que giran siguiendo la trayectoria
original de ese quinto planeta que nunca existió.
Sin embargo, lo que despertó la admiración de todos los astrónomos fue el descubrimiento
por Herschell en 1.781 del planeta Urano a una distancia de 19,2 U.A. del Sol, muy próximo al
valor predicho por el octavo término de la sucesión de Titius que es de 19,6.
Inmediatamente, los astrónomos se dedicaron a buscar otro planeta situado a 38,8 U.A. del
Sol, de acuerdo con el siguiente término de la sucesión de Titius.
4 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
En 1.846 Galle descubrió Neptuno, a 30,1 U.A. del Sol, con lo que el noveno término de la
sucesión de Titius presentaba un ligero error, pero seguía siendo una aproximación aceptable dentro
de la escala astronómica.
Posteriormente, en 1.930, Tombaugh descubrió el décimo planeta, bautizado como Plutón,
que no encajaba en la sucesión, pues su distancia al Sol es de 39,4 U.A., muy lejos del valor
predicho por Titius que es de 77,2 U.A. Sin embargo, Plutón es un planeta extraño. Por un lado la
inclinación de su órbita con relación al plano del sistema Solar es de 17º, un valor anormalmente
alto, pues en general todos los planetas orbitan en el mismo plano. Además, su excentricidad es
también anormalmente alta (0,25), lo cual provoca que en ciertos puntos de su órbita, esté más cerca
del Sol que Neptuno. Su tamaño también es anormalmente pequeño (menor que nuestra Luna), es el
planeta más pequeño de todo el Sistema Solar, cuando todos los planetas más allá de Júpiter son
planetas gigantes, muchísimo mayores que la Tierra. Todo esto nos lleva a pensar que Plutón no es
un planeta del Sistema Solar sino un cuerpo celeste extraño, capturado por la órbita de Neptuno, lo
que explicaría sus anomalías. Por lo tanto, la ley de Titius no es aplicable a este extraño y frío
planeta, manteniendo su casi mágico nivel de exactitud para el resto de los planetas del Sistema
Solar.
Ahora podemos preguntarnos.
•
¿Por qué los planetas siguen la Ley de Titius?.
•
¿Puede ser considerado azar un supuesto que se cumple para los 9 primeros planetas del
Sistema Solar?.
•
¿Cómo se formó el Sistema Solar y qué desconocida ley física situó los planetas a esas
3· 2n−2
distancias que siguen la sucesión de término general 0,4 +
?
10
•
¿Existe otro planeta a 77,2 U.A. del Sol según predice el siguiente término de la sucesión de
Titius?
•
¿Es aplicable la Ley de Titius a otros sistemas solares?
✔ Los cuatro satélites galileanos de Júpiter más el satélite interno más grande, Amaltea,
cumplen perfectamente la ley de Bode.
✔ Las lunas grandes de Urano tienen una adaptación a la ley de Bode magnífica.
✔ Con el avance en las técnicas de descubrimiento de planetas extrasolares ya se han
descubierto varios sistemas planetarios sobre los que es posible aplicar la ley. Un
reciente estudio trata de aplicar la ley a algunos de estos sistemas, la conclusión es
que Kepler 11 y HD 10180 cumplen perfectamente la ley, el estudio consigue
aplicarla también a Gliese 876, Gliese 581 y 55 Cancri, conformado por cinco
planetas.
(Fin del artículo de Vicente Viana Martínez)
INTENTAREMOS APROXIMAR LA LEY DE TITIUS­BODE MEDIANTE TÉCNICAS DE
ESTADÍSTICA BIDIMENSIONAL.
Las distancias medias de los 9 planetas al Sol son (datos actualizados):
5 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
Objeto
Mercurio
Venus
Tierra
Marte
Asteroides
Jupiter Saturno Urano Neptuno Plutón
Posición
1
2
3
4
5
6
7
8
9
10
Distancia
0,39
0,72
1
1,52
2,65
5,2
9,54
19,19
30,07
39,52
Se ha tomado como unidad la distancia entre la Tierra y el Sol, a lo que se llama unidad
astronómica (U.A.). El quinto lugar está ocupado por los asteroides que, para estos efectos, son
considerados como un planeta más.
Se pretende hacer un estudio bidimensional completo de la variables:
X = Posición del objeto por su distancia con respecto al Sol
Y = distancia al Solo en U.A.
También se hará un análisis del mejor ajuste de datos mediante distintas funciones. 1.­ Nube de puntos.
2.­ Parámetros unidimensionales.
̄x =5,5
σ x =2,8723
̄y =10,98
σ y =13,2580
3.­ Correlación.
σ xy=33,759
r = 0,8865
4.­ Coeficiente de determinación.
La medida que usaremos para juzgar la bondad del ajuste es la razón de correlación, también
llamada coeficiente de determinación que representa la proporción de la variación de Y explicada
6 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
por el modelo de regresión.
Para el caso de Regresión Lineal, obtenemos un coeficiente de determinación:
R² = r² En las otras aproximaciones, utilizaremos la varianza residual de Y:
N
∑ ( y j − ý j ) ² · n j
Varianza residual de Y = σ r ² =
Con j =1
N
ý j el valor obtenido mediante la correspondiente curva de regresión.
El coeficiente de determinación se define como:
Coeficiente de determinación = R² =1−
σ ²
Varianza residual
= 1− r Varianza total
σy²
El ajuste será mejor cuanto más cerca esté R² de 1
5.­ Regresión Lineal
a.­ Recta de Regresión de Y sobre X:
y=4,0919 x−11,5257
R² = r² ' = 0,7859
b.­ Recta de Regresión de X sobre Y:
x=0,1921 y +3,3912
R² = r² ' = 0,7859
7 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
c.­ Centro de gravedad de las Rectas de Regresión
6.­ Regresión cuadrática: y = 0, 8192 x² – 4.9192 x + 6,4965
R² = 0,9875
7.­ Regresión Polinómica.
a.­ Grado 3: y = 0.0615 x 3 − 0.1958 x² − 0.2378 x + 1.2183
R² = 0,9941
8 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
b.­ Grado 4: y = −0.0186 x 4 + 0.471 x 3 − 3.1923 x² + 7.9513 x − 5.1691
8.­ Regresión Potencial: y = 0.1734 · x 2.0911
R² = 0,9974
R² = 0,6911
9.­ Exponencial:
a.­ Base “e”: y = 0.2125 · e0.5373 · x
R² = 0,964
b.­ Base “2”: y = 0.2131 · 20.7754 · x
R² = 0,9631
9 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
10.­ Ley de Titius:
y =0,4 +
3 · 2x −2
10
R² = 0,1486
En la ley de Titius­Bode el coeficiente de determinación es muy bajo, pero si eliminamos el
error del décimo planeta, obtenemos coeficiente de determinación R² = 0,9564 .
Por último, si quitamos el error cometido al incluir el noveno planeta, obtenemos un
coeficiente de determinación para los 8 primeros objetos de R² = 0,9997 .
Cuando la ley se descubrió se sabía de la existencia de Mercurio, Venus, Marte, Júpiter y
Saturno, cuando más tarde se descubrió Urano muy cerca de la posición que predecía la ley esta
tomó importancia y se empezó a buscar un hipotético planeta entre Marte y Júpiter que la ley
predecía pero no se conocía. Fue así como se descubrió Ceres, el objeto principal del cinturón de
asteroides, que se encuentra justo en esa posición. Por lo que la fórmula se ajustaba muy bien a los
objetos conocidos hasta ese momento 10 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
HAY QUE DECIRLO MÁS: CORRELACIÓN NO IMPLICA CAUSALIDAD
Extraído de Blog Gaussianos: http://gaussianos.com
Autor: DiAmOnD | Publicado el 27 de noviembre de 2013
Correlación no implica causalidad, hay que decirlo más. Y hay que decirlo más porque en
general no llegamos a comprender qué significa esta frase. Bueno, o eso o que aun
comprendiéndola intentamos confundir a quien no la entiende haciéndole creer que una cosa sí que
implica a la otra.
Prácticamente a diario nos encontramos en (principalmente) medios de comunicación
noticias cuyo titular tiene una estructura parecida a algunos de los siguientes:
Un estudio afirma que cuanto más A más B.
Un estudio afirma que quienes son A tienen menos B.
Un estudio afirma que dado que A es así entonces B es de esta otra forma.
…
En principio, todos esos titulares indican básicamente que lo que dice A es lo que provoca
que ocurra B, o, lo que es lo mismo, que B es consecuencia de A. Normalmente, cuando uno se lee
esas noticias, acaba dándose cuenta de que lo que hay es una correlación entre A y B (vamos, una
relación entre esos dos sucesos), pero, en principio, sin ningún indicio de que sea uno de ellos, A en
este caso, el que provoca el otro, B.
El estudio de la correlación entre dos variables es uno de los temas que se trata en
Estadística. Resumiendo un poco, la cuestión sería algo como lo siguiente:
•
A partir de ciertos datos obtenidos de cada una de esas variables uno estima si hay alguna
relación entre ellas. La que se estudia con mayor frecuencia es la llamada regresión lineal
(mediante la que buscamos si hay relación lineal hay entre las variables), pero hay muchos
más tipos posibles: cuadrática, exponencial, logarítmica…
•
Con esos datos se calcula una función (que, por ejemplo, en regresión lineal es una recta)
que nos determina exactamente qué relación hay entre esas variables.
•
Se estudia la correlación real entre ellas (es decir, cómo de fuerte es la relación que
habíamos estimado a partir de los datos iniciales) mediante un coeficiente de correlación.
Este coeficiente toma valores entre ­1 y 1, y se interpreta de la siguiente forma:
•
Cuanto más cerca de 1 esté, mayor correlación positiva (es decir, que cuando
aumenta una también lo hace la otra) hay entre las variables. •
Cuanto más cerca de ­1 esté, mayor correlación negativa (es decir, que cuando
aumenta una disminuye la otra) hay entre las variables.
•
Cuanto más cerca de 0 esté, menor correlación hay entre las variables. Ahora, que la relación entre las variables sea muy fuerte (esto es, que sea casi 1 o casi ­1) no
significa que una de ellas sea la causa de la otra. En ningún sitio esta teoría nos deja asegurar con
tanta ligereza que el hecho de que haya una correlación muy fuerte entre A y B significa que la
variable A es la que está provocado que se presente la variable B. La teoría habla de relación entre
las variables, no de que una sea la causa de la otra. Por cierto, buenísima esta tira de XKCD sobre el
11 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
tema:
Hasta aquí bien, ¿no? Vale, sigamos.
Todo esto de la mala interpretación de la correlación también se encuentra, y en demasiadas
ocasiones, en estudios científicos supuestamente serios. No son pocos los estudios que al encontrar
una cierta relación entre dos variables presentes en los sujetos estudiados se tiran a la piscina
afirmando que por tanto una de ellas es la causa de la otra, cuando en realidad en dichos estudios no
hay ninguna evidencia de que esto sea verdad (simplemente hay correlación).
Supongo que más de uno se estará preguntando lo siguiente: ¿entonces es mentira que
correlación implique causalidad? Pues no, no es mentira, y verdad tampoco. Me explico:
Cuando se dice que la frase correlación no implica causalidad (en latín, Cum hoc ergo
procter hoc) es cierta lo que se quiere decir es que el hecho de que haya correlación entre dos
variables no significa que una provoque a la otra, pero eso no significa que si encontramos
correlación entre dos variables automáticamente podamos descartar que una sea causa de la otra.
Hay casos en los que A es la causa de que ocurra B, en otros es al revés, en otros hay alguna
variable adicional la que hace que se produzca esa correlación…y a veces todo es fruto de la
casualidad (sí, casualidad, no “causalidad”).
El problema de creerse que una fuerte correlación implica una cierta relación causal entre las
variables es que esa creencia se puede usar (malintencionadamente o no) para engañarnos, ya que
no es demasiado difícil encontrar correlación entre dos variables que en principio ni están
relacionadas a poco que queramos “forzarla”.
Por ejemplo, si os digo que el descenso de piratas en el mundo está provocando una subida
de la temperatura media global de nuestro planeta, ¿qué pensaríais? Posiblemente que estoy muy
mal de la cabeza, ¿no? Bien, echadle un ojo a esta gráfica:
12 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
Fuente: Wikimedia Commons.
En ella se ve claramente que desde 1860 se ha producido un descenso del número de piratas
y a la vez un aumento de la temperatura media de la Tierra, y que hay correlación lineal (la gráfica
se acerca bastante a una recta) entre las dos variables. ¿Es el descenso de piratas la causa de la
subida de temperatura? Pues no parece que sea así. ¿Y al revés? ¿Es la subida de la temperatura
media global la causa del descenso de piratas? Pues tampoco parece que sea así. Es muy posible que
esta relación sea pura casualidad.
UNA INTERESANTE MANERA DE OBTENER BUENAS ESTIMACIONES DE LOS
RESULTADOS DE UNA ENCUESTA
Extraido de Blog Gaussianos: http://gaussianos.com
Método visto en “El hombre anumérico”, de John Allen Paulos.
Estoy seguro de que a la mayoría de vosotros os habrán hecho alguna vez una encuesta, y
también estoy seguro de que muchos de vosotros no habréis sido totalmente sinceros (por no decir
que “habréis mentido”) en alguna de las preguntas de dicha encuesta por lo comprometedor de la
misma. Preguntas relacionadas con temas conflictivos (como la eutanasia, la pena de muerte o el
aborto) o con temas tabú (como todo lo relacionado con el sexo) pueden llevarnos a no marcar la
respuesta que creemos más cercana a la realidad por miedo o pudor.
Entiendo que las personas encargadas de realizar las encuestas cuentan con esto, conviven
con ello, y por tanto tendrán mecanismos para disminuir lo máximo posible la influencia de esta
circunstancia en los resultados de las encuestas (o deberían).
Lo que puede resultar curioso es que una opción para que esto ocurra con menos frecuencia
sea incluir el azar en el propio acto de responder a la encuesta. Sí, el azar puede ayudarnos a obtener
un resultado más fiable de nuestra encuesta. Vamos a ver cómo.
Imaginemos que queremos realizar una pregunta a un grupo grande de personas, digamos 15000. Y
supongamos que la pregunta es algo “conflictiva”, algo así como
¿Ve habitualmente (dos o más veces por semana) los documentales de La2?
Seguro que muchos de los encuestados dirían en primera instancia que “Sí”, pero ante una pregunta
como ésta uno puede no tener muy claro si la respuesta ha sido sincera o no. Vamos a introducir el
azar de la siguiente manera:
El proceso para responder a la pregunta será el siguiente:
El encuestado tira una moneda al aire y mira el resultado (sin que lo vea nadie
más). Si ha salido cara responde con total sinceridad a la pregunta, y si ha
salido cruz responde “No”.
De esta forma se entiende que eliminamos la posibilidad de que el encuestado responda algo
que no piensa por el hecho de que el encuestador esté delante, o porque luego vayan a asociar con él
una respuesta “comprometida” (que no ve los documentales de La2), ya que si ha respondido “No”
puede haber sido porque en realidad respondió sinceramente “No” o porque simplemente obtuvo
una cruz al tirar la moneda.
Bien, vayámonos al lugar del encuestador. ¿Para qué le sirve esto? Muy sencillo.
13 / 14
CURIOSIDADES SOBRE ESTADÍSTICA DESCRIPTIVA
Imaginemos que al repasar las respuestas ve que hay, por ejemplo, 14144 respuestas negativas. Por
el hecho de que tanto la probabilidad de obtener cara como la de obtener cruz al lanzar una moneda
es ½ , aproximadamente la mitad de los encuestados, unos 7500, habrán respondido “No” porque
les salió una cruz. Eliminando estas respuestas tenemos 14144­7500=6644 respuestas negativas que
se entiende que son sinceras de entre 15000­7500=7500 respuestas posibles. Eso nos da una
probabilidad de
P(no ver habitualmente los documentales de la2)=
6644
≃ 0,8857
7500
Es decir, que aproximadamente el 88,57% de los encuestados no ve habitualmente (dos o más veces
por semana) los documentales de La2.
14 / 14

Documentos relacionados