FCA Analisis Factorial de Correspondencias

Transcripción

FCA Analisis Factorial de Correspondencias
ALGORITMO E IMPLEMENTACIÓN
DEL
ANÁLISIS FACTORIAL DE CORRESPONDENCIAS
William Castillo1 y Oldemar Rodrı́guez1
Abstract
En este artı́culo se presenta un algoritmo en pseudocódigo para el Análisis Factorial de de
Correspondecias (AFC). Se presentan también algunos comentarios sobre la implementación
desarrollada en C++. Finalmente se ilustra el método mediante un ejemplo.
Palabras clave: Tablas de contingencia, tablas cruzadas, perfiles, equivalencia distribucional,
contribuciones.
1
Introducción
El Análisis Factorial de Correspondencias -AFC, en adelante- fue historicamente concebido para
analizar tablas de contingencia., allá por los años sesentas. El modelo matemático de base fue
presentado por J.P. Benzécri en una lección del Colegio de Francia en 1962 [2]. Desde entonces
este método ha ocupado la atención de una gran cantidad de estadı́sticos y matemáticos quienes,
entre otros logros, han extendido su campo de aplicación a matrices de datos con entradas no
negativas, sumables por filas y columnas.
En este artı́culo se presentan los principales conceptos sobre el AFC enfatizando los aspectos
metodológicos, también se presenta una formulación algorı́tmica para la implementación computacional del método, ası́ como algunos detalles sobre el software que hemos implementado para este
método.* En la última sección se presenta un ejemplo detallado sobre el
2
Los datos y los objetivos
A partir de un ejemplo didáctico se presentan los conceptos fundamentales y los objetivos del
Análisis Factorial de Correspondencias.
Tabla de contingencia: Sean X y Y dos variables cualitativas con n y p modalidades respectivamente, definidas en una misma población de T individuos; la tabla -o tabla cruzada- asociada
con estas dos variables es la matriz de datos K = (kij )n×p donde la casilla kij es el número de
individuos que poseen simultáneamente la modalidad i de X y la modalidad j de Y .
1 Escuela
de Matemática, Universidad de Costa Rica.
8
Consideremos, con fines únicamente didácticos, la tabla siguiente, la cual cruza Colegio de procedencia (variable X) con Universidad escogida (variable Y).
Colegio
diurno-ofi
noct-ofi
diur-priv
noct-priv
bachi-madu
cole-extranj
sin inform
total
UCR
21088
2047
2044
133
0
250
3
25565
Universidad
ITCR UNA
2643
1991
274
388
213
121
16
31
0
85
90
53
18
34
3254
2703
UNED
1972
678
150
47
179
51
82
3159
total
27694
3387
2528
227
264
444
137
34681
El valor en una casilla, por ejemplo 21088, significa que en 1989 habı́an 21088 estudiantes matriculados en la UCR que provenı́an de colegios diurnos oficiales. En la última columna se inidican los
totales de fila y en la última fila los totales de columna
Objetivos del AFC: El AFC, igual que el ACP, puede ser usado para reducir la dimensión de los
datos conservando el máximo de información (inercia), en vista de análisis estadı́sticos posteriores
tales como clasificación automática y análisis discriminante.
Sin embargo nuestro interés principal en el marco de este trabajo es referirnos al potencial del
AFC para exhibir las relaciones entre las modalidades de las dos variables puestas en juego. Esta
posibilidad deriva del grado de asociación existente entre ambas variables, cuantificada clásicamente
con el estadı́stico llamado Chi-cuadrado, que es un indicador de carácter global. El enfoque del
AFC para el estudio de la dependencia de dos variables cualitativas X e Y, radica en la exploración
de las asociaciones entre las modalidades de una y otra variable, lo cual se aleja radicalmente de
la filosofı́a de la prueba de independencia con base en el estadı́stico Chi-cuadrado. Desglosamos
los objetivos del AFC, ası́:
(a) Al estilo del ACP, las modalidades de una misma variable, se representan en planos óptimales,
donde se pueden leer sus proximidades y oposiciones. Para cuantificar la proximidad entre
modalidades se usa una distancia euclı́dea llamada distancia Chi-cuadrado.
(b) Gracias a las fórmulas baricéntricas se pueden hacer representaciones simultáneas de las modalidades de ambas variables y ponerlas en relación. La cercanı́a u oposición de dos o más
modalidades de una variable puede, eventualmente, ser explicada por modalidades de la otra
variable.
Estas ideas se entienden mejor si nos remitimos a la tabla anterior. Si las dos variables fueran
independientes, el destino de los estudiantes no dependerı́a del colegio de procedencia y la distribución de la población estudiantil proveniente de los diferentes tipos de colegio, a través de las
universidades, serı́a aproximadamente igual para todos. De la misma manera, la distribución de la
población estudiantil de cada universidad a través de los tipos de colegio, serı́a aproximadamente
igual para todas. Es claro que, en ese caso, no habrı́a nada que analizar. Al final de la siguiente
sección se tratará nuevamente este concepto.
9
3
Perfiles y distancias
En AFC no se calculan las distancias directamente de la tabla K. Esta es transformada en dos
tablas: la tabla que tiene como filas los perfiles fila y la que tiene como filas los perfiles columna.
Y, las distancias entre modalidades se calculan a partir de estos perfiles.
Transformación de los datos en perfiles: para eliminar el efecto de las diferencias entre los
totales de las modalidades, sobre el cálculo de las distancias, se tranforman³ las filas de´la tabla
k
K de efectivos, en distribuciones porcentuales llamadas perfiles fila: pfi = kfi1i , . . . , fipi , donde
Pp
fi = j=1 kij es el total de la modalidad i de la variable X. En modo análogo se calculan los
³
´
Pn
kns
perfiles columna pcs = kc1s
,
.
.
.
,
donde cs = i=1 kis es el total de la modalidad s de la
cs
s
variable Y .
A modo de ejemplo notemos que la cantidad de estudiantes matriculados en las universidades
que provienen de colegios nocturnos oficiales es 3387, mientras que los provenientes de colegios
nocturnos privados son únicamente 227, una cifra insignificante comparada con 3387. Los perfiles
fila de estas dos modalidades de colegio son:
µ
noct-ofi =
2047 274 388 678
,
,
,
3387 3387 3387 3387
µ
noct-priv =
133 16 31 47
,
,
,
227 227 227 227
¶
= (0.604, 0.081, 0.115, 0.2)
¶
= (0.586, 0.07, 0.137, 0.207)
Se observa “a ojo” la gran similitud de estos dos perfiles. Hemos pasado de los efectivos a los
porcentajes para enfatizar la forma como se distribuyen las poblaciones y quitar el efecto provocado
por las diferencias entre los totales de las modalidades.
Distancia chi-cuadrado ( χ2 ): en la discusión anterior ha sido implı́cito que una modalidad es
identificada con su perfil. Ası́, la distancia entre modalidades es la distancia entre sus perfiles.
La fórmula para cuantificar el grado de proximidad entre perfiles, que se usa en AFC se llama
distancia chi-cuadrado definida, para el caso de los perfiles fila, por:
χ2 (pfi , pfl ) =
donde T =
P
i,j
µ
¶2
p
X
T kis
kls
−
c
fi
fl
s=1 s
kij es la población total. En modo análogo, la distancia entre perfiles columna es:
µ
¶2
n
X
T kis
kih
χ (pcr , pch ) =
−
f
cs
ch
i=1 i
2
Si evaluamos la proximidad entre noct-ofi y noct-priv, con la fórmula de la distancia euclı́dea usual,
a partir de la tabla de contingencia, tenemos:
2
2
2
(2047 − 133) + (274 − 16) + (388 − 31) + (678 − 47)
10
2
= 4255570.
Según ese resultado tendrı́amos que aceptar que los perfiles pertenecen a categorı́as distintas. No
obstante, haciendo el cálculo con la distancia Chi-cuadrado entre los perfiles correspondientes,
obtenemos un resultado radicalmente distinto.
2
2
noct : χ2 (noct-ofi, noct-priv) = 1.357 (0.604 − 0.586) + 1.066 (0.081 − 0.07) +
2
2
1.283 (0.115 − 0.137) + 10.978 (0.2 − 0.207) = 0.002
En realidad lo que ocurre es que estos dos tipos de colegios difieren únicamente por sus poblaciones
totales, no ası́ por la forma como se distribuyen estas poblaciones en las distintas universidades.
Lo primero siempre se puede observar de las columnas de totales de la tabla de datos, pero lo
segundo, no.
El principio de equivalencia distribucional: la presencia de modalidades de una variable
asociadas a un mismo fenómeno, y por tanto fuertemente correlacionadas, se traduce en perfiles
casi iguales, o equivalentemente, por una proporcionalidad aproximada entre filas o entre columnas
de K. Si calculáramos las distancias entre modalidades a partir de la tabla K, con la fórmula de la
distancia euclı́dea usual, las modalidades correlacionadas de una variable aportarı́an varias veces la
misma información a las distancias entre las modalidades de la otra variable. Corregimos este sesgo,
calculando la distancia entre modalidades a partir de sus perfiles, con la fórmula χ2 (Chi-dos), la
cual goza de la propiedad de equivalencia distribucional que se enuncia ası́:
Equivalencia distribucional : supongamos que dos perfiles columna son iguales, es decir: kcis
= kcih
s
h
e definida a partir de K por sustitución de las columnas s y h por la columna
∀ i. Sea la matriz K
³
´
t
fl , g
suma de ambas: (k1s + k1h , . . . , kns + knh ) . Entonces χ2 (pfl , pfr ) = χ2 pf
pfr ∀ l, r, donde
fl es el perfil de la modalidad l calculado con la tabla K.
e Análogamente se enuncia la propiedad
pf
intercambiando los roles de los perfiles fila y columna.
En la práctica esta propiedad se presenta en forma aproximada, lo cual significa que si dos modalidades de una variable son aproximadamente correlacionadas, el fusionarlas deja las distancias entre
los perfiles de las modalidades de la otra variable, aproximadamente iguales. Sin duda la propiedad
de equivalencia distribucional es la razón más importante que motiva el uso de la distancia χ2 .
El concepto de independencia : De la definición de independencia entre variables cualitativas,
más intuitiva que formal, dada en la sección anterior, se desprende que este concepto equivale
a la igualdad entre perfiles fila, lo cual a su vez implica la igualdad entre perfiles columna y
recı́procamente. Se obtiene de lo anterior una condición necesaria y suficiente de independencia o,
lo que es igual, otra definición. En efecto :
³
´ ³
´
c ·f
k
ksp
pfi = pfs equivale a kfi1i , . . . , fipi = kfs1
para todo i y s. De lo cual sigue que kij = jT i
,
.
.
.
,
fs
s
para todo i y j. Esto significa que bajo condiciones de independencia la tabla de contingencia serı́a
c ·f
H, con Hij = jT i . Ahora es claro que el Chi cuadrado de la tabla K, definido por:
χ2 (K) =
X (kij − Hij )2
Hij
i,j
es una medida global de las desviaciones con respecto a la hipótesis de independencia.
11
4
El modelo matemático de base
Como fue mencionado antes, el análisis de las relaciones entre modalidades es el principal objetivo
del AFC. Se busca entonces representar los perfiles por proyección ortogonal, sobre espacios de baja
dimensión, de modo que la configuración proyectada sea lo más próxima posible de la configuración
real. Se impone el recurso del ACP con la distancia χ2 .
ACP de los perfiles fila: la nube de perfiles se forma, naturalmente, por los perfiles fila a los
cuales se les asocian pesos proporcionales al tamaño de la modalidad. Es decir;
Nf = {(pfi , pi ) | i = 1, . . . , n}
¡
¢
es la nube de perfiles fila, donde pi = fTi . Haciendo el ACP del triplete Dp−1 F, Dq−1 , Dp se
obtienen las representaciones buscadas. Las notaciones introducidas son: F = T1 K, Dp = diag(pi ),
c
Dq =diag(qj ), qj = Tj . Es claro que con estas definiciones Dp−1 (Dq−1 , resp.) es la matriz que
2
induce la distancia χ entre perfiles fila (perfiles columna, resp.) y la matriz Dp−1 F tiene por filas
los perfiles fila. El diagrama de dualidad asociado a este ACP es:
D−1 F
Rn ¾ p
6
Dp
6
Dq−1
Wf
?
(Rn )∗
(Rp )∗
Vf
?
- Rp
(Dp−1 F )t
Por los resultados del ACP sabemos que los espacios óptimos son generados por los vectores propios
u1 , . . . , ud ,
Dq−1 −
ortonormados,
de
la
matriz
Vf Dq−1
=
h¡
i
¢
¡
¢
t
Dp−1 F Dp−1 Dp−1 F Dq−1 = F t Dp−1 F Dq−1 , asociados a los valores propios λ1 ≥ . . . ≥ λd > 0,
respectivamente.
ACP de los perfiles columna: este ACP es en todo análogo al de los perfiles fila. En efecto, la
nube de perfiles columna es:
Nc = {(pcj , qj ) | j = 1, . . . , p}
¡
¢
Haciendo el ACP del triplete Dq−1 F t , Dp−1 , Dq se obtienen las representaciones buscadas. El
diagrama de dualidad de este ACP es:
D−1 F t
Rp ¾ q
6
Dq
?
(Rp )∗
(Rn )∗
6
Dp−1
Wc
Vc
?
- Rn
(Dq−1 F t )t
12
Similarmente, los espacios óptimos son generados por los vectores propios v1 , . . . , vr , Dp−1 − ortonorh¡
¢t
¡
¢i
mados,
de
la
matriz
Vc Dp−1
=
Dq−1 F t Dq Dq−1 F t Dp−1
= F Dq−1 F t Dp−1 , asociados a los valores propios µ1 ≥ · · · ≥ µr > 0, respectivamente.
Usando las relaciones de dualidad obtenemos varios resultados de vital importancia en el ámbito de
la implementación computacional del AFC y la elaboración de mapas de representación simultánea
de las modalidades. Estos resultados son:
0
1. Los valores propios de los dos ACP s son iguales, esto es d = r y λi = µi pata todo i.
2. Si λ es cualquier valor propio del AFC entonces λ ∈ ]0, 1]. Además los centros de gravedad de
las nubes de perfiles fila y columna, Gf y Gc respectivamente, son vectores propios asociados
a 1.
3. Fórmulas baricéntricas: sea coorduα (pfi ) = pfi · Dq−1 · uα la coordenada del perfil pfi sobre
la recta determinada por el vector uα . Las fórmulas baricéntricas toman la forma,
Pp kij
(a) coorduα (pfi ) = √1λ
j=1 fi coordvα (pcj ) y
α
P
kij
n
(b) coordvα (pcj ) = √1λ
i=1 cj coorduα (pfi ).
α
Estas relaciones baricéntricas dicen que la coordenada de una modalidad de una variable -es decir,
un perfil- sobre un eje es, salvo por el factor √1λ , un promedio ponderado de las coordenadas de
α
las modalidades de la otra variable. Esta propiedad permite hacer una representación simultánea
de las modalidades de las dos variables e interpretar la proximidad de dos o más modalidades
de una de las variables, en función de las modalidades de la otra. A nivel de la implementación
computacional del AFC, estas fórmulas permiten hacer todos los cálculos a partir de uno solo de los
ACP0 s, facilitando muchı́simo los procesos de elaboración de software y aumentando la eficiencia
de los programas.
5
Interpretación de un AFC
La interpretación de un Análisis Factorial de Correspondencias tiene que ver con la selección de ejes
factoriales significativos, de puntos significativos y su representación plana; todo lo cual permite
visualizar las proximidades y oposiciones entre perfiles. Antes de formular los criterios de calidad
en 5.2 y 5.3, se verá que el AFC separa la tabla de contingencia en una suma de matrices según
los vectores propios.
5.1
Otros resultados en AFC
(a) Reconstrucción de la tabla de contingencia: La fórmula de reconstrucción de la tabla
de contingencia K, se escribe como:
K=H+
r
X
T
√ Dp · bs · gst · Dq
λs
s=2
donde:
13
a.1 H es la tabla de datos bajo condiciones de independencia.
a.2 r es el número de valores propios no nulos del AFC.
a.3 bs (resp. gs ) es el vector en columna, de las coordenadas de los perfiles fila (resp.
columna) sobre el eje s−ésimo del AFC.
Esta relación pone en evidencia que los factores del AFC reconstruyen, en orden de importancia
descendente, las desviaciones de los datos con respecto a la hipótesis de independencia : K −H = 0.
(b) Descomposición de la inercia: En AFC se establecen las relaciones
T · I Gf = T
r
X
λs = χ2 (K) =
s=1
r
X
χ2 (Hs )
s=1
P
Pn
(H (i,j)−H )2
2
donde : Hs = √Tλ Dp ·bs ·gst ·Dq , χ2 (Hs ) = i,j s Hij ij e IGf = i=1 pi kpfi − Gf kDq−1 .
s
Este resultado esclarece la relación entre la inercia y el Chi cuadrado e indica que la cantidad
χ2 (Hs ) , una suerte de Chi cuadrado para Hs , es la contribución al χ2 (K) aportado por el
eje s−ésimo. Ası́, los λs que son las inercias proyectadas sobre los ejes, tienen su análogo en
términos de las cantidades T1 χ2 (Hs ) cuya suma es T1 χ2 (K) .
5.2
Contribución y contribución relativa
Se presentan unos coeficientes indicativos de la relación de los perfiles con los ejes que nos permiten
depurar las representaciones. Se advierte que la primera dirección del AFC carece de interés puesto
que la proyección de los perfiles sobre la recta correspondiente, no depende de los datos.
Contribución: como se sabe, cada eje explica una parte de la inercia de la nube, que es justamente
la inercia de la nube proyectada sobre este eje. Ası́ por ejemplo, para los perfiles fila y el eje
determinado por uα tenemos:
Inercia proyectada = λα =
n
X
pi (coorduα (pfi ))
2
i=1
En virtud de esta relación es natural definir la contribución del perfil pfi al eje α−ésimo como
2
ctrα (i) =
2
pi (coorduα (pfi ))
fi (coorduα (pfi ))
=
.
λα
T λα
El número ctrα (i) es un indicador del aporte del perfil pfi a la inercia de la nube contenida en el
eje α−ésimo. Cuanto más grande sea ctrα (i), más contribuye el perfil a la construcción del eje.
En modo análogo la contribución de un perfil columna pcj al eje α−ésimo es
2
ctrα (j) =
2
cj (coordvα (pcj ))
qj (coordvα (pcj ))
=
λα
T λα
Los perfiles fila tales que ctrα (i) ≥
explicativos del eje α−ésimo.
1
n
y los perfiles columna tales que ctrα (j) ≥
14
1
p
se llaman puntos
Contribución relativa: se compara el cuadrado de la longitud de la proyección de un perfil sobre
un eje, con el cuadrado de la distancia del perfil al centro de gravedad. Para el caso de perfiles fila
la contribución relativa del eje α−ésimo al perfil pfi , es:
2
2
corr (θiα ) =
kP ruα (pfi )kDq−1
2
k(pfi − Gf )kDq−1
2
[coorduα (pfi )]
=P
³
´2
kij
cj
p
T
−
j=1 cj
fi
T
el cual se interpreta geométricamente como el cuadrado del coseno del ángulo formado por el eje
α−ésimo y el vector pfi − Gf . De la misma manera para el caso de perfiles columna, la contribución
relativa del eje α−ésimo al perfil pcj es:
2
2
corr (θjα ) =
kP rvα (pcj )kDp−1
2
k(pcj − Gc )kDp−1
2
[coordvα (pcj )]
=P
³
´2
kij
n
fi
T
−
i=1 fi
cj
T
Cuanto más grande sea corr2 (θiα ) , más especı́fico es el perfil pfi del eje α−ésimo. La misma
relación vale para los perfiles columna.
5.3
Selección de ejes y puntos
Selección del número de ejes: No existe ningún criterio definitivo para decir cuántos ejes
seleccionar. Todos son de carácter empı́rico. Una forma sencilla es fijar a priori un porcentaje de
inercia explicada
Pr por los ejes, digamos por ejemplo 75%, y se escogen los primeros r ejes tales que
λs
IE (r) = 100 Pds=1
≥ 75. Al ser este un criterio global, se aconseja controlarlo con un criterio
s=1
λs
local que involucre el porcentaje de inercia explicada por un eje: ie (r) = 100 Pdλr
≥
λs
s=1
Pr
m = min{n, p} . Obsérvese que IE (r) = h=1 ie (h) .
100
m−1
donde
Otro criterio empı́rico, también usado en ACP, es la “regla del codo” que consiste en construir un
histograma de los valores propios y determinar el punto donde la curva tiene una forma similar a
un codo. Esto es, escoger los primeros r ejes tales que a partir del valor propio λr , el histograma
es aproximadamente una función constante.
¡
¢2
P
kij −e
kij (t)
Un criterio de inspiración probabilı́stica consiste en considerar la cantidad D (t) = i,j
,
ekij (t)
donde e
kij (t) es la entrada de la matriz de contingencia aproximada con los primeros t ejes (ver
¡
¢2
P
Pt
kij j−e
kij (t)
e
4.1). Si se aproxima D (t) por D (t) i,j
= T i=1 λi entonces, bajo la hipótesis
kij (t)
e (t) se distribuye aproximadamente como
nula de que K se reconstruye con los primeros t ejes, D
2
χ (n − t − 1, p − t − 1) . El procedimiento consistirı́a en hacer varias pruebas con un nivel de confianza fijado a priori, y escoger los primeros r ejes tales que la prueba r−ésima es la primera que
permite no rechazar la hipótesis nula.
Selección de puntos explicativos: para el eje α−ésimo supongamos que las contribuciones
ctrα (i) están ordenadas en forma decreciente. Se escogen los h primeros puntos explicativos tales
Ph
que i=1 ctrα (i) ≥ d, donde dPes un número entre cero y uno, escogido a priori. El criterio para
g
los perfiles columna es igual: j=1 ctrα (j) ≥ d.
15
Selección de puntos explicados: los puntos fuertemente correlaciones con un eje se llaman
puntos explicados por este eje. Normalmente se toma 0.5 como valor lı́mite. Esto significa que
un perfil pfi es explicado por el eje α−ésimo, si corr2 (θiα ) ≥ 0.5. En modo análogo, un perfil pcj
es explicado por el eje α−ésimo, si corr2 (θjα ) ≥ 0.5.
Eventualmente un eje que explica muy poca inercia (no pasa el criterio de selección de ejes) puede
ser considerado dentro del análisis si existe algún perfil explicado por este eje, de modo tal que
se pueda afirmar que se trata de una dirección caracterı́stico de ese perfil.
6
El algoritmo del análisis factorial de correspondencias
Paso 1. Entrada de datos: Los datos de entrada se presentan bajo el formato de una matriz
K = (kij )n×p con las siguientes propiedades:
(a) kij ≥ 0; i = 1, ..., n; j = 1, ..., p.
(b) Se puede sumar por filas y columnas de K.
Pp
Pn
(c)
j=1 kij > 0 para todo i,
i=1 kij > 0 para todo j.
Paso 2. Calcular la matriz a diagonalizar
La matriz a diagonalizar es Z = (zjl )a×a tal que


zjl =

√1
cj cl
√1
fj fl
Pn
kij kil
i=1 fi
Pp kji kli
i=1 ci
donde:
Pna = p si p ≤ n y a = n en otro caso; fi =
cj = t=1 ktj es el total de la columna j de K.
si p ≤ n
si p > n
Pp
h=1
kih es el total de la fila i de K y
Paso 3. Cálculo de coordenadas
Paso 3.0 Calcular los valores y vectores propios de Z
Denotamos con w0 , w1 , . . . , wa los vectores propios de Z, Ia − ortonormados, asociados a los valores
propios 1 > λ2 ≥ · · · ≥ λa > 0. Entonces se tienen dos casos:
Paso 3.1 Primer caso: p ≤ n
Para i = 1, . . . , n y α = 1, . . . , a se calculan las coordenadas de los perfiles
fila mediante
la
³
´
− 12
− 12
kip
ki1
fórmula: coorduα (pfi ) = pfi Dq wα . Usando las formas explı́citas de pfi = fi . . . fi , Dq =
³q ´
T
diag
y wαt = (wα1 . . . wαp ) ; obtenemos una expresión para las coordenadas de los perfiles
cj
p×p
fila dependiendo de los wαj (i = 1, . . . n , α = 2, . . . , a):
16
√
p
T X kij wαj
.
√
fi j=1
cj
coorduα (pfi ) =
Para calcular las coordenadas de los perfiles columna se usan las fórmulas baricéntricas (j =
1, . . . , p, α = 2, . . . , a) se calcula:
coordvα (pcj ) =
n
X
1
√
cj λα
kij coorduα (pfi )
i=1
Paso 3.2 Segundo caso: p > n
Para j = 1, . . . p y α = 2, . . . , a se calculan las coordenadas de los perfiles columna mediante la
− 12
fórmula
wα . ´Análogamente al caso anterior, usando las expresiones de
³ : coordvα´(pcj ) =1 pcj Dp ³q
−2
knj
k1j
T
t
y de wαt = (wα1 . . . wαn ) se llega a :
pcj = cj . . . cj , Dp = diag
fi
n×n
√
coordvα (pcj ) =
n
T X kij wαi
√
cj i=1
fi
Las coordenadas de los pefiles fila se calculan por medio de las fórmulas baricéntricas:
coorduα (pfi ) =
p
X
1
√
f i λα
kij coordvα (pcj )
j=1
Paso 4. Ayudas a la interpretación
Paso 4.1 Para i = 1, ..., n y α = 2, ..., a
Paso 4.1.1 Calcular:
2
ctrα (i) =
2
fi [coorduα (pfi )]
[coorduα (pfi )]
y coor2 (θiα ) = P
³
´2
T λα
kij
cj
p
T
−
j=1 cj
fi
T
Paso 4.1.2 Para α = 2, ..., r:
(a) Crear una lista ordenada de las etiquetas de los perfiles fila según el orden decreciente de corr2 (θiα ).
(b) Crear una lista ordenada de las etiquetas de los perfiles fila según el orden decreciente de ctrα (i).
Paso 4.2 Para j = 1, ..., p y α = 2, ..., r
17
Paso 4.2.1 Calcular:
2
ctrα (j) =
2
cj [coordvα (pcj )]
[coordvα (pcj )]
y corr(θjα ) = P
³
´2
T λα
kij
n
fi
T
−
i=1 fi
cj
T
Paso 4.2.2 Para α = 1, ..., r:
(a) Crear una lista lista ordenada de las etiquetas de los perfiles columna según el orden
decreciente de corr2 (θjα ).
(b) Crear una lista lista ordenada de las etiquetas de los perfiles columna según el orden
decreciente de ctrα (j).
Paso 5. Representación en el espacio bidimensional: para hacer las representaciones de los
perfiles fila, de los perfiles columna y de las representaciones simultáneas, el usuario selecciona los
planos principales que desea. Dado γ ∈ ]0, 1[ (γ suministrado por el usuario):
Paso 5.1 Escoger desde la listas creadas en 4.1.2 los perfiles fila tales que coor2 (θiα ) ≥ γ los cuales
serán representados en los planos principales. Las coordenadas se calculan según las fórmulas
3.1 o 3.2.
Paso 5.2 Escoger desde la lista creada en 4.2.2 los perfiles columna tales que coor2 (θjα ) ≥ γ los
cuales serán representados en los planos principales. Las coordenadas se calculan según las
fórmulas 3.1 o 3.2.
Paso 5.3 Seleccionar perfiles y fila y columna simultáneamente para su representación, siguiendo
el mismo procedimiento que en 5.1 y 5.2.
7
Algunos detalles sobre la implementación
El algoritmo para el Análisis Factorial de Correspondencias presentado en la sección anterior
fue implementado en lenguaje C++ como un módulo más del sistema PIMAD 2.1, esto permitió
aprovechar el núcleo del sistema PIMAD para efectuar los Análisis en Componentes Principales que
son necesarios para el Análisis Factorial de Correspondencias y para generar el gráfico del Plano
Principal.
A igual que los demás modulos de PIMAD, este módulo debe ser ejecutado bajo Windows 3.1 o
Windows95.
El módulo de Análisis Factorial de Correspondencias está implementado de modo tal que puede ser
ejecutado con tablas de datos de cualquier tamaño, limitado solamente por la cantidad de memoria
del computador en donde se esté ejecutando.
En la Figura 1 se muestra la interfaz del sistema, en esta Figura se puede notar que los cálculos se
pueden realizar en forma directa a travéz de la barra de herramientas (tool-bar).
El algortimo de la sección anterior se puede también ejecutar paso por paso mediante el submenú
AFC-Paso-a-Paso, que se muestra en la Figura 2.
18
Figure 1: Interfaz del módulo AFC en PIMAD
Figure 2: Menú AFC-Paso-a-Paso en PIMAD
Tal como se muestra en la Figura 2 mediante la opción Calcular la matriz Z el programa ejecuta
el paso 2 del algoritmo presentado en la sección anterior, dejando la matriz Z en el archivo tipo
ASCII MATRIZ-Z.TXT. Con la opción Calcular los Vectores y Valores Propios se puede ejecutar el paso 3.0 del algoritmo, los valores propios quedarán almacenados en el archivo VALORP.TXT
y los vectores propios en el archivo VECTORP.TXT. Con la opción Calcular Coordenadas se pueden
ejecutar los pasos 3.1 y 3.2 del algoritmo, las coordenadas de los perfiles fila y columna quedan
en el archivo COORDENA.TXT. Con la opción Graficar el Plano Principal... se despliega por
pantalla el plano principal, tal como se presenta en la Figura 3.
Una vez graficado el plano principal, mediante las opciones Calcular Contribuciones Absolutas
y Calcular Contribuciones Relativas se puede ejecutar el paso 4 del algoritmo de la sección
anterior. Las contribuciones se almacenan en el archivo ASCII C-ABOLU.TXT y las contribuciones
relativas en el archivo C-RELATI.TXT.
19
Figure 3: Plano Principal
20

Documentos relacionados