FCA Analisis Factorial de Correspondencias

Transcripción

ALGORITMO E IMPLEMENTACIÓN
DEL
ANÁLISIS FACTORIAL DE CORRESPONDENCIAS
William Castillo1 y Oldemar Rodrı́guez1
Abstract
En este artı́culo se presenta un algoritmo en pseudocódigo para el Análisis Factorial de de
Correspondecias (AFC). Se presentan también algunos comentarios sobre la implementación
desarrollada en C++. Finalmente se ilustra el método mediante un ejemplo.
Palabras clave: Tablas de contingencia, tablas cruzadas, perfiles, equivalencia distribucional,
contribuciones.
1
Introducción
El Análisis Factorial de Correspondencias -AFC, en adelante- fue historicamente concebido para
analizar tablas de contingencia., allá por los años sesentas. El modelo matemático de base fue
presentado por J.P. Benzécri en una lección del Colegio de Francia en 1962 [2]. Desde entonces
este método ha ocupado la atención de una gran cantidad de estadı́sticos y matemáticos quienes,
entre otros logros, han extendido su campo de aplicación a matrices de datos con entradas no
negativas, sumables por filas y columnas.
En este artı́culo se presentan los principales conceptos sobre el AFC enfatizando los aspectos
metodológicos, también se presenta una formulación algorı́tmica para la implementación computacional del método, ası́ como algunos detalles sobre el software que hemos implementado para este
método.* En la última sección se presenta un ejemplo detallado sobre el
2
Los datos y los objetivos
A partir de un ejemplo didáctico se presentan los conceptos fundamentales y los objetivos del
Análisis Factorial de Correspondencias.
Tabla de contingencia: Sean X y Y dos variables cualitativas con n y p modalidades respectivamente, definidas en una misma población de T individuos; la tabla -o tabla cruzada- asociada
con estas dos variables es la matriz de datos K = (kij )n×p donde la casilla kij es el número de
individuos que poseen simultáneamente la modalidad i de X y la modalidad j de Y .
1 Escuela
de Matemática, Universidad de Costa Rica.
8
Consideremos, con fines únicamente didácticos, la tabla siguiente, la cual cruza Colegio de procedencia (variable X) con Universidad escogida (variable Y).
Colegio
diurno-ofi
noct-ofi
diur-priv
noct-priv
bachi-madu
cole-extranj
sin inform
total
UCR
21088
2047
2044
133
0
250
3
25565
Universidad
ITCR UNA
2643
1991
274
388
213
121
16
31
0
85
90
53
18
34
3254
2703
UNED
1972
678
150
47
179
51
82
3159
total
27694
3387
2528
227
264
444
137
34681
El valor en una casilla, por ejemplo 21088, significa que en 1989 habı́an 21088 estudiantes matriculados en la UCR que provenı́an de colegios diurnos oficiales. En la última columna se inidican los
totales de fila y en la última fila los totales de columna
Objetivos del AFC: El AFC, igual que el ACP, puede ser usado para reducir la dimensión de los
datos conservando el máximo de información (inercia), en vista de análisis estadı́sticos posteriores
tales como clasificación automática y análisis discriminante.
Sin embargo nuestro interés principal en el marco de este trabajo es referirnos al potencial del
AFC para exhibir las relaciones entre las modalidades de las dos variables puestas en juego. Esta
posibilidad deriva del grado de asociación existente entre ambas variables, cuantificada clásicamente
con el estadı́stico llamado Chi-cuadrado, que es un indicador de carácter global. El enfoque del
AFC para el estudio de la dependencia de dos variables cualitativas X e Y, radica en la exploración
de las asociaciones entre las modalidades de una y otra variable, lo cual se aleja radicalmente de
la filosofı́a de la prueba de independencia con base en el estadı́stico Chi-cuadrado. Desglosamos
los objetivos del AFC, ası́:
(a) Al estilo del ACP, las modalidades de una misma variable, se representan en planos óptimales,
donde se pueden leer sus proximidades y oposiciones. Para cuantificar la proximidad entre
modalidades se usa una distancia euclı́dea llamada distancia Chi-cuadrado.
(b) Gracias a las fórmulas baricéntricas se pueden hacer representaciones simultáneas de las modalidades de ambas variables y ponerlas en relación. La cercanı́a u oposición de dos o más
modalidades de una variable puede, eventualmente, ser explicada por modalidades de la otra
variable.
Estas ideas se entienden mejor si nos remitimos a la tabla anterior. Si las dos variables fueran
independientes, el destino de los estudiantes no dependerı́a del colegio de procedencia y la distribución de la población estudiantil proveniente de los diferentes tipos de colegio, a través de las
universidades, serı́a aproximadamente igual para todos. De la misma manera, la distribución de la
población estudiantil de cada universidad a través de los tipos de colegio, serı́a aproximadamente
igual para todas. Es claro que, en ese caso, no habrı́a nada que analizar. Al final de la siguiente
sección se tratará nuevamente este concepto.
9
3
Perfiles y distancias
En AFC no se calculan las distancias directamente de la tabla K. Esta es transformada en dos
tablas: la tabla que tiene como filas los perfiles fila y la que tiene como filas los perfiles columna.
Y, las distancias entre modalidades se calculan a partir de estos perfiles.
Transformación de los datos en perfiles: para eliminar el efecto de las diferencias entre los
totales de las modalidades, sobre el cálculo de las distancias, se tranforman³ las filas de´la tabla
k
K de efectivos, en distribuciones porcentuales llamadas perfiles fila: pfi = kfi1i , . . . , fipi , donde
Pp
fi = j=1 kij es el total de la modalidad i de la variable X. En modo análogo se calculan los
³
´
Pn
kns
perfiles columna pcs = kc1s
,
.
.
.
,
donde cs = i=1 kis es el total de la modalidad s de la
cs
s
variable Y .
A modo de ejemplo notemos que la cantidad de estudiantes matriculados en las universidades
que provienen de colegios nocturnos oficiales es 3387, mientras que los provenientes de colegios
nocturnos privados son únicamente 227, una cifra insignificante comparada con 3387. Los perfiles
fila de estas dos modalidades de colegio son:
µ
noct-ofi =
2047 274 388 678
,
,
,
3387 3387 3387 3387
µ
noct-priv =
133 16 31 47
,
,
,
227 227 227 227
¶
= (0.604, 0.081, 0.115, 0.2)
¶
= (0.586, 0.07, 0.137, 0.207)
Se observa “a ojo” la gran similitud de estos dos perfiles. Hemos pasado de los efectivos a los
porcentajes para enfatizar la forma como se distribuyen las poblaciones y quitar el efecto provocado
por las diferencias entre los totales de las modalidades.
Distancia chi-cuadrado ( χ2 ): en la discusión anterior ha sido implı́cito que una modalidad es
identificada con su perfil. Ası́, la distancia entre modalidades es la distancia entre sus perfiles.
La fórmula para cuantificar el grado de proximidad entre perfiles, que se usa en AFC se llama
distancia chi-cuadrado definida, para el caso de los perfiles fila, por:
χ2 (pfi , pfl ) =
donde T =
P
i,j
µ
¶2
p
X
T kis
kls
−
c
fi
fl
s=1 s
kij es la población total. En modo análogo, la distancia entre perfiles columna es:
µ
¶2
n
X
T kis
kih
χ (pcr , pch ) =
−
f
cs
ch
i=1 i
2
Si evaluamos la proximidad entre noct-ofi y noct-priv, con la fórmula de la distancia euclı́dea usual,
a partir de la tabla de contingencia, tenemos:
2
2
2
(2047 − 133) + (274 − 16) + (388 − 31) + (678 − 47)
10
2
= 4255570.
Según ese resultado tendrı́amos que aceptar que los perfiles pertenecen a categorı́as distintas. No
obstante, haciendo el cálculo con la distancia Chi-cuadrado entre los perfiles correspondientes,
obtenemos un resultado radicalmente distinto.
2
2
noct : χ2 (noct-ofi, noct-priv) = 1.357 (0.604 − 0.586) + 1.066 (0.081 − 0.07) +
2
2
1.283 (0.115 − 0.137) + 10.978 (0.2 − 0.207) = 0.002
En realidad lo que ocurre es que estos dos tipos de colegios difieren únicamente por sus poblaciones
totales, no ası́ por la forma como se distribuyen estas poblaciones en las distintas universidades.
Lo primero siempre se puede observar de las columnas de totales de la tabla de datos, pero lo
segundo, no.
El principio de equivalencia distribucional: la presencia de modalidades de una variable
asociadas a un mismo fenómeno, y por tanto fuertemente correlacionadas, se traduce en perfiles
casi iguales, o equivalentemente, por una proporcionalidad aproximada entre filas o entre columnas
de K. Si calculáramos las distancias entre modalidades a partir de la tabla K, con la fórmula de la
distancia euclı́dea usual, las modalidades correlacionadas de una variable aportarı́an varias veces la
misma información a las distancias entre las modalidades de la otra variable. Corregimos este sesgo,
calculando la distancia entre modalidades a partir de sus perfiles, con la fórmula χ2 (Chi-dos), la
cual goza de la propiedad de equivalencia distribucional que se enuncia ası́:
Equivalencia distribucional : supongamos que dos perfiles columna son iguales, es decir: kcis
= kcih
s
h
e definida a partir de K por sustitución de las columnas s y h por la columna
∀ i. Sea la matriz K
³
´
t
fl , g
suma de ambas: (k1s + k1h , . . . , kns + knh ) . Entonces χ2 (pfl , pfr ) = χ2 pf
pfr ∀ l, r, donde
fl es el perfil de la modalidad l calculado con la tabla K.
e Análogamente se enuncia la propiedad
pf
intercambiando los roles de los perfiles fila y columna.
En la práctica esta propiedad se presenta en forma aproximada, lo cual significa que si dos modalidades de una variable son aproximadamente correlacionadas, el fusionarlas deja las distancias entre
los perfiles de las modalidades de la otra variable, aproximadamente iguales. Sin duda la propiedad
de equivalencia distribucional es la razón más importante que motiva el uso de la distancia χ2 .
El concepto de independencia : De la definición de independencia entre variables cualitativas,
más intuitiva que formal, dada en la sección anterior, se desprende que este concepto equivale
a la igualdad entre perfiles fila, lo cual a su vez implica la igualdad entre perfiles columna y
recı́procamente. Se obtiene de lo anterior una condición necesaria y suficiente de independencia o,
lo que es igual, otra definición. En efecto :
³
´ ³
´
c ·f
k
ksp
pfi = pfs equivale a kfi1i , . . . , fipi = kfs1
para todo i y s. De lo cual sigue que kij = jT i
,
.
.
.
,
fs
s
para todo i y j. Esto significa que bajo condiciones de independencia la tabla de contingencia serı́a
c ·f
H, con Hij = jT i . Ahora es claro que el Chi cuadrado de la tabla K, definido por:
χ2 (K) =
X (kij − Hij )2
Hij
i,j
es una medida global de las desviaciones con respecto a la hipótesis de independencia.
11
4
El modelo matemático de base
Como fue mencionado antes, el análisis de las relaciones entre modalidades es el principal objetivo
del AFC. Se busca entonces representar los perfiles por proyección ortogonal, sobre espacios de baja
dimensión, de modo que la configuración proyectada sea lo más próxima posible de la configuración
real. Se impone el recurso del ACP con la distancia χ2 .
ACP de los perfiles fila: la nube de perfiles se forma, naturalmente, por los perfiles fila a los
cuales se les asocian pesos proporcionales al tamaño de la modalidad. Es decir;
Nf = {(pfi , pi ) | i = 1, . . . , n}
¡
¢
es la nube de perfiles fila, donde pi = fTi . Haciendo el ACP del triplete Dp−1 F, Dq−1 , Dp se
obtienen las representaciones buscadas. Las notaciones introducidas son: F = T1 K, Dp = diag(pi ),
c
Dq =diag(qj ), qj = Tj . Es claro que con estas definiciones Dp−1 (Dq−1 , resp.) es la matriz que
2
induce la distancia χ entre perfiles fila (perfiles columna, resp.) y la matriz Dp−1 F tiene por filas
los perfiles fila. El diagrama de dualidad asociado a este ACP es:
D−1 F
Rn ¾ p
6
Dp
6
Dq−1
Wf
?
(Rn )∗
(Rp )∗
Vf
?
- Rp
(Dp−1 F )t
Por los resultados del ACP sabemos que los espacios óptimos son generados por los vectores propios
u1 , . . . , ud ,
Dq−1 −
ortonormados,
de
la
matriz
Vf Dq−1
=
h¡
i
¢
¡
¢
t
Dp−1 F Dp−1 Dp−1 F Dq−1 = F t Dp−1 F Dq−1 , asociados a los valores propios λ1 ≥ . . . ≥ λd > 0,
respectivamente.
ACP de los perfiles columna: este ACP es en todo análogo al de los perfiles fila. En efecto, la
nube de perfiles columna es:
Nc = {(pcj , qj ) | j = 1, . . . , p}
¡
¢
Haciendo el ACP del triplete Dq−1 F t , Dp−1 , Dq se obtienen las representaciones buscadas. El
diagrama de dualidad de este ACP es:
D−1 F t
Rp ¾ q
6
Dq
?
(Rp )∗
(Rn )∗
6
Dp−1
Wc
Vc
?
- Rn
(Dq−1 F t )t
12
Similarmente, los espacios óptimos son generados por los vectores propios v1 , . . . , vr , Dp−1 − ortonorh¡
¢t
¡
¢i
mados,
de
la
matriz
Vc Dp−1
=
Dq−1 F t Dq Dq−1 F t Dp−1
= F Dq−1 F t Dp−1 , asociados a los valores propios µ1 ≥ · · · ≥ µr > 0, respectivamente.
Usando las relaciones de dualidad obtenemos varios resultados de vital importancia en el ámbito de
la implementación computacional del AFC y la elaboración de mapas de representación simultánea
de las modalidades. Estos resultados son:
0
1. Los valores propios de los dos ACP s son iguales, esto es d = r y λi = µi pata todo i.
2. Si λ es cualquier valor propio del AFC entonces λ ∈ ]0, 1]. Además los centros de gravedad de
las nubes de perfiles fila y columna, Gf y Gc respectivamente, son vectores propios asociados
a 1.
3. Fórmulas baricéntricas: sea coorduα (pfi ) = pfi · Dq−1 · uα la coordenada del perfil pfi sobre
la recta determinada por el vector uα . Las fórmulas baricéntricas toman la forma,
Pp kij
(a) coorduα (pfi ) = √1λ
j=1 fi coordvα (pcj ) y
α
P
kij
n
(b) coordvα (pcj ) = √1λ
i=1 cj coorduα (pfi ).
α
Estas relaciones baricéntricas dicen que la coordenada de una modalidad de una variable -es decir,
un perfil- sobre un eje es, salvo por el factor √1λ , un promedio ponderado de las coordenadas de
α
las modalidades de la otra variable. Esta propiedad permite hacer una representación simultánea
de las modalidades de las dos variables e interpretar la proximidad de dos o más modalidades
de una de las variables, en función de las modalidades de la otra. A nivel de la implementación
computacional del AFC, estas fórmulas permiten hacer todos los cálculos a partir de uno solo de los
ACP0 s, facilitando muchı́simo los procesos de elaboración de software y aumentando la eficiencia
de los programas.
5
Interpretación de un AFC
La interpretación de un Análisis Factorial de Correspondencias tiene que ver con la selección de ejes
factoriales significativos, de puntos significativos y su representación plana; todo lo cual permite
visualizar las proximidades y oposiciones entre perfiles. Antes de formular los criterios de calidad
en 5.2 y 5.3, se verá que el AFC separa la tabla de contingencia en una suma de matrices según
los vectores propios.
5.1
Otros resultados en AFC
(a) Reconstrucción de la tabla de contingencia: La fórmula de reconstrucción de la tabla
de contingencia K, se escribe como:
K=H+
r
X
T
√ Dp · bs · gst · Dq
λs
s=2
donde:
13
a.1 H es la tabla de datos bajo condiciones de independencia.
a.2 r es el número de valores propios no nulos del AFC.
a.3 bs (resp. gs ) es el vector en columna, de las coordenadas de los perfiles fila (resp.
columna) sobre el eje s−ésimo del AFC.
Esta relación pone en evidencia que los factores del AFC reconstruyen, en orden de importancia
descendente, las desviaciones de los datos con respecto a la hipótesis de independencia : K −H = 0.
(b) Descomposición de la inercia: En AFC se establecen las relaciones
T · I Gf = T
r
X
λs = χ2 (K) =
s=1
r
X
χ2 (Hs )
s=1
P
Pn
(H (i,j)−H )2
2
donde : Hs = √Tλ Dp ·bs ·gst ·Dq , χ2 (Hs ) = i,j s Hij ij e IGf = i=1 pi kpfi − Gf kDq−1 .
s
Este resultado esclarece la relación entre la inercia y el Chi cuadrado e indica que la cantidad
χ2 (Hs ) , una suerte de Chi cuadrado para Hs , es la contribución al χ2 (K) aportado por el
eje s−ésimo. Ası́, los λs que son las inercias proyectadas sobre los ejes, tienen su análogo en
términos de las cantidades T1 χ2 (Hs ) cuya suma es T1 χ2 (K) .
5.2
Contribución y contribución relativa
Se presentan unos coeficientes indicativos de la relación de los perfiles con los ejes que nos permiten
depurar las representaciones. Se advierte que la primera dirección del AFC carece de interés puesto
que la proyección de los perfiles sobre la recta correspondiente, no depende de los datos.
Contribución: como se sabe, cada eje explica una parte de la inercia de la nube, que es justamente
la inercia de la nube proyectada sobre este eje. Ası́ por ejemplo, para los perfiles fila y el eje
determinado por uα tenemos:
Inercia proyectada = λα =
n
X
pi (coorduα (pfi ))
2
i=1
En virtud de esta relación es natural definir la contribución del perfil pfi al eje α−ésimo como
2
ctrα (i) =
2
pi (coorduα (pfi ))
fi (coorduα (pfi ))
=
.
λα
T λα
El número ctrα (i) es un indicador del aporte del perfil pfi a la inercia de la nube contenida en el
eje α−ésimo. Cuanto más grande sea ctrα (i), más contribuye el perfil a la construcción del eje.
En modo análogo la contribución de un perfil columna pcj al eje α−ésimo es
2
ctrα (j) =
2
cj (coordvα (pcj ))
qj (coordvα (pcj ))
=
λα
T λα
Los perfiles fila tales que ctrα (i) ≥
explicativos del eje α−ésimo.
1
n
y los perfiles columna tales que ctrα (j) ≥
14
1
p
se llaman puntos
Contribución relativa: se compara el cuadrado de la longitud de la proyección de un perfil sobre
un eje, con el cuadrado de la distancia del perfil al centro de gravedad. Para el caso de perfiles fila
la contribución relativa del eje α−ésimo al perfil pfi , es:
2
2
corr (θiα ) =
kP ruα (pfi )kDq−1
2
k(pfi − Gf )kDq−1
2
[coorduα (pfi )]
=P
³
´2
kij
cj
p
T
−
j=1 cj
fi
T
el cual se interpreta geométricamente como el cuadrado del coseno del ángulo formado por el eje
α−ésimo y el vector pfi − Gf . De la misma manera para el caso de perfiles columna, la contribución
relativa del eje α−ésimo al perfil pcj es:
2
2
corr (θjα ) =
kP rvα (pcj )kDp−1
2
k(pcj − Gc )kDp−1
2
[coordvα (pcj )]
=P
³
´2
kij
n
fi
T
−
i=1 fi
cj
T
Cuanto más grande sea corr2 (θiα ) , más especı́fico es el perfil pfi del eje α−ésimo. La misma
relación vale para los perfiles columna.
5.3
Selección de ejes y puntos
Selección del número de ejes: No existe ningún criterio definitivo para decir cuántos ejes
seleccionar. Todos son de carácter empı́rico. Una forma sencilla es fijar a priori un porcentaje de
inercia explicada
Pr por los ejes, digamos por ejemplo 75%, y se escogen los primeros r ejes tales que
λs
IE (r) = 100 Pds=1
≥ 75. Al ser este un criterio global, se aconseja controlarlo con un criterio
s=1
λs
local que involucre el porcentaje de inercia explicada por un eje: ie (r) = 100 Pdλr
≥
λs
s=1
Pr
m = min{n, p} . Obsérvese que IE (r) = h=1 ie (h) .
100
m−1
donde
Otro criterio empı́rico, también usado en ACP, es la “regla del codo” que consiste en construir un
histograma de los valores propios y determinar el punto donde la curva tiene una forma similar a
un codo. Esto es, escoger los primeros r ejes tales que a partir del valor propio λr , el histograma
es aproximadamente una función constante.
¡
¢2
P
kij −e
kij (t)
Un criterio de inspiración probabilı́stica consiste en considerar la cantidad D (t) = i,j
,
ekij (t)
donde e
kij (t) es la entrada de la matriz de contingencia aproximada con los primeros t ejes (ver
¡
¢2
P
Pt
kij j−e
kij (t)
e
4.1). Si se aproxima D (t) por D (t) i,j
= T i=1 λi entonces, bajo la hipótesis
kij (t)
e (t) se distribuye aproximadamente como
nula de que K se reconstruye con los primeros t ejes, D
2
χ (n − t − 1, p − t − 1) . El procedimiento consistirı́a en hacer varias pruebas con un nivel de confianza fijado a priori, y escoger los primeros r ejes tales que la prueba r−ésima es la primera que
permite no rechazar la hipótesis nula.
Selección de puntos explicativos: para el eje α−ésimo supongamos que las contribuciones
ctrα (i) están ordenadas en forma decreciente. Se escogen los h primeros puntos explicativos tales
Ph
que i=1 ctrα (i) ≥ d, donde dPes un número entre cero y uno, escogido a priori. El criterio para
g
los perfiles columna es igual: j=1 ctrα (j) ≥ d.
15
Selección de puntos explicados: los puntos fuertemente correlaciones con un eje se llaman
puntos explicados por este eje. Normalmente se toma 0.5 como valor lı́mite. Esto significa que
un perfil pfi es explicado por el eje α−ésimo, si corr2 (θiα ) ≥ 0.5. En modo análogo, un perfil pcj
es explicado por el eje α−ésimo, si corr2 (θjα ) ≥ 0.5.
Eventualmente un eje que explica muy poca inercia (no pasa el criterio de selección de ejes) puede
ser considerado dentro del análisis si existe algún perfil explicado por este eje, de modo tal que
se pueda afirmar que se trata de una dirección caracterı́stico de ese perfil.
6
El algoritmo del análisis factorial de correspondencias
Paso 1. Entrada de datos: Los datos de entrada se presentan bajo el formato de una matriz
K = (kij )n×p con las siguientes propiedades:
(a) kij ≥ 0; i = 1, ..., n; j = 1, ..., p.
(b) Se puede sumar por filas y columnas de K.
Pp
Pn
(c)
j=1 kij > 0 para todo i,
i=1 kij > 0 para todo j.
Paso 2. Calcular la matriz a diagonalizar
La matriz a diagonalizar es Z = (zjl )a×a tal que


zjl =

√1
cj cl
√1
fj fl
Pn
kij kil
i=1 fi
Pp kji kli
i=1 ci
donde:
Pna = p si p ≤ n y a = n en otro caso; fi =
cj = t=1 ktj es el total de la columna j de K.
si p ≤ n
si p > n
Pp
h=1
kih es el total de la fila i de K y
Paso 3. Cálculo de coordenadas
Paso 3.0 Calcular los valores y vectores propios de Z
Denotamos con w0 , w1 , . . . , wa los vectores propios de Z, Ia − ortonormados, asociados a los valores
propios 1 > λ2 ≥ · · · ≥ λa > 0. Entonces se tienen dos casos:
Paso 3.1 Primer caso: p ≤ n
Para i = 1, . . . , n y α = 1, . . . , a se calculan las coordenadas de los perfiles
fila mediante
la
³
´
− 12
− 12
kip
ki1
fórmula: coorduα (pfi ) = pfi Dq wα . Usando las formas explı́citas de pfi = fi . . . fi , Dq =
³q ´
T
diag
y wαt = (wα1 . . . wαp ) ; obtenemos una expresión para las coordenadas de los perfiles
cj
p×p
fila dependiendo de los wαj (i = 1, . . . n , α = 2, . . . , a):
16
√
p
T X kij wαj
.
√
fi j=1
cj
coorduα (pfi ) =
Para calcular las coordenadas de los perfiles columna se usan las fórmulas baricéntricas (j =
1, . . . , p, α = 2, . . . , a) se calcula:
coordvα (pcj ) =
n
X
1
√
cj λα
kij coorduα (pfi )
i=1
Paso 3.2 Segundo caso: p > n
Para j = 1, . . . p y α = 2, . . . , a se calculan las coordenadas de los perfiles columna mediante la
− 12
fórmula
wα . ´Análogamente al caso anterior, usando las expresiones de
³ : coordvα´(pcj ) =1 pcj Dp ³q
−2
knj
k1j
T
t
y de wαt = (wα1 . . . wαn ) se llega a :
pcj = cj . . . cj , Dp = diag
fi
n×n
√
coordvα (pcj ) =
n
T X kij wαi
√
cj i=1
fi
Las coordenadas de los pefiles fila se calculan por medio de las fórmulas baricéntricas:
coorduα (pfi ) =
p
X
1
√
f i λα
kij coordvα (pcj )
j=1
Paso 4. Ayudas a la interpretación
Paso 4.1 Para i = 1, ..., n y α = 2, ..., a
Paso 4.1.1 Calcular:
2
ctrα (i) =
2
fi [coorduα (pfi )]
[coorduα (pfi )]
y coor2 (θiα ) = P
³
´2
T λα
kij
cj
p
T
−
j=1 cj
fi
T
Paso 4.1.2 Para α = 2, ..., r:
(a) Crear una lista ordenada de las etiquetas de los perfiles fila según el orden decreciente de corr2 (θiα ).
(b) Crear una lista ordenada de las etiquetas de los perfiles fila según el orden decreciente de ctrα (i).
Paso 4.2 Para j = 1, ..., p y α = 2, ..., r
17
Paso 4.2.1 Calcular:
2
ctrα (j) =
2
cj [coordvα (pcj )]
[coordvα (pcj )]
y corr(θjα ) = P
³
´2
T λα
kij
n
fi
T
−
i=1 fi
cj
T
Paso 4.2.2 Para α = 1, ..., r:
(a) Crear una lista lista ordenada de las etiquetas de los perfiles columna según el orden
decreciente de corr2 (θjα ).
(b) Crear una lista lista ordenada de las etiquetas de los perfiles columna según el orden
decreciente de ctrα (j).
Paso 5. Representación en el espacio bidimensional: para hacer las representaciones de los
perfiles fila, de los perfiles columna y de las representaciones simultáneas, el usuario selecciona los
planos principales que desea. Dado γ ∈ ]0, 1[ (γ suministrado por el usuario):
Paso 5.1 Escoger desde la listas creadas en 4.1.2 los perfiles fila tales que coor2 (θiα ) ≥ γ los cuales
serán representados en los planos principales. Las coordenadas se calculan según las fórmulas
3.1 o 3.2.
Paso 5.2 Escoger desde la lista creada en 4.2.2 los perfiles columna tales que coor2 (θjα ) ≥ γ los
cuales serán representados en los planos principales. Las coordenadas se calculan según las
fórmulas 3.1 o 3.2.
Paso 5.3 Seleccionar perfiles y fila y columna simultáneamente para su representación, siguiendo
el mismo procedimiento que en 5.1 y 5.2.
7
Algunos detalles sobre la implementación
El algoritmo para el Análisis Factorial de Correspondencias presentado en la sección anterior
fue implementado en lenguaje C++ como un módulo más del sistema PIMAD 2.1, esto permitió
aprovechar el núcleo del sistema PIMAD para efectuar los Análisis en Componentes Principales que
son necesarios para el Análisis Factorial de Correspondencias y para generar el gráfico del Plano
Principal.
A igual que los demás modulos de PIMAD, este módulo debe ser ejecutado bajo Windows 3.1 o
Windows95.
El módulo de Análisis Factorial de Correspondencias está implementado de modo tal que puede ser
ejecutado con tablas de datos de cualquier tamaño, limitado solamente por la cantidad de memoria
del computador en donde se esté ejecutando.
En la Figura 1 se muestra la interfaz del sistema, en esta Figura se puede notar que los cálculos se
pueden realizar en forma directa a travéz de la barra de herramientas (tool-bar).
El algortimo de la sección anterior se puede también ejecutar paso por paso mediante el submenú
AFC-Paso-a-Paso, que se muestra en la Figura 2.
18
Figure 1: Interfaz del módulo AFC en PIMAD
Figure 2: Menú AFC-Paso-a-Paso en PIMAD
Tal como se muestra en la Figura 2 mediante la opción Calcular la matriz Z el programa ejecuta
el paso 2 del algoritmo presentado en la sección anterior, dejando la matriz Z en el archivo tipo
ASCII MATRIZ-Z.TXT. Con la opción Calcular los Vectores y Valores Propios se puede ejecutar el paso 3.0 del algoritmo, los valores propios quedarán almacenados en el archivo VALORP.TXT
y los vectores propios en el archivo VECTORP.TXT. Con la opción Calcular Coordenadas se pueden
ejecutar los pasos 3.1 y 3.2 del algoritmo, las coordenadas de los perfiles fila y columna quedan
en el archivo COORDENA.TXT. Con la opción Graficar el Plano Principal... se despliega por
pantalla el plano principal, tal como se presenta en la Figura 3.
Una vez graficado el plano principal, mediante las opciones Calcular Contribuciones Absolutas
y Calcular Contribuciones Relativas se puede ejecutar el paso 4 del algoritmo de la sección
anterior. Las contribuciones se almacenan en el archivo ASCII C-ABOLU.TXT y las contribuciones
relativas en el archivo C-RELATI.TXT.
19
Figure 3: Plano Principal
20

FCA Analisis Factorial de Correspondencias

Transcripción

Documentos relacionados

CHP-1730 Descripción: - Carro horizontal porta perfiles para la

La Agencia de Certificación Profesional certificará sus primeros

Perfiles U Pequeños

p er f il es eq u ip odetrabajod ir ec c iì ndeart ic ulac iì nyg est iì n

perfiles

guía para el cambio de perfiles - Sigep