FCA Analisis Factorial de Correspondencias
Transcripción
FCA Analisis Factorial de Correspondencias
ALGORITMO E IMPLEMENTACIÓN DEL ANÁLISIS FACTORIAL DE CORRESPONDENCIAS William Castillo1 y Oldemar Rodrı́guez1 Abstract En este artı́culo se presenta un algoritmo en pseudocódigo para el Análisis Factorial de de Correspondecias (AFC). Se presentan también algunos comentarios sobre la implementación desarrollada en C++. Finalmente se ilustra el método mediante un ejemplo. Palabras clave: Tablas de contingencia, tablas cruzadas, perfiles, equivalencia distribucional, contribuciones. 1 Introducción El Análisis Factorial de Correspondencias -AFC, en adelante- fue historicamente concebido para analizar tablas de contingencia., allá por los años sesentas. El modelo matemático de base fue presentado por J.P. Benzécri en una lección del Colegio de Francia en 1962 [2]. Desde entonces este método ha ocupado la atención de una gran cantidad de estadı́sticos y matemáticos quienes, entre otros logros, han extendido su campo de aplicación a matrices de datos con entradas no negativas, sumables por filas y columnas. En este artı́culo se presentan los principales conceptos sobre el AFC enfatizando los aspectos metodológicos, también se presenta una formulación algorı́tmica para la implementación computacional del método, ası́ como algunos detalles sobre el software que hemos implementado para este método.* En la última sección se presenta un ejemplo detallado sobre el 2 Los datos y los objetivos A partir de un ejemplo didáctico se presentan los conceptos fundamentales y los objetivos del Análisis Factorial de Correspondencias. Tabla de contingencia: Sean X y Y dos variables cualitativas con n y p modalidades respectivamente, definidas en una misma población de T individuos; la tabla -o tabla cruzada- asociada con estas dos variables es la matriz de datos K = (kij )n×p donde la casilla kij es el número de individuos que poseen simultáneamente la modalidad i de X y la modalidad j de Y . 1 Escuela de Matemática, Universidad de Costa Rica. 8 Consideremos, con fines únicamente didácticos, la tabla siguiente, la cual cruza Colegio de procedencia (variable X) con Universidad escogida (variable Y). Colegio diurno-ofi noct-ofi diur-priv noct-priv bachi-madu cole-extranj sin inform total UCR 21088 2047 2044 133 0 250 3 25565 Universidad ITCR UNA 2643 1991 274 388 213 121 16 31 0 85 90 53 18 34 3254 2703 UNED 1972 678 150 47 179 51 82 3159 total 27694 3387 2528 227 264 444 137 34681 El valor en una casilla, por ejemplo 21088, significa que en 1989 habı́an 21088 estudiantes matriculados en la UCR que provenı́an de colegios diurnos oficiales. En la última columna se inidican los totales de fila y en la última fila los totales de columna Objetivos del AFC: El AFC, igual que el ACP, puede ser usado para reducir la dimensión de los datos conservando el máximo de información (inercia), en vista de análisis estadı́sticos posteriores tales como clasificación automática y análisis discriminante. Sin embargo nuestro interés principal en el marco de este trabajo es referirnos al potencial del AFC para exhibir las relaciones entre las modalidades de las dos variables puestas en juego. Esta posibilidad deriva del grado de asociación existente entre ambas variables, cuantificada clásicamente con el estadı́stico llamado Chi-cuadrado, que es un indicador de carácter global. El enfoque del AFC para el estudio de la dependencia de dos variables cualitativas X e Y, radica en la exploración de las asociaciones entre las modalidades de una y otra variable, lo cual se aleja radicalmente de la filosofı́a de la prueba de independencia con base en el estadı́stico Chi-cuadrado. Desglosamos los objetivos del AFC, ası́: (a) Al estilo del ACP, las modalidades de una misma variable, se representan en planos óptimales, donde se pueden leer sus proximidades y oposiciones. Para cuantificar la proximidad entre modalidades se usa una distancia euclı́dea llamada distancia Chi-cuadrado. (b) Gracias a las fórmulas baricéntricas se pueden hacer representaciones simultáneas de las modalidades de ambas variables y ponerlas en relación. La cercanı́a u oposición de dos o más modalidades de una variable puede, eventualmente, ser explicada por modalidades de la otra variable. Estas ideas se entienden mejor si nos remitimos a la tabla anterior. Si las dos variables fueran independientes, el destino de los estudiantes no dependerı́a del colegio de procedencia y la distribución de la población estudiantil proveniente de los diferentes tipos de colegio, a través de las universidades, serı́a aproximadamente igual para todos. De la misma manera, la distribución de la población estudiantil de cada universidad a través de los tipos de colegio, serı́a aproximadamente igual para todas. Es claro que, en ese caso, no habrı́a nada que analizar. Al final de la siguiente sección se tratará nuevamente este concepto. 9 3 Perfiles y distancias En AFC no se calculan las distancias directamente de la tabla K. Esta es transformada en dos tablas: la tabla que tiene como filas los perfiles fila y la que tiene como filas los perfiles columna. Y, las distancias entre modalidades se calculan a partir de estos perfiles. Transformación de los datos en perfiles: para eliminar el efecto de las diferencias entre los totales de las modalidades, sobre el cálculo de las distancias, se tranforman³ las filas de´la tabla k K de efectivos, en distribuciones porcentuales llamadas perfiles fila: pfi = kfi1i , . . . , fipi , donde Pp fi = j=1 kij es el total de la modalidad i de la variable X. En modo análogo se calculan los ³ ´ Pn kns perfiles columna pcs = kc1s , . . . , donde cs = i=1 kis es el total de la modalidad s de la cs s variable Y . A modo de ejemplo notemos que la cantidad de estudiantes matriculados en las universidades que provienen de colegios nocturnos oficiales es 3387, mientras que los provenientes de colegios nocturnos privados son únicamente 227, una cifra insignificante comparada con 3387. Los perfiles fila de estas dos modalidades de colegio son: µ noct-ofi = 2047 274 388 678 , , , 3387 3387 3387 3387 µ noct-priv = 133 16 31 47 , , , 227 227 227 227 ¶ = (0.604, 0.081, 0.115, 0.2) ¶ = (0.586, 0.07, 0.137, 0.207) Se observa “a ojo” la gran similitud de estos dos perfiles. Hemos pasado de los efectivos a los porcentajes para enfatizar la forma como se distribuyen las poblaciones y quitar el efecto provocado por las diferencias entre los totales de las modalidades. Distancia chi-cuadrado ( χ2 ): en la discusión anterior ha sido implı́cito que una modalidad es identificada con su perfil. Ası́, la distancia entre modalidades es la distancia entre sus perfiles. La fórmula para cuantificar el grado de proximidad entre perfiles, que se usa en AFC se llama distancia chi-cuadrado definida, para el caso de los perfiles fila, por: χ2 (pfi , pfl ) = donde T = P i,j µ ¶2 p X T kis kls − c fi fl s=1 s kij es la población total. En modo análogo, la distancia entre perfiles columna es: µ ¶2 n X T kis kih χ (pcr , pch ) = − f cs ch i=1 i 2 Si evaluamos la proximidad entre noct-ofi y noct-priv, con la fórmula de la distancia euclı́dea usual, a partir de la tabla de contingencia, tenemos: 2 2 2 (2047 − 133) + (274 − 16) + (388 − 31) + (678 − 47) 10 2 = 4255570. Según ese resultado tendrı́amos que aceptar que los perfiles pertenecen a categorı́as distintas. No obstante, haciendo el cálculo con la distancia Chi-cuadrado entre los perfiles correspondientes, obtenemos un resultado radicalmente distinto. 2 2 noct : χ2 (noct-ofi, noct-priv) = 1.357 (0.604 − 0.586) + 1.066 (0.081 − 0.07) + 2 2 1.283 (0.115 − 0.137) + 10.978 (0.2 − 0.207) = 0.002 En realidad lo que ocurre es que estos dos tipos de colegios difieren únicamente por sus poblaciones totales, no ası́ por la forma como se distribuyen estas poblaciones en las distintas universidades. Lo primero siempre se puede observar de las columnas de totales de la tabla de datos, pero lo segundo, no. El principio de equivalencia distribucional: la presencia de modalidades de una variable asociadas a un mismo fenómeno, y por tanto fuertemente correlacionadas, se traduce en perfiles casi iguales, o equivalentemente, por una proporcionalidad aproximada entre filas o entre columnas de K. Si calculáramos las distancias entre modalidades a partir de la tabla K, con la fórmula de la distancia euclı́dea usual, las modalidades correlacionadas de una variable aportarı́an varias veces la misma información a las distancias entre las modalidades de la otra variable. Corregimos este sesgo, calculando la distancia entre modalidades a partir de sus perfiles, con la fórmula χ2 (Chi-dos), la cual goza de la propiedad de equivalencia distribucional que se enuncia ası́: Equivalencia distribucional : supongamos que dos perfiles columna son iguales, es decir: kcis = kcih s h e definida a partir de K por sustitución de las columnas s y h por la columna ∀ i. Sea la matriz K ³ ´ t fl , g suma de ambas: (k1s + k1h , . . . , kns + knh ) . Entonces χ2 (pfl , pfr ) = χ2 pf pfr ∀ l, r, donde fl es el perfil de la modalidad l calculado con la tabla K. e Análogamente se enuncia la propiedad pf intercambiando los roles de los perfiles fila y columna. En la práctica esta propiedad se presenta en forma aproximada, lo cual significa que si dos modalidades de una variable son aproximadamente correlacionadas, el fusionarlas deja las distancias entre los perfiles de las modalidades de la otra variable, aproximadamente iguales. Sin duda la propiedad de equivalencia distribucional es la razón más importante que motiva el uso de la distancia χ2 . El concepto de independencia : De la definición de independencia entre variables cualitativas, más intuitiva que formal, dada en la sección anterior, se desprende que este concepto equivale a la igualdad entre perfiles fila, lo cual a su vez implica la igualdad entre perfiles columna y recı́procamente. Se obtiene de lo anterior una condición necesaria y suficiente de independencia o, lo que es igual, otra definición. En efecto : ³ ´ ³ ´ c ·f k ksp pfi = pfs equivale a kfi1i , . . . , fipi = kfs1 para todo i y s. De lo cual sigue que kij = jT i , . . . , fs s para todo i y j. Esto significa que bajo condiciones de independencia la tabla de contingencia serı́a c ·f H, con Hij = jT i . Ahora es claro que el Chi cuadrado de la tabla K, definido por: χ2 (K) = X (kij − Hij )2 Hij i,j es una medida global de las desviaciones con respecto a la hipótesis de independencia. 11 4 El modelo matemático de base Como fue mencionado antes, el análisis de las relaciones entre modalidades es el principal objetivo del AFC. Se busca entonces representar los perfiles por proyección ortogonal, sobre espacios de baja dimensión, de modo que la configuración proyectada sea lo más próxima posible de la configuración real. Se impone el recurso del ACP con la distancia χ2 . ACP de los perfiles fila: la nube de perfiles se forma, naturalmente, por los perfiles fila a los cuales se les asocian pesos proporcionales al tamaño de la modalidad. Es decir; Nf = {(pfi , pi ) | i = 1, . . . , n} ¡ ¢ es la nube de perfiles fila, donde pi = fTi . Haciendo el ACP del triplete Dp−1 F, Dq−1 , Dp se obtienen las representaciones buscadas. Las notaciones introducidas son: F = T1 K, Dp = diag(pi ), c Dq =diag(qj ), qj = Tj . Es claro que con estas definiciones Dp−1 (Dq−1 , resp.) es la matriz que 2 induce la distancia χ entre perfiles fila (perfiles columna, resp.) y la matriz Dp−1 F tiene por filas los perfiles fila. El diagrama de dualidad asociado a este ACP es: D−1 F Rn ¾ p 6 Dp 6 Dq−1 Wf ? (Rn )∗ (Rp )∗ Vf ? - Rp (Dp−1 F )t Por los resultados del ACP sabemos que los espacios óptimos son generados por los vectores propios u1 , . . . , ud , Dq−1 − ortonormados, de la matriz Vf Dq−1 = h¡ i ¢ ¡ ¢ t Dp−1 F Dp−1 Dp−1 F Dq−1 = F t Dp−1 F Dq−1 , asociados a los valores propios λ1 ≥ . . . ≥ λd > 0, respectivamente. ACP de los perfiles columna: este ACP es en todo análogo al de los perfiles fila. En efecto, la nube de perfiles columna es: Nc = {(pcj , qj ) | j = 1, . . . , p} ¡ ¢ Haciendo el ACP del triplete Dq−1 F t , Dp−1 , Dq se obtienen las representaciones buscadas. El diagrama de dualidad de este ACP es: D−1 F t Rp ¾ q 6 Dq ? (Rp )∗ (Rn )∗ 6 Dp−1 Wc Vc ? - Rn (Dq−1 F t )t 12 Similarmente, los espacios óptimos son generados por los vectores propios v1 , . . . , vr , Dp−1 − ortonorh¡ ¢t ¡ ¢i mados, de la matriz Vc Dp−1 = Dq−1 F t Dq Dq−1 F t Dp−1 = F Dq−1 F t Dp−1 , asociados a los valores propios µ1 ≥ · · · ≥ µr > 0, respectivamente. Usando las relaciones de dualidad obtenemos varios resultados de vital importancia en el ámbito de la implementación computacional del AFC y la elaboración de mapas de representación simultánea de las modalidades. Estos resultados son: 0 1. Los valores propios de los dos ACP s son iguales, esto es d = r y λi = µi pata todo i. 2. Si λ es cualquier valor propio del AFC entonces λ ∈ ]0, 1]. Además los centros de gravedad de las nubes de perfiles fila y columna, Gf y Gc respectivamente, son vectores propios asociados a 1. 3. Fórmulas baricéntricas: sea coorduα (pfi ) = pfi · Dq−1 · uα la coordenada del perfil pfi sobre la recta determinada por el vector uα . Las fórmulas baricéntricas toman la forma, Pp kij (a) coorduα (pfi ) = √1λ j=1 fi coordvα (pcj ) y α P kij n (b) coordvα (pcj ) = √1λ i=1 cj coorduα (pfi ). α Estas relaciones baricéntricas dicen que la coordenada de una modalidad de una variable -es decir, un perfil- sobre un eje es, salvo por el factor √1λ , un promedio ponderado de las coordenadas de α las modalidades de la otra variable. Esta propiedad permite hacer una representación simultánea de las modalidades de las dos variables e interpretar la proximidad de dos o más modalidades de una de las variables, en función de las modalidades de la otra. A nivel de la implementación computacional del AFC, estas fórmulas permiten hacer todos los cálculos a partir de uno solo de los ACP0 s, facilitando muchı́simo los procesos de elaboración de software y aumentando la eficiencia de los programas. 5 Interpretación de un AFC La interpretación de un Análisis Factorial de Correspondencias tiene que ver con la selección de ejes factoriales significativos, de puntos significativos y su representación plana; todo lo cual permite visualizar las proximidades y oposiciones entre perfiles. Antes de formular los criterios de calidad en 5.2 y 5.3, se verá que el AFC separa la tabla de contingencia en una suma de matrices según los vectores propios. 5.1 Otros resultados en AFC (a) Reconstrucción de la tabla de contingencia: La fórmula de reconstrucción de la tabla de contingencia K, se escribe como: K=H+ r X T √ Dp · bs · gst · Dq λs s=2 donde: 13 a.1 H es la tabla de datos bajo condiciones de independencia. a.2 r es el número de valores propios no nulos del AFC. a.3 bs (resp. gs ) es el vector en columna, de las coordenadas de los perfiles fila (resp. columna) sobre el eje s−ésimo del AFC. Esta relación pone en evidencia que los factores del AFC reconstruyen, en orden de importancia descendente, las desviaciones de los datos con respecto a la hipótesis de independencia : K −H = 0. (b) Descomposición de la inercia: En AFC se establecen las relaciones T · I Gf = T r X λs = χ2 (K) = s=1 r X χ2 (Hs ) s=1 P Pn (H (i,j)−H )2 2 donde : Hs = √Tλ Dp ·bs ·gst ·Dq , χ2 (Hs ) = i,j s Hij ij e IGf = i=1 pi kpfi − Gf kDq−1 . s Este resultado esclarece la relación entre la inercia y el Chi cuadrado e indica que la cantidad χ2 (Hs ) , una suerte de Chi cuadrado para Hs , es la contribución al χ2 (K) aportado por el eje s−ésimo. Ası́, los λs que son las inercias proyectadas sobre los ejes, tienen su análogo en términos de las cantidades T1 χ2 (Hs ) cuya suma es T1 χ2 (K) . 5.2 Contribución y contribución relativa Se presentan unos coeficientes indicativos de la relación de los perfiles con los ejes que nos permiten depurar las representaciones. Se advierte que la primera dirección del AFC carece de interés puesto que la proyección de los perfiles sobre la recta correspondiente, no depende de los datos. Contribución: como se sabe, cada eje explica una parte de la inercia de la nube, que es justamente la inercia de la nube proyectada sobre este eje. Ası́ por ejemplo, para los perfiles fila y el eje determinado por uα tenemos: Inercia proyectada = λα = n X pi (coorduα (pfi )) 2 i=1 En virtud de esta relación es natural definir la contribución del perfil pfi al eje α−ésimo como 2 ctrα (i) = 2 pi (coorduα (pfi )) fi (coorduα (pfi )) = . λα T λα El número ctrα (i) es un indicador del aporte del perfil pfi a la inercia de la nube contenida en el eje α−ésimo. Cuanto más grande sea ctrα (i), más contribuye el perfil a la construcción del eje. En modo análogo la contribución de un perfil columna pcj al eje α−ésimo es 2 ctrα (j) = 2 cj (coordvα (pcj )) qj (coordvα (pcj )) = λα T λα Los perfiles fila tales que ctrα (i) ≥ explicativos del eje α−ésimo. 1 n y los perfiles columna tales que ctrα (j) ≥ 14 1 p se llaman puntos Contribución relativa: se compara el cuadrado de la longitud de la proyección de un perfil sobre un eje, con el cuadrado de la distancia del perfil al centro de gravedad. Para el caso de perfiles fila la contribución relativa del eje α−ésimo al perfil pfi , es: 2 2 corr (θiα ) = kP ruα (pfi )kDq−1 2 k(pfi − Gf )kDq−1 2 [coorduα (pfi )] =P ³ ´2 kij cj p T − j=1 cj fi T el cual se interpreta geométricamente como el cuadrado del coseno del ángulo formado por el eje α−ésimo y el vector pfi − Gf . De la misma manera para el caso de perfiles columna, la contribución relativa del eje α−ésimo al perfil pcj es: 2 2 corr (θjα ) = kP rvα (pcj )kDp−1 2 k(pcj − Gc )kDp−1 2 [coordvα (pcj )] =P ³ ´2 kij n fi T − i=1 fi cj T Cuanto más grande sea corr2 (θiα ) , más especı́fico es el perfil pfi del eje α−ésimo. La misma relación vale para los perfiles columna. 5.3 Selección de ejes y puntos Selección del número de ejes: No existe ningún criterio definitivo para decir cuántos ejes seleccionar. Todos son de carácter empı́rico. Una forma sencilla es fijar a priori un porcentaje de inercia explicada Pr por los ejes, digamos por ejemplo 75%, y se escogen los primeros r ejes tales que λs IE (r) = 100 Pds=1 ≥ 75. Al ser este un criterio global, se aconseja controlarlo con un criterio s=1 λs local que involucre el porcentaje de inercia explicada por un eje: ie (r) = 100 Pdλr ≥ λs s=1 Pr m = min{n, p} . Obsérvese que IE (r) = h=1 ie (h) . 100 m−1 donde Otro criterio empı́rico, también usado en ACP, es la “regla del codo” que consiste en construir un histograma de los valores propios y determinar el punto donde la curva tiene una forma similar a un codo. Esto es, escoger los primeros r ejes tales que a partir del valor propio λr , el histograma es aproximadamente una función constante. ¡ ¢2 P kij −e kij (t) Un criterio de inspiración probabilı́stica consiste en considerar la cantidad D (t) = i,j , ekij (t) donde e kij (t) es la entrada de la matriz de contingencia aproximada con los primeros t ejes (ver ¡ ¢2 P Pt kij j−e kij (t) e 4.1). Si se aproxima D (t) por D (t) i,j = T i=1 λi entonces, bajo la hipótesis kij (t) e (t) se distribuye aproximadamente como nula de que K se reconstruye con los primeros t ejes, D 2 χ (n − t − 1, p − t − 1) . El procedimiento consistirı́a en hacer varias pruebas con un nivel de confianza fijado a priori, y escoger los primeros r ejes tales que la prueba r−ésima es la primera que permite no rechazar la hipótesis nula. Selección de puntos explicativos: para el eje α−ésimo supongamos que las contribuciones ctrα (i) están ordenadas en forma decreciente. Se escogen los h primeros puntos explicativos tales Ph que i=1 ctrα (i) ≥ d, donde dPes un número entre cero y uno, escogido a priori. El criterio para g los perfiles columna es igual: j=1 ctrα (j) ≥ d. 15 Selección de puntos explicados: los puntos fuertemente correlaciones con un eje se llaman puntos explicados por este eje. Normalmente se toma 0.5 como valor lı́mite. Esto significa que un perfil pfi es explicado por el eje α−ésimo, si corr2 (θiα ) ≥ 0.5. En modo análogo, un perfil pcj es explicado por el eje α−ésimo, si corr2 (θjα ) ≥ 0.5. Eventualmente un eje que explica muy poca inercia (no pasa el criterio de selección de ejes) puede ser considerado dentro del análisis si existe algún perfil explicado por este eje, de modo tal que se pueda afirmar que se trata de una dirección caracterı́stico de ese perfil. 6 El algoritmo del análisis factorial de correspondencias Paso 1. Entrada de datos: Los datos de entrada se presentan bajo el formato de una matriz K = (kij )n×p con las siguientes propiedades: (a) kij ≥ 0; i = 1, ..., n; j = 1, ..., p. (b) Se puede sumar por filas y columnas de K. Pp Pn (c) j=1 kij > 0 para todo i, i=1 kij > 0 para todo j. Paso 2. Calcular la matriz a diagonalizar La matriz a diagonalizar es Z = (zjl )a×a tal que zjl = √1 cj cl √1 fj fl Pn kij kil i=1 fi Pp kji kli i=1 ci donde: Pna = p si p ≤ n y a = n en otro caso; fi = cj = t=1 ktj es el total de la columna j de K. si p ≤ n si p > n Pp h=1 kih es el total de la fila i de K y Paso 3. Cálculo de coordenadas Paso 3.0 Calcular los valores y vectores propios de Z Denotamos con w0 , w1 , . . . , wa los vectores propios de Z, Ia − ortonormados, asociados a los valores propios 1 > λ2 ≥ · · · ≥ λa > 0. Entonces se tienen dos casos: Paso 3.1 Primer caso: p ≤ n Para i = 1, . . . , n y α = 1, . . . , a se calculan las coordenadas de los perfiles fila mediante la ³ ´ − 12 − 12 kip ki1 fórmula: coorduα (pfi ) = pfi Dq wα . Usando las formas explı́citas de pfi = fi . . . fi , Dq = ³q ´ T diag y wαt = (wα1 . . . wαp ) ; obtenemos una expresión para las coordenadas de los perfiles cj p×p fila dependiendo de los wαj (i = 1, . . . n , α = 2, . . . , a): 16 √ p T X kij wαj . √ fi j=1 cj coorduα (pfi ) = Para calcular las coordenadas de los perfiles columna se usan las fórmulas baricéntricas (j = 1, . . . , p, α = 2, . . . , a) se calcula: coordvα (pcj ) = n X 1 √ cj λα kij coorduα (pfi ) i=1 Paso 3.2 Segundo caso: p > n Para j = 1, . . . p y α = 2, . . . , a se calculan las coordenadas de los perfiles columna mediante la − 12 fórmula wα . ´Análogamente al caso anterior, usando las expresiones de ³ : coordvα´(pcj ) =1 pcj Dp ³q −2 knj k1j T t y de wαt = (wα1 . . . wαn ) se llega a : pcj = cj . . . cj , Dp = diag fi n×n √ coordvα (pcj ) = n T X kij wαi √ cj i=1 fi Las coordenadas de los pefiles fila se calculan por medio de las fórmulas baricéntricas: coorduα (pfi ) = p X 1 √ f i λα kij coordvα (pcj ) j=1 Paso 4. Ayudas a la interpretación Paso 4.1 Para i = 1, ..., n y α = 2, ..., a Paso 4.1.1 Calcular: 2 ctrα (i) = 2 fi [coorduα (pfi )] [coorduα (pfi )] y coor2 (θiα ) = P ³ ´2 T λα kij cj p T − j=1 cj fi T Paso 4.1.2 Para α = 2, ..., r: (a) Crear una lista ordenada de las etiquetas de los perfiles fila según el orden decreciente de corr2 (θiα ). (b) Crear una lista ordenada de las etiquetas de los perfiles fila según el orden decreciente de ctrα (i). Paso 4.2 Para j = 1, ..., p y α = 2, ..., r 17 Paso 4.2.1 Calcular: 2 ctrα (j) = 2 cj [coordvα (pcj )] [coordvα (pcj )] y corr(θjα ) = P ³ ´2 T λα kij n fi T − i=1 fi cj T Paso 4.2.2 Para α = 1, ..., r: (a) Crear una lista lista ordenada de las etiquetas de los perfiles columna según el orden decreciente de corr2 (θjα ). (b) Crear una lista lista ordenada de las etiquetas de los perfiles columna según el orden decreciente de ctrα (j). Paso 5. Representación en el espacio bidimensional: para hacer las representaciones de los perfiles fila, de los perfiles columna y de las representaciones simultáneas, el usuario selecciona los planos principales que desea. Dado γ ∈ ]0, 1[ (γ suministrado por el usuario): Paso 5.1 Escoger desde la listas creadas en 4.1.2 los perfiles fila tales que coor2 (θiα ) ≥ γ los cuales serán representados en los planos principales. Las coordenadas se calculan según las fórmulas 3.1 o 3.2. Paso 5.2 Escoger desde la lista creada en 4.2.2 los perfiles columna tales que coor2 (θjα ) ≥ γ los cuales serán representados en los planos principales. Las coordenadas se calculan según las fórmulas 3.1 o 3.2. Paso 5.3 Seleccionar perfiles y fila y columna simultáneamente para su representación, siguiendo el mismo procedimiento que en 5.1 y 5.2. 7 Algunos detalles sobre la implementación El algoritmo para el Análisis Factorial de Correspondencias presentado en la sección anterior fue implementado en lenguaje C++ como un módulo más del sistema PIMAD 2.1, esto permitió aprovechar el núcleo del sistema PIMAD para efectuar los Análisis en Componentes Principales que son necesarios para el Análisis Factorial de Correspondencias y para generar el gráfico del Plano Principal. A igual que los demás modulos de PIMAD, este módulo debe ser ejecutado bajo Windows 3.1 o Windows95. El módulo de Análisis Factorial de Correspondencias está implementado de modo tal que puede ser ejecutado con tablas de datos de cualquier tamaño, limitado solamente por la cantidad de memoria del computador en donde se esté ejecutando. En la Figura 1 se muestra la interfaz del sistema, en esta Figura se puede notar que los cálculos se pueden realizar en forma directa a travéz de la barra de herramientas (tool-bar). El algortimo de la sección anterior se puede también ejecutar paso por paso mediante el submenú AFC-Paso-a-Paso, que se muestra en la Figura 2. 18 Figure 1: Interfaz del módulo AFC en PIMAD Figure 2: Menú AFC-Paso-a-Paso en PIMAD Tal como se muestra en la Figura 2 mediante la opción Calcular la matriz Z el programa ejecuta el paso 2 del algoritmo presentado en la sección anterior, dejando la matriz Z en el archivo tipo ASCII MATRIZ-Z.TXT. Con la opción Calcular los Vectores y Valores Propios se puede ejecutar el paso 3.0 del algoritmo, los valores propios quedarán almacenados en el archivo VALORP.TXT y los vectores propios en el archivo VECTORP.TXT. Con la opción Calcular Coordenadas se pueden ejecutar los pasos 3.1 y 3.2 del algoritmo, las coordenadas de los perfiles fila y columna quedan en el archivo COORDENA.TXT. Con la opción Graficar el Plano Principal... se despliega por pantalla el plano principal, tal como se presenta en la Figura 3. Una vez graficado el plano principal, mediante las opciones Calcular Contribuciones Absolutas y Calcular Contribuciones Relativas se puede ejecutar el paso 4 del algoritmo de la sección anterior. Las contribuciones se almacenan en el archivo ASCII C-ABOLU.TXT y las contribuciones relativas en el archivo C-RELATI.TXT. 19 Figure 3: Plano Principal 20