Estudio de la clasificación de textos usando

Transcripción

Estudio de la clasificación de textos usando
aprendizaje con múltiples instancias
Rafael Moral, Amelia Zafra y Sebastián Ventura
Resumen— El aumento exponencial de documentos
que se produce dı́a a dı́a ha aumentado la importancia de la tarea de clasificación de textos de una forma
automática. En este contexto, el aprendizaje con instancias múltiples, que extiende al clásico de instancias simples, se presenta como una alternativa que
nos permite una mayor flexibilidad en la representación de este problema. En este trabajo se realiza un
estudio de las representaciones usadas para realizar
clasificación de textos en aprendizaje con múltiples
instancias con la finalidad de determinar si existen
diferencias entre ellas a la hora de resolver el problema. Además, se realiza una comparativa con la resolución de problema utilizando el aprendizaje tradicional
con instancias simples para mostrar si realmente la
representación con múltiples instancias resulta más
adecuada que utilizar la representación clásica. Resultados experimentales utilizando un conjunto significativo de algoritmos ponen de manifiesto la ventaja
de utilizar la representación con múltiples instancias.
Palabras clave— Clasificación de textos, aprendizaje
con instancias múltiples, aprendizaje con instancias
simples
I. Introducción
En la actualidad, existe un aumento extraordinario de información referida a cualquier disciplina humana. Gran parte de esta información no viene estructurada para poder realizar una rápida automatización. Dicha información se puede encontrar tanto
en repositorios públicos como privados. A causa de
esta gran diversidad y cantidad, se hace necesario el
uso de herramientas que automaticen el proceso de
clasificación ayudando a satisfacer las necesidades de
los usuarios en cuanto a la información que buscan,
encontrando ésta en un tiempo adecuado.
Para la mayorı́a de las tareas de categorización
se utiliza el modelo vectorial, definido por Salton
et al. [1]. En este modelo, el documento va a ser
representado por un vector, donde cada elemento de
éste va a representar a una palabra que venga en
en el documento. Al conjunto de estas palabras que
van a conformar el vector se denominará bolsa de
palabras. Se pueden aplicar distintos criterios para
representar esta bolsa de palabras: de forma binaria
(si la palabra aparece o no en el documento), con la
frecuencia en la que aparece en el documento o por
técnicas de ponderación de frecuencia de término o
TFIDF [2].
La resolución de este problema es un área de investigación que desde los años ochenta ha sufrido
un gran auge debido a que la información de la que
Departamento de Informática y
co Universidad de Córdoba 14071
{i62movir,azafra,sventura}@uco.es
Análisis NumériCórdoba. E-mail:
se dispone es cada vez mayor. El problema ha sido
resuelto desde una perspectiva de aprendizaje tradicional basado en instancias simples utilizando clasificadores estadı́sticos [3], como Naı̈ve Bayes; basados
en distancia como el kNN [4], y redes neuronales [5]
entre otros. En el trabajo de A. Mahirevs y Ashutosh Tiwari [6], se puede encontrar una revisión de
los métodos más relevantes aplicados a la clasificación de textos. En todos los trabajos se coincide en
que la resolución de este problema es costosa debido
a que los documentos son extensos y están formados
por muchas partes. En este contexto el aprendizaje con múltiples instancias (Multiple Instance Learning, MIL) propuesto recientemente por Dietterich
et al. [7], se presenta como una alternativa más flexible para la representación de los documentos. De
forma general, con este aprendizaje, el documento es
divido en diferentes partes y el problema consiste en
detectar la presencia de un determinado contenido
en algunas de las partes del documento, en lugar de
usar el documento completo.
Aunque se encuentran muchas referencias en el
aprendizaje tradicional sobre clasificación de textos,
realmente no es un tema muy investigado en MIL. En
este artı́culo se pretende profundizar en este tema,
para poder determinar la relevancia de este aprendizaje en la resolución de la clasificación de textos. Para ello, en primer lugar, se va a analizar los diferentes
enfoques para representar documentos en MIL propuestos hasta la fecha, con el fin de estudiar su efectividad en la resolución de estos problemas y analizar
cuál resulta más beneficioso. Para ello un conjunto representativo de algoritmos intentarán resolver
el problema y se analizarán los resultados obtenidos. Posteriormente, una vez seleccionada la mejor
opción de representación en MIL, se evaluará el rendimiento de los algoritmos para resolver el problema
tanto desde un punto de vista tradicional como desde
un punto de vista de aprendizaje con múltiples instancias. De este modo, se llevará a cabo un estudio
empı́rico que nos demuestre si realmente los métodos
de aprendizaje con múltiples instancias mejoran los
resultados en la clasificación de textos comparado
con su resolución en el aprendizaje tradicional.
En ámbos estudios se emplean una gran variedad
de algoritmos ampliamente utilizados en la resolución de problemas de MIL. Los resultados experimentales utilizando test estadı́sticos para sus análisis nos muestran, por un lado, la opción más idónea
para representar este problema, y por otro, que los
métodos MIL mejoran a los clásicos con la represen-
tación tradicional en la resolución de este problema
obteniendo resultados de clasificación más precisos.
El resto del artı́culo se organiza de la siguiente
forma. En la Sección 2 se introduce al aprendizaje multi-instancia y su utilización en clasificación de
textos. En la Sección 3 se presentan los dos tipos de
representación utilizados en MIL. En la Sección 4 se
exponen y analizan los resultados de la experimentación. La Sección 5 muestra las conclusiones.
II. Trabajo previo en aprendizaje con
múltiples instancias
El aprendizaje con Múltiples Instancias, definido por Dietterich et al. [7], constituye una variante
del aprendizaje supervisado tradicional que se manifiesta en aplicaciones complejas del aprendizaje automático, en las que el sistema de aprendizaje dispone de un conocimiento incompleto sobre cada uno
de los patrones de entrenamiento. Los conjuntos de
datos están formados por una serie de patrones denominados bolsas, cada una de las cuales tiene asociada una determinada categorı́a. Estas bolsas están
constituidas por una serie de instancias individuales,
para las que no se conoce la clase a la que pertenecen.
En la clasificación binaria, el objetivo del proceso de
clasificación es la organización de las bolsas en dos
conjuntos. De acuerdo a la hipótesis de Dietterich
et al. [7] se determina que un ejemplo es positivo si
contiene al menos una instancia del concepto que se
quiere aprender, y se considera negativa en caso de
no contenga ninguna instancia sobre dicho concepto.
La primera solución a un problema de aprendizaje
con múltiples instancias fue propuesta por Dietterich
et al. [7], en un estudio que trataba de determinar
la relación existente entre la estructura de una serie
de sustancias quı́micas y su actividad farmacológica. Su aplicación sobre una serie de conjuntos de
datos reales y sintéticos demostró que el algoritmo
propuesto, que consideraba las caracterı́sticas particulares de los problemas con múltiples instancias,
resultaba más adecuado que los algoritmos de aprendizaje tradicionales para la resolución de los mismos.
Un segundo algoritmo de gran extensión para la resolución de problemas de aprendizaje con múltiples
instancias es el denominado Densidad de Diversidad
(DD, Diverse Density) [8]. A partir de estos trabajos, son muchos los estudios que se pueden encontrar
con propuestas de nuevos modelos para este aprendizaje, Wang y Zucker realizaron la adaptación del
algoritmo de los k vecinos más cercanos (k-NN, k
Nearest Neighbour ) a problemas de aprendizaje con
múltiples instancias [9]. Posteriormente, Chevaleyre
y Zucker modificaron el algoritmo ID3, basado en
árboles de decisión, y el algoritmo RIPPER, centrado en la inducción de reglas, con el fin de considerar las caracterı́sticas propias de los problemas con
múltiples instancias [10]. Otras soluciones propuestas para la resolución de problemas de aprendizaje
con múltiples instancias consistieron en la utiliza-
ción de máquinas de soporte vectorial [11], algoritmos genéticos [12], redes neuronales [13][14] y ensambles multi-instancia [15].
La gran cantidad de propuestas en esta área ha
venido sobrevenida por el hecho de que la representación de determinadas aplicaciones en MIL han demostrado que ofrecen mejores resultados debido a
la flexibilidad que introduce en su representación.
Ası́, la aplicación de los planteamientos propios del
aprendizaje con múltiples instancias se ha realizado
en numerosos ámbitos de conocimiento, entre los que
destacan: predicción de la actividad de fármacos [7],
recuperación y clasificación de imágenes basadas en
contenido [9], categorización de textos [11] recomendación de páginas web ı́ndice [16] y predicción del
rendimiento de los estudiantes [17].
Centrándonos en las tareas de clasificación de textos, se han realizado pocos estudios con MIL. Stuart
Andrews et al. [11] generan un conjunto de datos
para realizar clasificación de texto mediante aprendizaje MIL. A partir de un conjunto de datos llamado OHSUMED, dividieron los documentos en pasajes mediante ventanas deslizantes superpuestas. Resultados obtenidos muestran buenos resultados a la
hora de clasificar estos conjuntos de datos. Recientemente encontramos los estudios de M-L. Zhang y
Z-H.Zhou [18], quienes proponen un algoritmo para
realizar clasificación multi-instancia y multi-etiqueta
(MI-ML) aplicándolo a clasificación de imágenes y
de textos; Z-H. Zhou et al. [19] proponen la utilización de unos algoritmos para problemas MIL en los
que las bolsas no tienen que ser independientes entre ellas, y no están distribuidas de manera idéntica,
utilizando también la categorización de textos para
realizar las pruebas; y H. Wei y Y. Wang [20] realizan
clasificación de textos mediante el algoritmo KNN,
considerando que cada documento se representa con
una bolsa y cada una de las instancias que componen la bolsa representan una frase del documento.
Estos estudios ponen de manifiesto que por las caracterı́sticas de alta-dimensionalidad y escasa representación, las técnicas MIL son un punto interesante
para estudiar la categorización de textos.
III. Representación de los documentos en
MIL
Dentro del aprendizaje con múltiples instancias,
son dos las representaciones de documentos que se
pueden encontrar. Primero describiremos el modelo
de Salton et al. [1], que es usado en ambas representaciones. Después, especificaremos las dos representaciones usadas en MIL.
A. Modelo Vectorial de Salton
Para la mayorı́a de las tareas de categorización se
utiliza el modelo vectorial, definido por Salton et al.
[1]. En este modelo, un documento puede considerarse como un vector D = (c1 , c2 , c3 ...cj ) donde c1
es un valor numérico que expresa en qué grado el do-
cumento D posee la palabra 1, c2 lo mismo para la
palabra 2, y ası́ sucesivamente. El concepto bolsa de
palabras (Bag-of-Words) o diccionario, denominado
caracterı́stica de forma generalizada en otros tipos
de problemas, suele concretarse en la ocurrencia de
determinadas palabras en el documento, aunque nada impide tomar en consideración otros factores. En
el caso más simple, pueden aplicarse valores binarios
exclusivamente; de forma que si en el documento D
aparece la palabra 1, el valor de c1 serı́a 1 y en caso contrario, 0. Como, naturalmente, una palabra
puede aparecer más de una vez en el mismo documento, y además, unas palabras pueden considerarse
como más significativas que otras, el valor numérico
de cada uno de los componentes del vector obedece normalmente a cálculos algo más sofisticados que
tienen en cuenta más factores, además de la simple
ocurrencia o no de un término, como pueden ser el
caso de la técnica de ponderación de frecuencia de
termino o TFIDF [2].
Fig. 1. Representación del documento (opción 1)
B. Reprentación del documento (opción 1)
En esta representación, cada documento corresponde a un conjunto aleatorio de párrafos de distintos documentos. El documento conforma cada
patrón del conjunto de datos, que en MIL, se conoce
habitualmente como bolsa, y cada bolsa está compuesta por varias instancias que representan cada
uno de los párrafos de textos que se han considerado. Los diferentes párrafos que se consideran se
corresponden, no con el concepto de párrafo que se
tiene comúnmente, sino con fragmentos obtenidos de
cada documento de acuerdo al uso de una ventana
deslizante que delimita el texto que se considera en
cada instancia [19]. Las bolsas positivas tienen un
porcentaje de instancias/fragmentos de textos que
pertenezcan a la categorı́a que representan, mientras que el resto de instancias que conforman cada
ejemplo se escogen de fragmentos de textos que pertenecen a otra categorı́a.
Concretamente, el conjunto de datos utilizados
en la experimentación es el proporcionado por Z-H.
Zhou et al. [19]. La Figura 1 muestra la representación utilizada. Los datos son obtenidos de la colección 20-Newsgroups, una colección ampliamente utilizada en clasificación de textos, utilizando 20 grupos
de noticias populares diferentes, perteneciendo cada
grupo de noticias a una categorı́a distinta. Para trabajar con clasificación binaria (clase positiva y negativa), se trabaja con un total de 20 conjuntos de datos diferentes, cada uno de ellos representa una de las
categorı́as como positiva y el resto de ejemplos que
no pertenecen a dicha categorı́a como negativa. Especı́ficamente, cada conjunto se compone de 50 bolsas/documentos positivas y 50 bolsas/documentos
negativas. Cada bolsa positiva contiene un 3 % de
instancias, escogidas aleatoriamente, que pertenecen
a fragmentos de texto de ese grupo de noticias; y en
el caso de las bolsas negativas están escogidas aleato-
Fig. 2. Representación del documento (opción 2)
ria y uniformemente entre el resto de categorı́as. Se
utiliza la representación TFIDF [2]. La información
sobre 20-Newsgroups se muestra en la Tabla I.
C. Reprentación del documento (opción 2)
En esta representación también cada uno de los
documentos que se utilizan se representan por una
bolsa. De forma similar, un documento es dividido en
párrafos, los cuales son delimitados mediante ventanas deslizantes de tamaño fijo [18]. Cada fragmento
es traducido a un vector de bolsas de palabras mediante el modelo vectorial definido por Salton et al.
[1], definiéndose ası́ cada una de las instancias de la
bolsa. Existirá una bolsa por cada documento, y cada bolsa tendrá tantas instancias como fragmentos
o divisiones del documento se hayan realizado. Esta
representación puede verse en la Figura 2.
El conjunto de datos utilizado por Zhang y Zhou
[18] son los datos que se han empleado para la experimentación con este tipo de representación. Los datos son obtenidos de la colección Reuters-21578, una
base de datos ampliamente estudiada en este tipo
de problemas. El conjunto de documentos utilizados
por Zhang y Zhou [18] se divide en 7 categorı́as y
está compuesto por 2000 documentos donde el 15 %
pertenece a más de una clase, siendo el promedio
global de clases por documento del 1,15 %. Cada documento se representa como una bolsa de instancias
usando la técnica de ventana deslizante [11], donde
cada instancia corresponde a un segmento de texto de una ventana deslizante de tamaño 50. El es-
TABLA I
Información sobre el conjunto de datos Reuters y
20-Newsgroups
Reuters
N o de conjunto de datos
N
o
Pos
Neg
de bolsas
Bolsa de palabras
Instancias por Bolsa
N o medio de instancias
Esquema de pesado
Min
Max
20-Newsgroups
7
20
50
50
50
50
243
200
2
18
8
84
3.96
40.07
Frecuencia
TFIDF
quema de pesado utilizado se basa en la frecuencia
de términos [21]. Además, con la finalidad de reducir dimensionalidad, el 2 % del conjunto de palabras
con mayor frecuencia en los documentos son eliminadas, quedando ası́ cada instancia representada por
un vector con una bolsa de palabras de 243 elementos.
Con la finalidad de compatibilizar lo máximo posible ambos tipos de representaciones, se ha realizado
un preprocesado del conjunto de datos de Reuters
con respecto a la configuración propuesta por Zhang
y Zhou [18]. Para ello, se han eliminado todas las
bolsas/documentos que pertenezcan a más de una
clase, trabajando ası́ con una clasificación que utiliza solamente una etiqueta. A partir de las bolsas
que quedan disponible, se dispone de 7 categorı́as
diferentes de textos. De forma similar al conjunto de
datos 20-Newsgroups, se trabaja con clasificación binaria, diseñando ası́ 7 conjuntos de datos diferentes.
En cada conjunto de datos, una de las categorı́as se
considera positiva y el resto negativa. A su vez, cada
conjunto de datos está formado por 50 bolsas positivas y 50 bolsas negativas. Las 50 bolsas positivas
se han escogido aleatoriamente entre el conjunto de
bolsas pertenecientes a la categorı́a considerada en
ese conjunto de datos, mientras que las bolsas negativas se han escogido de forma aleatoria y uniforme
entre el resto de clases. El resumen de como quedan
los conjuntos de datos para la experimentación se
muestra en la Tabla I.
IV. Experimentación
La experimentación lleva a cabo dos estudios. El
primero de ellos analiza los resultados obtenidos con
distintos algoritmos MIL utilizando las dos representaciones que hemos descrito en la Sección III y tiene
como finalidad estudiar si alguna de las representaciones resulta más adecuada para este problema. El
segundo estudio realiza una comparativa con la representación multi-instancia que ha resultado más
conveniente del estudio anterior y la representación
con instancias simples. Este estudio nos permite determinar si realmente es beneficioso trabajar con este
tipo de aprendizaje para resolver problemas de clasificación de textos.
A. Comparativa de las representaciones con múltiples instancias
Para realizar la comparativa entre los dos tipos de
representaciones, se han escogido una serie de algoritmos MIL que se encuentran en el software WEKA[22]. En el estudio experimental se han considerado 15 algoritmos, de los cuales encontramos métodos basados en diversidad de la densidad: MIDD
[8], MIEMDD [23] y MDD [8]; métodos basados en
regresión logı́stica: MILR [24]; métodos basados en
máquina de soporte vectorial: MISMO [25]; métodos basados en distancias: CitationKNN [9] y MIOptimalBall [26]; métodos basados en reglas: PART,
Bagging con PART y AddaBoost con PART usando
el enfoque MIWrapper [26] y el MISimple [26] (estos
enfoques son diferentes adaptaciones de los métodos
clásicos para trabajar con MIL); métodos basados en
árboles de decisión: MIBoost [27] y métodos basados
en probabilidades: Naı̈ve Bayes [26].
Los conjuntos de datos que se emplean son las dos
bases de datos que se han comentado en la sección
III.B (20-Newsgroups, formado por 20 conjunto de
datos) y la sección III.C (Reuters, formado por 7
conjuntos de datos). En la ejecución de los algoritmos se va a utilizar validación cruzada 10-Fold empleando la configuración que los autores aconsejan
por defecto de cada algoritmo.
Los resultados obtenidos en los distintos algoritmos respecto a los datos de Reuters están en la Tabla II. Se puede observar como la mayorı́a de los
algoritmos obtienen una buena exactitud exceptuando los algoritmos basados en diversidad de densidad
(MIDD, MIEMDD y MDD) y CitationKNN. En estos casos, si evaluamos los valores de sensibilidad y
especificidad que obtienen podemos aprenciar que
estos métodos tienden a obtener una sensibilidad
muy baja siendo ésta la causa de los malos valores de
exactitud que presentan, mientras que en el resto de
métodos se consigue un equilibrio entre ambas métricas. Se ha aplicado el test de Friedman [28] para determinar cuáles son los algoritmos que mejor resuelven este problema y si existen diferencias significativas entre ellos. El test de Friedman (distribuı́do con
una Chi-cuadrado con 14 grados de libertad) nos da
un resultado de 75.8929 para la exactitud y un pvalue
de 0. De este modo considerando una confianza del
99 %, se rechaza la hipotesis nula y se determina que
existen diferencias significativas entre los diferentes
algoritmos para resolver el problema. En la Tabla II
junto con los valores de exactitud se muestran los
ranking que tiene cada algoritmo de acuerdo a la
aplicación de este test. Evaluando los ranking con
respecto a la métrica de exactitud podemos determinar, a priori, que el algoritmo que obtiene un ranking
más bajo es el que obtiene mejores resultados en los
diferentes conjuntos de datos. Se puede ver que los
2 algoritmos que tienen el ranking más bajo, y por
lo tanto ofrecen mejores resultados, son DecisionStump (MIBoost) y AdaBoost & PART (MISimple).
TABLA II
Resultados de exactidud para el conjunto de datos Reuters
Algoritmos
Cat1
Cat2
Cat3
Cat4
Cat5
Cat6
Cat7
Ranking
MIDD ↓
0.500
0.500
0.500
0.500
0.550
0.500
0.500
14.000
MIEMDD ↓
0.760
0.620
0.540
0.620
0.630
0.670
0.720
12.000
MDD ↓
0.500
0.500
0.500
0.500
0.560
0.500
0.500
13.857
MILR
0.940
0.900
0.830
0.830
0.830
0.840
0.920
5.357
MIOptimalBall
0.830
0.880
0.820
0.870
0.840
0.870
0.860
7.571
CitationKNN ↓
0.500
0.500
0.500
0.500
0.500
0.500
0.500
14.143
DecisionStump1
0.900
0.910
0.840
0.990
0.870
0.890
0.890
3.143
0.870
0.810
0.860
0.730
0.790
0.730
0.820
9.286
0.920
0.910
0.860
0.980
0.860
0.900
0.860
3.143
0.870
0.780
0.880
0.980
0.820
0.850
0.870
6.286
0.820
0.880
0.850
0.950
0.850
0.840
0.910
5.786
0.890
0.900
0.850
0.960
0.870
0.890
0.890
3.643
0.940
0.880
0.840
0.920
0.850
0.880
0.880
4.923
0.910
0.850
0.820
0.820
0.810
0.830
0.830
8.714
0.880
0.860
0.840
0.790
0.800
0.830
1
MIBoost
2
MISMO
0.880
8.143
MIWrapper
4
MISimple
RBF Kernel
2
↓
AdaBoost & PART
PART
3
AdaBoost & PART
Bagging & PART
PART
SMO
3
4
4
4
4
Naı̈ve Bayes
4
3
TABLA III
Resultados de exactitud para el conjunto de datos 20-Newsgroups (Categorı́as 1-10)
Algoritmos
Cat1
Cat2
Cat3
Cat4
Cat5
Cat6
Cat7
Cat8
Cat9
Cat10
MIDD
0.490
0.580
0.520
0.480
0.590
0.560
0.430
0.560
0.430
0.470
MIEMDD
0.520
0.530
0.620
0.520
0.500
0.370
0.500
0.430
0.480
0.520
MDD
0.500
0.470
0.390
0.440
0.400
0.360
0.500
0.400
0.430
0.460
MILR
0.550
0.550
0.500
0.520
0.470
0.510
0.520
0.430
0.500
0.590
MIOptimalBall
0.560
0.500
0.370
0.650
0.370
0.650
0.480
0.500
0.660
0.480
CitationKNN
0.510
0.500
0.500
0.500
0.440
0.490
0.440
0.510
0.500
0.530
DecisionStump1
0.490
0.490
0.740
0.550
0.480
0.570
0.510
0.510
0.630
0.670
RBF Kernel2
0.690
0.600
0.640
0.620
0.640
0.670
0.640
0.710
0.690
0.780
AdaBoost & PART3
0.670
0.560
0.550
0.580
0.640
0.730
0.600
0.580
0.820
0.680
PART3
0.580
0.470
0.660
0.470
0.680
0.670
0.550
0.660
0.760
0.630
AdaBoost & PART4
0.420
0.470
0.520
0.520
0.510
0.530
0.460
0.450
0.570
0.600
Bagging & PART4
0.550
0.530
0.500
0.490
0.520
0.550
0.460
0.540
0.670
0.630
PART4
0.560
0.450
0.510
0.540
0.500
0.510
0.450
0.560
0.530
0.550
SMO4
0.500
0.510
0.500
0.510
0.500
0.510
0.500
0.500
0.500
0.500
Naı̈ve Bayes4
0.490
0.490
0.500
0.530
0.500
0.520
0.510
0.500
1
MIBoost
2
MISMO
Para estudiar entre qué algoritmos existen diferencias significativas en sus resultados se va a aplicar
el contraste de Holm [28] teniéndose en cuenta que
se escoge como algoritmo de control el que menor
ranking ha obtenido, que en este caso es AdaBoost
& PART (MISimple). En la Tabla II se puede observar que aquellos algoritmos que son considerados
peores propuestas aparecen con un sı́mbolo ↓ junto
a su nombre, siendo las peores propuestas los algoritmos de diverse density (MDD, MIDD, MIEMDD)
y el basado en distancia (CitationKNN).
En el caso del conjunto de datos de 20-Newsgroups
se observa que los resultados de exactitud son relativamente bajos en todos los métodos (ver Tabla III
y Tabla IV). Casi todos los algoritmos que se han
utilizado rondan sólo el 50 % de exactitud respecto
a las bolsas clasificadas. Existiendo una tendencia
0.530
0.530
3
MIWrapper
4
MISimple
general a obtener una mejor especifidad que sensibilidad. Los únicos algoritmos que han pasado la barrera del 60 % han sido el basado en el método de
máquina de soporte vectorial, MISMO, y el método AdaBoost & PART(MISimple) que siguiendo la
tendencia de la mayorı́a, obtienen una mayor especifidad que sensibilidad. Estos hechos se han contrastado mediante el test de Friedman [28] (distribuı́do
con una chi-cuadrado con 14 grados de libertad),
que nos da como resultado de exactitud 129.83 y un
pvalue de 0.0. Por tanto, con una confianza del 99 %
se rechaza la hipótesis nula y también se determina
que existen diferencias significativas entre los resultados de los diferentes algoritmos. En la Tabla IV
se muestra también el ranking de los algoritmos junto con los valores de exactitud. De igual forma, se
aplica un contraste a posteriori, Holm[28], para ob-
TABLA IV
Resultados de exactitud para el conjunto de datos 20-Newsgroups (Categorı́as 10-20)
Algoritmos
Cat11
Cat12
Cat13
Cat14
Cat15
Cat16
Cat17
Cat18
Cat19
Cat20
MIDD ↓
0.500
0.450
0.500
0.450
0.490
0.530
0.530
0.520
0.420
0.590
Ranking
9.425
MIEMDD ↓
0.470
0.450
0.430
0.400
0.450
0.500
0.560
0.470
0.490
0.540
10.325
MDD ↓
0.480
0.490
0.450
0.460
0.320
0.420
0.450
0.570
0.500
0.530
12.350
MILR ↓
0.470
0.570
0.470
0.420
0.510
0.430
0.430
0.490
0.430
0.530
10.125
MIOptimalBall ↓
0.380
0.510
0.360
0.560
0.460
0.470
0.450
0.470
0.430
0.400
10.575
CitationKNN ↓
0.460
0.530
0.530
0.510
0.510
0.600
0.530
0.560
0.480
0.520
9.525
DecisionStump1 ↓
0.640
0.630
0.530
0.670
0.700
0.540
0.580
0.760
0.640
0.520
5.350
RBF Kernel2
0.710
0.640
0.570
0.600
0.730
0.600
0.610
0.720
0.630
0.650
2.150
AdaBoost&PART3
0.810
0.750
0.500
0.590
0.700
0.650
0.710
0.800
0.640
0.570
2.525
PART3
0.730
0.720
0.510
0.580
0.650
0.620
0.670
0.810
0.620
0.470
4.425
AdaBoost&PART4 ↓
0.460
0.590
0.340
0.550
0.520
0.500
0.490
0.640
0.500
0.570
8.925
Bagging&PART4 ↓
0.540
0.560
0.480
0.530
0.520
0.570
0.470
0.640
0.510
0.590
6.975
PART4 ↓
0.530
0.520
0.480
0.580
0.490
0.460
0.400
0.670
0.470
0.600
8.675
0.500
0.510
9.575
0.510
1
MIBoost
2
MISMO
0.510
9.075
MIWrapper
4
MISimple
SMO4 ↓
0.500
0.500
0.530
0.510
0.500
0.510
0.500
0.500
Naı̈ve Bayes4 ↓
0.490
0.470
0.570
0.470
0.510
0.500
0.500
0.500
servar las diferencias entre los distintos algoritmos.
Todos aquellos algoritmos que aparecen en las tablas
anteriores con un sı́mbolo (↓) junto a su nombre, indican que son consideradas peores propuesta que el
algoritmo de control, que en este caso es RBF kernel
(MISMO), que es el que tienen un ranking más bajo.
Como coincidencia en ambas representaciones, AdaBoost & PART(MISimple), aparece como una de las
mejores propuestas. El resto de algoritmos en este
caso son considerados peores propuestas.
Para comparar ambas representaciones, se va a
evaluar una media de los resultados de exactitud
que cada algoritmo obtiene en cada una de las representaciones y se aplicará un test de Wilcoxon [28]
para ver si existen diferencias en los resultados que
obtienen en cada representación. En la Tabla V se
muestra un resumen de los resultados medios obtenidos por cada algoritmo en cada una de las representaciones. Podemos ver que con la representación
usada por el conjunto de datos Reuters todos los
algoritmos superan ampliamente los valores que obtienen cuando intentan resolver el conjunto de datos
20-Newsgroups, teniendo ambos conjuntos de datos
una configuración muy similar y variando la representación de los documento. La existencia de estas
diferencias las podemos comprobar mediante el test
de rangos de signo de Wilcoxon [28], con el que evaluamos la comparación entre cada par de representaciones. Aplicando dicho test sobre los resultados
comentados, se obtiene un pvalue = 1,831E −4 . Por
ello, con una confianza del 99 %, se rechaza la hipótesis nula, confirmándose que existen diferencias entre
ambas representaciones y observando que Reuters es
mejor representación debido a que su suma de rangos que es 118 es mayor que la de Newsgroup que
es 2, mostrando ası́ que los algoritmos obtienen valores de exactitud más altos con la representación
considerada como Opción 2.
3
TABLA V
Resultados generales de exactitud de Reuters y
20-Newsgroups
20-Newsgroups1
Reuters2
MIDD
0.505
0.507
MIEMDD
0.490
0.651
MDD
0.451
0.509
MILR
0.495
0.870
MIOptimalBall
0.486
0.853
CitationKNN
0.508
0.500
DecisionStump
(MIBoost)
0.593
0.899
RBF Kernel
(MISMO)
0.657
0.801
Adaboost & PART
(MISimple)
0.657
0.899
PART
(MISimple)
0.626
0.864
AdaBoost & PART
(MIWrapper)
0.511
0.871
Bagging & PART
(MIWrapper)
0.543
0.893
PART
(MIWrapper)
0.518
0.884
SMO
(MIWrapper)
0.504
0.839
Naı̈ve Bayes
(MIWrapper)
0.507
0.840
1 Media de los resultados obtenidos en los 20 conjuntos de datos
2 Media de los resultados obtenidos en los 7 conjuntos de datos
B. Comparativa entre representación con múltiples
instancias e instancias simples
En esta sección, se va a realizar un estudio que nos
permita comparar la representación de textos utilizando instancias simples y múltiples. Para la representación con instancias múltiples, se va a emplear
la opción 2 especificada en la sección III.C, que es la
que ha proporcionado mejores resultados en la com-
TABLA VI
Resultados de exactitud para el conjunto de datos Reuters (Instancias simples)
Algoritmos
Cat1
Cat2
Cat3
Cat4
Cat5
Cat6
Cat7
AdaBoost
0.910
0.980
0.780
0.950
0.900
0.830
0.850
DecisionStump
0.890
1.000
0.610
0.820
0.800
0.860
0.890
Logistic
0.830
0.940
0.900
0.850
0.760
0.740
0.840
SMO
Ibk
0.910
0.810
0.940
0.920
0.860
0.790
0.820
0.700
0.740
0.800
0.710
0.720
0.800
0.640
PART
0.930
0.980
0.750
0.950
0.830
0.800
0.850
NaiveBayes
0.930
0.910
0.780
0.770
0.730
0.710
0.770
parativa entre las dos representaciones analizadas.
Para la representación con instancias simples se ha
realizado un preprocesado de los datos que simula
la información con la que se trabajarı́a si se hubiese
analizado la información con esta representación y
que está especificada en la sección IV.B.1.
En la sección IV.B.2. se analizarán los resultados
obtenidos por ambas representaciones para determinar si existen diferencias en los resultados obtenidos
por los algoritmos.
B.1 Preprocesado a Instancias Simples
Para realizar el estudio entre la representación de
múltiples instancias e instancias simples, se tiene que
traducir los datos del conjunto de datos Reuters que
utilizaban una representación con instancias múltiples a instancias simples. Siguiendo la representación de Reuters en MIL, cada bolsa representa un
documento completo formado por un conjunto de
instancias. Cada instancia representa un párrafo del
documento y está compuesto por la frecuencia de
las palabras en ese párrafo. Para traducir cada documento de esta representación a la la representación con instancias simples, cada documento tiene
que ser representado por una instancia simple. Para
ello, se genera una única instancia por documento
que está compuesta por la suma de las frecuencias
de las palabras considerando todos los párrafos en
ese documento. De este modo, cada instancia representarı́a la frecuencia de las palabra en el documento
completo.
B.2 Análisis de la comparativa
Para realizar este estudio experimental se han considerado 7 algoritmos de clasificación clásicos en el
aprendizaje con instancias simples, que considera
métodos de regresión logı́stica: Logistic [29]; basados
en distancias: IBk [30]; métodos basados en árboles de decisión: DecisionStump [22]; basados en reglas: PART [31]; ensambles: AdaBoost&PART [32];
máquina de soporte vectorial: SMO [33][34] y métodos probabilı́sticos: Naı̈ve Bayes [35]. En MIL, de los
15 algoritmos ejecutados y mostrados en el estudio
experimental de la sección IV.A, se selecciona para la comparativa los que tienen su contraparte con
respecto a los utilizados en instancia simples. Es-
tos serı́an los métodos: AdaBoost&PART (MISimple), DecisionStump (MIBoost), Regression Logistic
(MILR), SMO (MIWrapper), MIOptimalBall (based on distance), PART (MIWrapper) y Naive Bayes
(MIWrapper).
La Tabla VI muestra los resultados de exactitud
obtenidos por los algoritmos con aprendizaje con instancias simples. Para comparar ambas representaciones, se va a evaluar le medida de exactitud lograda
por los métodos en cada una de las representaciones,
para el caso de MIL se consideran los resultados obtenidos por los algoritmos especificados al principio
de esta sección (que son los similares en ambas representaciones) y cuyos resultados se mostraron en
la Tabla II. A simple vista, se puede apreciar que
los métodos de MIL consiguen precisiones más altas que los de instancia simple. Aplicando el test
de los rangos con signo Wilcoxon [28] obtenemos un
pvalue = 0,0529, determinando con una confianza
del 90 % que se rechaza la hipótesis nula y por tanto
se determina que existen diferencias entre la representación multi-instancia y la representación tradicional. Además, los resultados nos dan como mejor
opción la representación multi-instancia al poseer un
mayor valor de suma de rangos. Concretamente, obtiene un valor de 844 frente a los 381 que obtienen
los métodos que utilizan la representación con instancias simples.
V. Conclusiones
Este artı́culo aborda la clasificación de textos desde una perspectiva de aprendizaje con instancias
múltiples. Se evalúan las dos representaciones que
se han propuesto hasta la fecha y se compara con
su resolución con instancias simples. Resultados experimentales con un total de 15 algoritmos evaluados y la aplicación de test estadı́sticos nos confirmen
que una de las representaciones multi-instancia resulta más adecuada para resolver el problema que la
otra existiendo diferencias significativas entre ellas.
Además, en la comparativa entre la representación
con instancias simples y múltiples, utilizando 7 algoritmos que tienen sus contrapartes en cada uno de
estos aprendizajes, nos determina que también existen estadı́sticamente diferencias entre los resultados
que logran los algoritmos, comportándose mejor los
algoritmos que trabajan con aprendizaje con instancias múltiples.
Este estudio preliminar que se ha realizado nos
lleva a pensar que la representación más idónea para expresar los problemas de clasificación de textos
es la representación MIL (Opción 2 ), y por otro lado que los métodos MIL mejoran a los clásicos con
su representación tradicional, ya que se han obtenido resultados de clasificación más precisos. Con lo
que podemos concluir, que más avances en esta área
están justificados y podrı́an optimizar la resolución
de este problema.
Agradecimientos
Este trabajo ha sido financiado por los proyectos
del Ministerio de Ciencia y Tecnologı́a y de la Junta
de Andalucı́a, TIN2008-06681-C06-03 y TIC-3720,
respectivamente, y los fondos FEDER.
Referencias
[1] Salton, G; Automatic Information Organization and Retrieval, McGraw-Hill,N,Y, 1968.
[2] Thorsten Joachims; A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization,
1996.
[3] Zhang, L; Zhu, J; Yao, T; An evaluation of statistical
spam filtering techniques, ACM Transactions on Asian
Language Information Processing (TALIP), 3, pp. 243269, 2004.
[4] Kwon, O; Lee, J.; Text categorization based on k-nearest
neighbor approach for Web site classification, Information
Processing and Management, 39, pp. 25-44, 2003.
[5] Ruiz, M. E, Srinivasan, P; Hierarchical Text Categorization Using Neural Networks, Information Retrieval, 5, pp.
87-118, 2002.
[6] Mahinovs, A; Tiwari, A; Text Classification Method Review, 2007.
[7] Diettrich Thomas, G; Lathrop Richard, M; Lozano-Perez,
Thomas; A Solving the Multiple-Instance Problem with
Axis-Parallel Rectangles, Artificial Intelligence, 89:31-71,
1997.
[8] Maron, Oded; Lozano-Pérez, Tomás; A Framework for
Multiple-Instance Learning, In NIPS’97: Proceedings of
Neural Information Processing System 10 Denver, Colorado, USA, MIT Press pp. 570-576, 1997.
[9] Wang, Jun; Zucker, Jean-Daniel; Solving the MultipleInstance Problem: A Lazy Learning Approach,
In
ICML’00: Proceedings of the Seventeenth International Conferenceon Machine Learning, San Francisco, CA,
USA, Morgan Kaufmann Publishers, pp.1119-1126, 2000.
[10] Chevaleyre, Yann; Zucker, Jean-Daniel; A Framework
for Learning Rules from Multiple Instance Data, Proceedings of the 12th European Conference on Machine
Learning (ECML-01), pp 49-60, 2001.
[11] Andrews, Stuart; Tsochantaridis, Ioannis; Hofmann,
Thomas; Support Vector Machines for Multiple Instance Learning, Advances in Neural Information Processing
Systems (NIPS), pages 561-568, MIT Press, 2003.
[12] Zafra, A. and Ventura, S.; G3P-MI: A Genetic Programming Algorithm for Multiple Instance Learning, Information Sciences 23 vol. 180, pp. 4496-4513, 2010.
[13] Zhang, Min-Ling; Zhou, Zhi-Hua; Adapting RBF Neural
Networks to Multi- Instance Learning, Neural Processing
Letters 23, 1 pp. 1-26, 2006.
[14] Zhou, Zhi-Hua; Zhang, Min-Ling; Neural Networks
for Multi-Instance Learning, Technical report, Al Lab,
Computar Science and Technology Department. Nanjing,
Nanjing, China, August 2002.
[15] Zhou, Zhi-Hua; Zhang, Min-Ling;
ensambles of
Multi-Instance Learners,
Proceedings of the 14th
European Conference on Machine Learning (CavtatDubrovnik,2003), L. N., G. D., B. H.. and T.L., Eds., vol
2837, pp 492-503, 2003.
[16] Zhou, Zhi-Hua; Jiang, Kay; Li, Ming ; Multi-Instance
Learning Based Web Mining, Applied Intelligence 22, 2,
pp. 135-147, 2005.
[17] Zafra, A. and Romero, C. and Ventura, S.; Multiple Instance Learning for Classifying Students in Learning Management Systems, Expert Systems with Applications.
Accepted 12, vol. 38, pp. 15020-15031, 2011.
[18] M.-L. Zhang and Z.-H. Zhou; M3MIML: A maximum
margin method for multi-instance multi-label learning,
Proceedings of the 8th IEEE International Conference on
Data Mining (ICDM’08), Pisa, Italy,688-697, 2008
[19] Zhou, Z.-H.; Y.-Y. Sun; Y.-F. Li; Multi-instance learning
by treating instances as non-i.i.d. samples, Proceedings
of the 26th International Conference on Machine Learning
(ICML’09), Montreal, Canada, 2009, pp.1249-1256.
[20] He Wei; Wang Yu; Text representation and classification
based on multi-instance learning, International Conference on Management Science and Engineering, 2009. ICMSE
2009.
[21] F. Sebastiani; Machine learning in automated text categorization, ACM Computing Surveys, 34(1): 1-47, 2002.
[22] Ian H. Witten; Eibe Frank; Data Mining: Practical Machine Learning Tools and Techniques. Second Edition,
Morgan Kaufmann, 2005.
[23] Zhang,Qi; Goldman, Sally A; EM-DD: An Improved Multiple-Instance Learning Technique., : Advances
in Neural Information Processing Systems,14, 1073-108,
2001.
[24] Ray, S.; Craven, M; Supervised versus multiple instances
learning: An empirical comparison., ICML: 22nd International Conference on Machine Learning, pp 697-704, 2005.
[25] Platt, J.; Machines using Sequential Minimal Optimization., B. Schoelkopf and C. Burges and A. Smola, editors,
Advances in Kernel Methods - Support Vector Learning,
1998.
[26] Frank,E. T.; Xu, X.; Applying propositional learning algorithms to multi-instance data., Department of Computer Science, University of Waikato, Hamilton, NZ, 2003.
[27] Freund, Yoav; Schapire, Robert E.; Experiments with a
new boosting algorithm., Thirteenth International Conference on Machine Learning, San Francisco, 148-156, 1996
[28] Demsar, J.; Statistical Comparisons of Classifiers over
Multiple Data Sets., Journal of Machine Learning Research, Vol. 17, pp. 1-30, 2006.
[29] le Cessie, S; van Houwelingen, J.C. ; Ridge Estimators
in Logistic Regression., Applied Statistics, Vol. 41, No. 1,
pp. 191-201, 1992
[30] Aha, D.; D. Kibler .; Instance-based learning algorithms.,
Machine Learning, vol.6, pp. 37-66; 1991.
[31] Eibe Frank; Ian H. Witten; Generating Accurate Rule Sets Without Global Optimization., In Shavlik, J.,
ed., Machine Learning: Proceedings of the Fifteenth International Conference, Morgan Kaufmann Publishers, San
Francisco, CA, 1998.
[32] Freund, Yoav;Schapire, Robert E.; Experiments with a
new boosting algorithm., Proc International Conference
on Machine Learning, pages 148-156, Morgan Kaufmann,
San Francisco, 1996.
[33] Platt J.; Fast Training of Support Vector Machines using
Sequential Minimal Optimization., Advances in Kernel
Methods - Support Vector Learning, B. Schoelkopf, C.
Burges, and A. Smola, eds., MIT Press, 1998.
[34] Keerthi, S.S. ; Shevade, S.K.; Bhattacharyya, C.;
Murthy, K.R.K.; Improvements to Platt’s SMO Algorithm
for SVM Classifier Design., Neural Computation, 13(3),
pp 637-649, 2001.
[35] H. John, George; Langley, Pat; Estimating Continuous
Distributions in Bayesian Classifiers., Proceedings of the
Eleventh Conference on Uncertainty in Artificial Intelligence. pp. 338-345. Morgan Kaufmann, San Mateo, 1995.

Estudio de la clasificación de textos usando

Transcripción

Documentos relacionados

Secretariado Ejecutivo del Sistema Estatal de Seguridad Pública

Generar instancias para compartir

ALGORITMOS Y ESTRUCTURA DE DATOS