datos - grfia

Transcripción

datos - grfia
Ideas generales
trabajos
...e ideas
recientes
pendientes
Juan R. Rico
-
Julio 2015
Ideas generales
tendencias actuales
Tendencias...
Ensembles of classifiers:
Imbalanced data:
● casi en desuso como
● casi en desuso como
estrategia aislada;
estrategia aislada;
● aplicada para problemas
● pero aplicada para
junto Big o Imbalanced Data
problemas junto Big Data,
Ensembles o Deep Learning
es interesante
Tendencias...
Big Data:
Deep Learning:
● En serio:
● adecuado para cualquier
○ Gigas/Teras de datos
problema de tratamiento de
○ cluster (Hadoop, Spark,...)
señal homogénea
○ difícil de mantener y lento
(extracción de
para publicar (IUII)
características jerarquizada
tipo imagen, audio, texto,...) ● Realizable/asumible:
○ Estrategias/algoritmos
● no está claro su nivel de
para tratamiento de
efectividad en datos
datos por separado
heterogéneos.
(clásicos con divide y
vencerás)
Conclusión...
Imbalanced
Data
Deep
Learning
Ensembles
of classifiers
Big Data
trabajos recientes
Ranking
Prototypes
for classification
Ranking prototipos clasificación 1-NN
● Asignación de un ranking a los elementos del conjunto de
aprendizaje. PRL (feb 2012-Q2).
● Extensión como algoritmo incremental.
Neurocomputing (abr 2014-Q2) (J. M. Iñesta)
● Pruebas exhaustivas con más conjuntos de datos y más
algoritmos PS. Enviando... a Neurocomputing (Jorge
Calvo; J. J. Valerlo-Más; J.M. Iñesta; jul 2015-Q2)
Pendiente:
● Extensión del ranking de 1-NN a k-NN
● Extensión del ranking con criterio de parada automático
(similar condensing)
PG vs PS in Dissimilarity Space (DS)
● Idea original de Jorge Calvo
○ En datos estructurados es difícil generar nuevos
prototipos pero en el espacio de disimilitud (DS) es fácil.
○ Es interesante comparar la efectividad de los algoritmos
kNN en el espacio original vs embebido con técnicas PG y
PS.
● Comparativa entre algoritmos PG vs PS con diferentes
conjuntos de datos. IbPRIA 2015 (Core C).
Pendiente:
● Propuesta de extensión para Neural Computing and
Applications journal (IF≈1,5-Q2). +BD, +DS, +PG!?
Confidence
Matrix
based in weak
classifiers
Varios clasificadores + matriz de confianzas
● Clasificación basada en matrices de confianza
(transformación de características usando varios
clasificadores).
Neurocomputing (J. Calvo; ene 2015-Q2)
Pendiente:
● Utilizar estas matrices con redes Deep Learning,
generación/selección de prototipos
Selecting a few
similar classes
kNNc
Mejorar la selección de prototipos
con kNN con filtrado de clases (kNNc)
Original
Original-PS :
C-clases
PS
Selección
de
prototipos
Clasificación x
2 clases recomendadas
Mejorar la selección de prototipos
con filtrado de clases (kNNc)
● Improving kNN multi-label classification in Prototype
Selection scenarios using class proposals.
PR (J. Calvo; J.J. Valero; 2015-Q1).
Pendiente
● Acelerar el proceso con algoritmos rápidos de búsqueda
(AESA, LAESA,...) colaborando con Luisa y José Oncina.
Prototype Selection
and
Big Data
Selección de prototipos y kNNc
para Big Data
¿Qué ocurre si aplicamos PS a
grandes conjuntos de datos
divididos en P particiones?
●
●
●
¿La tasa de clasificación es similar a la
que se obtendría con P=1?
¿El tamaño de la selección de prototipos
final para P>1 es similar a la de P=1?
¿Qué algoritmos de PS serían más
robustos frente al tamaño de P y al ruido?
Estado:
●
●
Pruebas preliminares indican que esta estrategia mantiene e incluso
mejora la tasa de clasificación de la PS sobre el conjunto original.
Enviando Neurocomputing (J. Calvo; J.J. Valero; abr 2015-Q2).
ideas
pendientes
Limited
expand-reduce
adaptative learning
Limitar las instancias almacenadas de un
kNN incremental
● La idea básica es:
○
○
○
Limitar el número de prototipos base almacenados en un sistema kNN y
realizar predicciones con ellos (adaptar kNN según % almacenado).
Aplicable a sistemas interactivos/adaptativos.
La base es aplicar PS cuando sea necesario.
● Beneficios
○
○
○
Se puede usar en varios dispositivos smartphone, tablet, portátil o PC
dependiendo de su RAM/CPU.
Se puede proporcionar sistema base inicial y adaptarlo al usuario.
Algoritmo adaptable mediante selección del algoritmo PS más adecuado.
● Estado:
○ Pensando y comentando (J. Calvo; J.J. Valero).
Instancias
interacciones
más
interacciones
Instancias
después
de PS
Crecen nuevas
Instancias
Instancias
Inicio
Nuevas
Instancias
Instancias
Ejemplo gráfico
aplicar PS
N
Algoritmo de aprendizaje incremental
1. Fijar número de prototipos máximo, N.
2. Partir de una serie de prototipos representativos (<<N).
3. Realizar predicciones y acumular nuevos prototipos
etiquetados mientras quede espacio disponible
(incremental/interactivo/adaptativo).
4. Cuando se alcance N activar el sistema de PS y reducir
instancias.
5. Ir al paso 3.
Mobile
verification
system based
on type
Verificación biométrica en móviles por
tecleo
● Verificar la autenticidad de una persona por su modo de teclear
ciertas palabras.
○ investigaciones en PC pero no para móviles (que yo sepa)
○
○
○
○
○
Medio barato, rápido!? y seguro!? (web/app)
Medición del estado de sensores cuando se pulsa una tecla
Log
Extracción de características (velocidad, orientación, presión,...)
Probar modelos
■ Clasificador independiente por sensor (tipo de características)
■ Combinación de clasificadores, datos desequilibrados
■ ERR, ROC
Estado: Trabajando en ello (Javier Gallego y Jorge Calvo).
Stagnant
ideas...
Evolución Ranking prototipos a calidad de
aprendizaje de un clasificador incremental
● Evaluación del aprendizaje de un sistema incremental basado en
1-NN
○
○
○
Medición de ranking de prototipos en diferentes instantes de tiempo
durante el aprendizaje del sistema
Aplicación de test estadísticos a las diferentes series de medidas.
Establecer qué clases se han aprendido y con qué precisión
■ Puede ayudar a rechazar prototipos innecesarios por el sistema
incremental.
■ Crear nuevas clases si fuera necesario.
■ Puede establecer una precisión para las clases ya aprendidas.
Estado: Pensado y está a falta de asignar.
Variante de la distancia de edición
● Explorar las posibilidades de una variante en la
sustitución de la ED.
● La operación de sustitución se aplicaría a una
ventana de n elementos consecutivos.
● Se benefician los casos de exactitud en los símbolos
sustituidos.
Estado: Probado en la clasificación con medianas de
cadenas y mejoraba a la ED tradicional.
Distancia de edición con + y ● Distancia de edición de cadenas con ejemplos
positivos y negativos.
● d(y,x+,x-) vs. d(y,x+)
Estado: Pensando...
Clasificación jerárquica adaptativa con
múltiples clasificadores
C1
C1,1
C1,2
● La idea principal es aplicar Bayes a
los distintos clasificadores (1er y 2º
nivel) para clasificar (máx prob).
● Aplicar pesos a las decisiones de los
clasificadores según los fallos
cometidos en entrenamiento
Estado: Comentado con Pierre y a la
espera de resultados.
?

Documentos relacionados