datos - grfia
Transcripción
datos - grfia
Ideas generales trabajos ...e ideas recientes pendientes Juan R. Rico - Julio 2015 Ideas generales tendencias actuales Tendencias... Ensembles of classifiers: Imbalanced data: ● casi en desuso como ● casi en desuso como estrategia aislada; estrategia aislada; ● aplicada para problemas ● pero aplicada para junto Big o Imbalanced Data problemas junto Big Data, Ensembles o Deep Learning es interesante Tendencias... Big Data: Deep Learning: ● En serio: ● adecuado para cualquier ○ Gigas/Teras de datos problema de tratamiento de ○ cluster (Hadoop, Spark,...) señal homogénea ○ difícil de mantener y lento (extracción de para publicar (IUII) características jerarquizada tipo imagen, audio, texto,...) ● Realizable/asumible: ○ Estrategias/algoritmos ● no está claro su nivel de para tratamiento de efectividad en datos datos por separado heterogéneos. (clásicos con divide y vencerás) Conclusión... Imbalanced Data Deep Learning Ensembles of classifiers Big Data trabajos recientes Ranking Prototypes for classification Ranking prototipos clasificación 1-NN ● Asignación de un ranking a los elementos del conjunto de aprendizaje. PRL (feb 2012-Q2). ● Extensión como algoritmo incremental. Neurocomputing (abr 2014-Q2) (J. M. Iñesta) ● Pruebas exhaustivas con más conjuntos de datos y más algoritmos PS. Enviando... a Neurocomputing (Jorge Calvo; J. J. Valerlo-Más; J.M. Iñesta; jul 2015-Q2) Pendiente: ● Extensión del ranking de 1-NN a k-NN ● Extensión del ranking con criterio de parada automático (similar condensing) PG vs PS in Dissimilarity Space (DS) ● Idea original de Jorge Calvo ○ En datos estructurados es difícil generar nuevos prototipos pero en el espacio de disimilitud (DS) es fácil. ○ Es interesante comparar la efectividad de los algoritmos kNN en el espacio original vs embebido con técnicas PG y PS. ● Comparativa entre algoritmos PG vs PS con diferentes conjuntos de datos. IbPRIA 2015 (Core C). Pendiente: ● Propuesta de extensión para Neural Computing and Applications journal (IF≈1,5-Q2). +BD, +DS, +PG!? Confidence Matrix based in weak classifiers Varios clasificadores + matriz de confianzas ● Clasificación basada en matrices de confianza (transformación de características usando varios clasificadores). Neurocomputing (J. Calvo; ene 2015-Q2) Pendiente: ● Utilizar estas matrices con redes Deep Learning, generación/selección de prototipos Selecting a few similar classes kNNc Mejorar la selección de prototipos con kNN con filtrado de clases (kNNc) Original Original-PS : C-clases PS Selección de prototipos Clasificación x 2 clases recomendadas Mejorar la selección de prototipos con filtrado de clases (kNNc) ● Improving kNN multi-label classification in Prototype Selection scenarios using class proposals. PR (J. Calvo; J.J. Valero; 2015-Q1). Pendiente ● Acelerar el proceso con algoritmos rápidos de búsqueda (AESA, LAESA,...) colaborando con Luisa y José Oncina. Prototype Selection and Big Data Selección de prototipos y kNNc para Big Data ¿Qué ocurre si aplicamos PS a grandes conjuntos de datos divididos en P particiones? ● ● ● ¿La tasa de clasificación es similar a la que se obtendría con P=1? ¿El tamaño de la selección de prototipos final para P>1 es similar a la de P=1? ¿Qué algoritmos de PS serían más robustos frente al tamaño de P y al ruido? Estado: ● ● Pruebas preliminares indican que esta estrategia mantiene e incluso mejora la tasa de clasificación de la PS sobre el conjunto original. Enviando Neurocomputing (J. Calvo; J.J. Valero; abr 2015-Q2). ideas pendientes Limited expand-reduce adaptative learning Limitar las instancias almacenadas de un kNN incremental ● La idea básica es: ○ ○ ○ Limitar el número de prototipos base almacenados en un sistema kNN y realizar predicciones con ellos (adaptar kNN según % almacenado). Aplicable a sistemas interactivos/adaptativos. La base es aplicar PS cuando sea necesario. ● Beneficios ○ ○ ○ Se puede usar en varios dispositivos smartphone, tablet, portátil o PC dependiendo de su RAM/CPU. Se puede proporcionar sistema base inicial y adaptarlo al usuario. Algoritmo adaptable mediante selección del algoritmo PS más adecuado. ● Estado: ○ Pensando y comentando (J. Calvo; J.J. Valero). Instancias interacciones más interacciones Instancias después de PS Crecen nuevas Instancias Instancias Inicio Nuevas Instancias Instancias Ejemplo gráfico aplicar PS N Algoritmo de aprendizaje incremental 1. Fijar número de prototipos máximo, N. 2. Partir de una serie de prototipos representativos (<<N). 3. Realizar predicciones y acumular nuevos prototipos etiquetados mientras quede espacio disponible (incremental/interactivo/adaptativo). 4. Cuando se alcance N activar el sistema de PS y reducir instancias. 5. Ir al paso 3. Mobile verification system based on type Verificación biométrica en móviles por tecleo ● Verificar la autenticidad de una persona por su modo de teclear ciertas palabras. ○ investigaciones en PC pero no para móviles (que yo sepa) ○ ○ ○ ○ ○ Medio barato, rápido!? y seguro!? (web/app) Medición del estado de sensores cuando se pulsa una tecla Log Extracción de características (velocidad, orientación, presión,...) Probar modelos ■ Clasificador independiente por sensor (tipo de características) ■ Combinación de clasificadores, datos desequilibrados ■ ERR, ROC Estado: Trabajando en ello (Javier Gallego y Jorge Calvo). Stagnant ideas... Evolución Ranking prototipos a calidad de aprendizaje de un clasificador incremental ● Evaluación del aprendizaje de un sistema incremental basado en 1-NN ○ ○ ○ Medición de ranking de prototipos en diferentes instantes de tiempo durante el aprendizaje del sistema Aplicación de test estadísticos a las diferentes series de medidas. Establecer qué clases se han aprendido y con qué precisión ■ Puede ayudar a rechazar prototipos innecesarios por el sistema incremental. ■ Crear nuevas clases si fuera necesario. ■ Puede establecer una precisión para las clases ya aprendidas. Estado: Pensado y está a falta de asignar. Variante de la distancia de edición ● Explorar las posibilidades de una variante en la sustitución de la ED. ● La operación de sustitución se aplicaría a una ventana de n elementos consecutivos. ● Se benefician los casos de exactitud en los símbolos sustituidos. Estado: Probado en la clasificación con medianas de cadenas y mejoraba a la ED tradicional. Distancia de edición con + y ● Distancia de edición de cadenas con ejemplos positivos y negativos. ● d(y,x+,x-) vs. d(y,x+) Estado: Pensando... Clasificación jerárquica adaptativa con múltiples clasificadores C1 C1,1 C1,2 ● La idea principal es aplicar Bayes a los distintos clasificadores (1er y 2º nivel) para clasificar (máx prob). ● Aplicar pesos a las decisiones de los clasificadores según los fallos cometidos en entrenamiento Estado: Comentado con Pierre y a la espera de resultados. ?