Sistema de Inmune Artificial para detección de Intrusos aplicando
Transcripción
Sistema de Inmune Artificial para detección de Intrusos aplicando
Sistema de Inmune Artificial para detección de Intrusos aplicando Selección negativa a perfiles de comportamiento de usuario César Guevara, Matilde Santos y Victoria López Universidad Complutense de Madrid https://cybercamp.es 1. 2. 3. 4. 5. 6. 7. Introducción, objetivo y motivación Origen del problema Área de la Investigación Métodos y Materiales Desarrollo del algoritmo IDS Resultados del experimento Conclusiones y Trabajos Futuros 2 En la actualidad la seguridad de la información es un área muy importante para cualquier persona o institución alrededor del mundo, ya que los datos se han convertido en el activo más importante el cual debe ser salvaguardado de una manera eficiente y adecuada. La gran mayoría de los datos deben mantenerse seguros de cualquier intruso o actividad no permitida, de modo que la seguridad tiene una importancia crítica. Desarrollar un algoritmo IDS eficiente para identificar patrones anómalos del comportamiento de los usuarios dentro de sistemas informáticos aplicando técnicas de inteligencia artificial. 4 El sector público de la república del Ecuador posee una gran red de sistemas de información que permiten realizar actividades y tareas internas de forma automatizada, pero resulta cada vez más difícil preservar la seguridad de la información. • • • • • • Usuarios autorizados que filtran información por motivos políticos, económicos, etc. Gran cantidad de información difícil de controlar. Variación del comportamiento de los usuarios informáticos dependiendo de circunstancias laborales, personales, etc. Sistemas de seguridad complejos pero ineficientes en detección de intrusos. Acceso de usuarios a información confidencial de múltiples sistemas. Acceso de usuarios en distintas estaciones de trabajo dentro y fuera de la institución. 8 1. Información de auditoria de un sistema informático de un periodo entre 2011 -2013. 2. Datos de 10 usuarios y la ejecución de tareas dentro del sistema. 3. Tamaño de la información es de 3.5 TB. 4. Contiene 15.571 registros de sesiones Normales y 5312 de sesiones Anómalas. 5. El sistema contiene en su base de datos 7 tablas en las que ejecutan tareas. 6. Operaciones en las tablas son Insert, Update, Delete y Find. 9 10 11 12 13 En esta sección se presentan los algoritmos aplicados en el presente trabajo. Los algoritmos utilizados que son: 1. Algoritmo de selección negativa (NSA) 2. Algoritmo Knuth Morris Pratt (KMP). 14 El algoritmo de selección negativa define el "self" mediante la construcción de modelos de comportamiento normales de un sistema monitorizado. Este proceso genera un número finito de patrones aleatorios que se comparan a cada modelo específico de self. 15 16 El objetivo principal de este problema es encontrar una cadena dentro otra cadena. En un patrón P para cada posición i, spi(p) se dice que es la longitud del sufijo más largo de P[1; 2i], que coincide con el prefijo P. Es similar a navegar dentro de la cadena y que realiza sus comparaciones de izquierda a derecha. También calcula los desplazamientos máximos posibles de izquierda a derecha para el patrón P. 17 18 En este trabajo se ha comprobado que cada uno de los usuarios no realizan más de 13 tareas de las 28 existentes para su comportamiento normal. Por esta razón se ha tomado ese valor como máximo de tareas ejecutadas para este nuevo modelo. El modelo de datos identifica si existe una o varias tareas Task en una sesión S y asigna un valor de "1" al casillero correspondiente de cada tarea y caso contrario "0" al no existir dicha tarea. 19 20 21 En el experimento, su umbral de coincidencia se define como número de detectores cuando se fija un error de falso negativo como se muestra en el Trabajo de Forrest. La fórmula es la siguiente: Pg es la probabilidad de coincidencia entre una cadena binaria del detector y una cadena de autogenerada al azar. Ns es el número de cadenas self. Los g es la cardinalidad del alfabeto del genotipo del detector. Los l es la longitud del detector de la cadena de genotipo, r es el umbral de la función de emparejamiento-r contigua. 22 Al ser calculado r se utiliza en la siguiente ecuación para derivar un número adecuado de detectores llamados Dar, además, un número total de ensayos para generar estos detectores llamados como Dar0, cuando el error de falsos negativos nombrado como Pf. Esta fórmula es útil para predecir el número adecuado de detectores y su número de generación, su número previsto mostró cómo este enfoque es óptimo cuando se aplica la estructura de datos propuesta. Finalmente los detectores anómalos Dar proceden a la siguiente fase para las tareas de identificación de secuencias activas As. 23 Detectores Dan generados en el NSA Sesión activa As a ser evaluada Sesión NORMAL Algoritmo Knuth Morris Pratt (KMP) Sesión ANORMAL 24 25 26 27 28 29 • El modelo propuesto ha brindado óptimos resultados en la fase de pruebas. • La ventaja de nuestro modelo es la generación de comportamientos anómalos, aplicando selección negativa, a partir de comportamientos normales de cada uno de los usuarios. • Permite que el modelar el perfil de cada usuario el cual sea único y dinámico. 30 • Aplicar series de tiempo para la identificación de comportamientos anómalos. • Implementar algoritmos de procesamiento paralelo (Hadoop) para la mejoría en el desempeño de la detección. • Implementación en otras áreas de la ciencia como la medicina, sistemas industriales, economía o el medio ambiente. 31 Phd. Matilde Santos Peñas University Complutense of Madrid [email protected] Phd. Victoria López University Complutense of Madrid [email protected] Phd Alípio Jorge Coordinator LIAAD University of Porto [email protected] Phd Student César Guevara University Complutense of Madrid [email protected] 32 34 https://cybercamp.es #CyberCamp15 @CyberCampEs