Sistema de Inmune Artificial para detección de Intrusos aplicando

Transcripción

Sistema de Inmune Artificial para detección de Intrusos aplicando
Sistema de Inmune Artificial para detección
de Intrusos aplicando Selección negativa a
perfiles de comportamiento de usuario
César Guevara, Matilde Santos y Victoria López
Universidad Complutense de Madrid
https://cybercamp.es
1.
2.
3.
4.
5.
6.
7.
Introducción, objetivo y motivación
Origen del problema
Área de la Investigación
Métodos y Materiales
Desarrollo del algoritmo IDS
Resultados del experimento
Conclusiones y Trabajos Futuros
2
En la actualidad la seguridad de la información es
un área muy importante para cualquier persona
o institución alrededor del mundo, ya que los
datos se han convertido en el activo más
importante el cual debe ser salvaguardado de
una manera eficiente y adecuada. La gran
mayoría de los datos deben mantenerse seguros
de cualquier intruso o actividad no permitida, de
modo que la seguridad tiene una importancia
crítica.
Desarrollar un algoritmo IDS eficiente para
identificar patrones anómalos del
comportamiento de los usuarios dentro de
sistemas informáticos aplicando técnicas
de inteligencia artificial.
4
El sector público de la
república del Ecuador posee
una gran red de sistemas de
información que permiten
realizar actividades y tareas
internas de forma
automatizada, pero resulta
cada vez más difícil preservar
la seguridad de la información.
•
•
•
•
•
•
Usuarios autorizados que filtran información por
motivos políticos, económicos, etc.
Gran cantidad de información difícil de controlar.
Variación del comportamiento de los usuarios
informáticos dependiendo de circunstancias laborales,
personales, etc.
Sistemas de seguridad complejos pero ineficientes en
detección de intrusos.
Acceso de usuarios a información confidencial de
múltiples sistemas.
Acceso de usuarios en distintas estaciones de trabajo
dentro y fuera de la institución.
8
1. Información de auditoria de un sistema informático de
un periodo entre 2011 -2013.
2. Datos de 10 usuarios y la ejecución de tareas dentro
del sistema.
3. Tamaño de la información es de 3.5 TB.
4. Contiene 15.571 registros de sesiones Normales y
5312 de sesiones Anómalas.
5. El sistema contiene en su base de datos 7 tablas en las
que ejecutan tareas.
6. Operaciones en las tablas son Insert, Update, Delete y
Find.
9
10
11
12
13
En esta sección se presentan los algoritmos aplicados en
el presente trabajo. Los algoritmos utilizados que son:
1. Algoritmo de selección negativa (NSA)
2. Algoritmo Knuth Morris Pratt (KMP).
14
El algoritmo de selección negativa define el "self" mediante
la construcción de modelos de comportamiento
normales de un sistema monitorizado. Este proceso
genera un número finito de patrones aleatorios que se
comparan a cada modelo específico de self.
15
16
El objetivo principal de este problema es encontrar una
cadena dentro otra cadena. En un patrón P para cada
posición i, spi(p) se dice que es la longitud del sufijo
más largo de P[1; 2i], que coincide con el prefijo P. Es
similar a navegar dentro de la cadena y que realiza sus
comparaciones de izquierda a derecha. También
calcula los desplazamientos máximos posibles de
izquierda a derecha para el patrón P.
17
18
En este trabajo se ha comprobado que cada uno de los
usuarios no realizan más de 13 tareas de las 28
existentes para su comportamiento normal. Por esta
razón se ha tomado ese valor como máximo de tareas
ejecutadas para este nuevo modelo. El modelo de datos
identifica si existe una o varias tareas Task en una sesión
S y asigna un valor de "1" al casillero correspondiente de
cada tarea y caso contrario "0" al no existir dicha tarea.
19
20
21
En el experimento, su umbral de coincidencia se define como número
de detectores cuando se fija un error de falso negativo como se
muestra en el Trabajo de Forrest. La fórmula es la siguiente:
Pg es la probabilidad de coincidencia entre una cadena binaria del detector
y una cadena de autogenerada al azar. Ns es el número de cadenas
self. Los g es la cardinalidad del alfabeto del genotipo del detector. Los l
es la longitud del detector de la cadena de genotipo, r es el umbral de la
función de emparejamiento-r contigua.
22
Al ser calculado r se utiliza en la siguiente ecuación para derivar un
número adecuado de detectores llamados Dar, además, un
número total de ensayos para generar estos detectores llamados
como Dar0, cuando el error de falsos negativos nombrado como
Pf.
Esta fórmula es útil para predecir el número adecuado de detectores y su
número de generación, su número previsto mostró cómo este enfoque es óptimo
cuando se aplica la estructura de datos propuesta. Finalmente los detectores
anómalos Dar proceden a la siguiente fase para las tareas de identificación de
secuencias activas As.
23
Detectores Dan
generados en el
NSA
Sesión activa
As
a ser evaluada
Sesión
NORMAL
Algoritmo Knuth
Morris Pratt (KMP)
Sesión
ANORMAL
24
25
26
27
28
29
• El modelo propuesto ha brindado óptimos resultados en
la fase de pruebas.
• La ventaja de nuestro modelo es la generación de
comportamientos
anómalos,
aplicando
selección
negativa, a partir de comportamientos normales de cada
uno de los usuarios.
• Permite que el modelar el perfil de cada usuario el cual
sea único y dinámico.
30
• Aplicar series de tiempo para la identificación de
comportamientos anómalos.
• Implementar algoritmos de procesamiento paralelo
(Hadoop) para la mejoría en el desempeño de la
detección.
• Implementación en otras áreas de la ciencia como la
medicina, sistemas industriales, economía o el medio
ambiente.
31
Phd. Matilde Santos Peñas
University Complutense
of Madrid
[email protected]
Phd. Victoria López
University Complutense
of Madrid
[email protected]
Phd Alípio Jorge
Coordinator LIAAD
University of Porto
[email protected]
Phd Student César Guevara
University Complutense
of Madrid
[email protected]
32
34
https://cybercamp.es #CyberCamp15
@CyberCampEs

Documentos relacionados