Un sistema de Alto Rendimiento

Transcripción

Un sistema de Alto Rendimiento
Plataformas operativas de tecnologías de información
Afinación del rendimiento
Afinación del Rendimiento Tolerancia a fallos.
• Fiabilidad.
• Recuperación.
• Alta disponibilidad.
• Interoperabilidad con otros equipos y servidores de red.
• Proveedor de servicios de soporte.
• Sistema redundante.
• Sistema cluster.
• Sistema stand by.
Ambiente de Alta Disponibilidad
Fallos
• Fallo: Incapacidad de que un elemento desarrolle aquellas funciones.
• Falta: Condición anómala, fabricación, interferencias, entradas no previstas, etcétera.
• Error: Manifestación de una falta.
Tolerancia a Fallos:
Un sistema es tolerante a fallos cuando exhibe un comportamiento bien definido en caso de fallo
o enmascara el fallo de sus componentes a sus usuarios.
Clasificación de Fallos:
• Fallo de Omisión. Omite respuesta el servidor.
• Fallo de Temporización. Hay una respuesta correcta, pero fuera de tiempo.
• Fallo de Respuesta. Respuesta incorrecta.
• Caída (Crash). Al primer fallo servidor deja de dar respuestas hasta ser reiniciado.
Otros: Fallo parada, Caída y enlace, Omisión de recepciones, Omisión de envíos, Omisión general, Fallos bizantinos.
Fiabilidad
La fiabilidad, F(t), es la probabilidad condicionada de que un sistema pueda desarrollar sus funciones en el instante t, sabiendo que era operativo en el instante t=0.
La fiabilidad dependerá de:
-Las faltas que puedan afectar al sistema.
-Los mecanismos que posea el sistema para evitar que aparezcan fallos cuando se den faltas.
Para clasificar a un sistema como fiable, éste debe poseer mecanismos que eviten que se dé
ningún fallo: mecanismos de recuperación automática.
Disponibilidad
• Probabilidad de que un sistema o servicio esté operativo en un determinado instante.
Donde:
-TMEF: Tiempo medio entre fallos.
-TMDR: Tiempo medio de reparación.
Alta disponibilidad:
Cuando se exige que el tiempo total de indisponibilidad sea corto. Además, el tiempo necesario
para recuperar el servicio debe ser muy bajo.
Recuperación
Para tener un sistema tolerante a fallos, se deben emplear o combinar algunas de las siguientes
técnicas:
Enmascarado: Corrección dinámica de los errores generados. El cliente no apreciará ningún fallo.
Detección: Detección de un error, que es el síntoma de la ocurrencia de una falta.
Contención: Evitar que un error se propague a otros servicios que dependan de aquél donde
haya ocurrido.
Diagnóstico: Identificación del módulo responsable de un determinado error que ha podido ser
detectado.
Reparación - reconfiguración: Eliminación o reemplazo de un componente afectado por una
falta. Utilización de mecanismos que permitan continuar el servicio sin utilizar el componente
afectado por la falta.
Recuperación: Corrección del sistema para lograr un estado en que sea viable la prestación de
servicios.
Sistema Redundante (RAID)
Sistemas RAID
• El término es un acrónimo del inglés, Redundant Array of Inexpensive Disks o Redundant
Array of Independent Disks, que significa Matriz Redundante de Discos de Bajo Costo o Matriz Redundante de Discos Independientes.
• RAID es una forma de almacenar los mismos datos en distintos lugares (por tanto, de modo
redundante) en múltiples discos duros.
• La tecnología RAID protege los datos contra el fallo de alguna unidad de disco duro, si se
produce un fallo de alguno de ellos, RAID mantiene el sistema activo hasta que se sustituya
la unidad defectuosa.
Funcionamiento del RAID
• Los discos optimizados para RAID poseen circuitos integrados que detecta si el disco está
fallando, de ser así este circuito se encargará, por encima del tiempo real, de sacar la información y almacenarla en los otros discos o, si es el caso, en el “hot spare”.
• Un hot spare es un disco que permanece siempre en el sistema, esperando a que otro se estropee y él entre directamente en funcionamiento.
• Una de las ventajas del sistema RAID es la posibilidad, con los discos hot swap, de conectarlos
y desconectarlos en “caliente”, es decir, que si un disco falla no hará falta el apagar el sistema
para remplazarlo.
Niveles de RAID
Oficialmente existen 7 niveles diferentes de RAID (0-6) definidos y aprobados por el RAID Advisory Board:
RAID-0. Distribución de discos
RAID-1. Duplicación de discos o discos Espejo
RAID-2. Distribución de discos con ECC.
RAID-2. Distribución de discos con ECC.
Sistema Cluster
• Son computadoras que comparten sistemas de almacenamiento y que están conectados a
través de una red. Actualmente, estos sistemas se utilizan para crear entornos de “alta disponibilidad”.
• Microsoft Clustering es una implementación de agrupamiento de servidores de Microsoft. El
término «clustering» se refiere a un grupo de sistemas independientes que funcionan juntos
como un único sistema. La tolerancia a fallos se ha desarrollado dentro de la tecnología de
agrupamiento o clustering.
Existen 2 tipos:
-Asymmetric Clustering.
-Symmtric Clustering.
Sistema Stand-By
Sistemas de alimentación ininterrumpida (SAI)
• Es un generador de corriente externo, automatizado, diseñado para mantener operativo un
servidor u otro dispositivo en el momento de producirse un fallo de suministro eléctrico.
Los SAI ofrecen dos componentes importantísimos:
• Una fuente de corriente que permite mantener operativo un servidor durante un corto periodo.
• Un servicio de gestión de apagado seguro.
Un buen SAI permitirá:
• Evitar que muchos usuarios accedan al servidor.
• Enviar un mensaje de advertencia al administrador de la red a través del servidor.

Documentos relacionados