Organización del Centro de Cálculo

Transcripción

Organización del Centro de Cálculo
Organización del Centro de
Cálculo
Problemas Septiembre 2007
•
•
•
•
•
•
•
40 servidores sin identificar
Ubicación de Servidores aleatoria
Servidores cayéndose constantemente
Ni un servidor en rack
Red y cableado a punto de colapso
Desorden generalizado y sin etiquetar
Documentación nula
• Problemas con facturas impagadas,
proveedores desconocidos, desaparición
de material
• Graves problemas eléctricos. No se utiliza
el SAI
• Graves problemas de aire acondicionado
• Parque de ordenadores para usuarios a
base de clónicos, anticuados y sin servicio
de reparación.
Primeros pasos a seguir
• Servidores críticos: correo ( Instalado en 5
máquinas, algunas con 8 años)
• Inventario servidores y servicios
• Documentación de la red. Elaboración del
primer diagrama de red en 8 años.
• Renovación de la red en navidades del
2007
Renovación red
• Primer paso: Quitar toda la red del CPD y
los servidores
• Segundo paso : Volver a poner cableado
con etiquetas y ordenado
Renovación red
• Tercer paso: Volver a poner todos los
servidores
• Cuarto paso : Poner switchs nuevos
• Quinto paso: Cablear servidores y puestos
Siguientes pasos a seguir para la
renovación del centro de calculo
•
•
•
•
•
Renovación de PCs de usuarios
Diseño de la red de servidores y servicios
Diseño de un nuevo centro de calculo
Documentación en general
Gestión de la compra de un servidor de Cálculo
• Renovación de PCs de usuarios
Diseño de un nuevo centro de
calculo
• Renovación Eléctrica
– SAI nuevo de 60 Kw ampliable a 90 kw
– Cambio del cuadro eléctrico
– Cambio de cableado eléctrico, tanto el del
suelo como el del techo
– Ordenación del cableado eléctrico en
bandejas que pasen por el falso suelo
– Previsión de energía para el cluster
• Renovación del aire acondicionado.
Añadir a los 7 kw unos 38 kw más
Diseño de un nuevo centro de
calculo
• Renovación disposición servidores.
Compra de racks y servidores
enrracables.
• Compra de más switches adicionales
• Saneamiento del cableado de red y
eléctrico antiguo.
• Realizar todas las obras sin perdida de
red y servicios para los usuarios
Centro de calculo antiguo
Centro de calculo ahora
Pasos a seguir
• Contratar las diferentes empresas para los
diversos trabajos a hacer
• Reinstalar todos los servidores en todo
CIMNE
• Verificación día tras día de las obras y
arreglar nosotros mismos los fallos
Siguientes pasos a seguir
• Introducir en el CPD todos los servidores
repartidos en todo CIMNE
• Etiquetar cableado de red, cuadro
eléctrico
• Arreglar pequeños detalles de última hora
• Reordenación de toda la documentación
• Instalación de nuevos servidores
enrracables
Diseño de la red de servidores y
servicios
• Sustitución paulatina de los servidores de
torre y clónicos por servidores enrracables
– Marca DELL, modelos 1950 y 2950,
pensados para una futura virtualización
• Migración de todos los servicios que hay
que dar al usuario
Servidor de cálculo
• Cabina de discos MD3000i con capacidad para
15 HDs y tenemos 5 hd de 750 Gb
• Blade PowerEdge M1000e para 16 modulos
• 10 PE M600 Quad Core Xeon E510 (2.33Ghz,
2x6Mb, 1333Mhz FSB) 16 Gb , 146 Gb SAS
• 1 PE M600 Quad Core Xeon E510, con 32 Gb
de RAM
• 2 PE M605 Quad Core Opteron
• Switch infiniband
Software
• Sistema Operativo instalado: RED HAT 5.1 con
entorno gráfico y escritorio GNOME
• Se instala el conjunto de aplicaciones OSCAR
( Open Source Cluster Application Resources)
• Componentes de oscar O S C A R
• C3 (Cluster Command Control): Herramienta
que permite administrar y ejecutar comandos en
todos los nodos del cluster.
• Ganglia: Es un programa que permite
monitorizar y observar en tiempo real el cluster.
• MPI: OSCAR incorpora tres implementaciones del
estándar MPI; MPICH, OPENMPI y LAM. Las cuales se
pueden cambiar fácilmente utilizando el comando
switcher.
• OPIUM: Este permite sincronizar cuentas y configurar
ssh a través de todo el cluster. Copia los archivos de
cuentas a todos los nodos y los sincroniza cada cierto
tiempo.
• OpenPBS: Es un administrador de trabajos que permite
administrar colas y ejecución de trabajos.
• PVM: Esta biblioteca de paso de mensajes viene
disponible con Oscar y se puede ocupar sin problemas
para paralelizar.
• Maui: Permite programar, administrar y priorizar con
sofisticados algoritmos los trabajos a través del cluster.
Funciona como parte de OpenPBS, aun cuando
originalmente no forma parte de él
• SIS: System Instalation Suite es una herramienta que
permite la instalación de Linux a través de una red. Se
usa para instalar los nodos clientes.
• Switcher: La instalación de los programas parte de
Oscar necesitan modificar varios de los script de
configuración propios de las cuentas (.bashrc, .login,
.logout).
• Torque: Gestor de recursos que proporciona control
sobre trabajos batch y nodos de cómputo distribuidos.
Utiliza un mecanismo de colas para ejecución de
trabajos que respeta los criterios de prioridad
configurados.
Ruegos y preguntas
Visita del CPD

Documentos relacionados