Organización del Centro de Cálculo
Transcripción
Organización del Centro de Cálculo
Organización del Centro de Cálculo Problemas Septiembre 2007 • • • • • • • 40 servidores sin identificar Ubicación de Servidores aleatoria Servidores cayéndose constantemente Ni un servidor en rack Red y cableado a punto de colapso Desorden generalizado y sin etiquetar Documentación nula • Problemas con facturas impagadas, proveedores desconocidos, desaparición de material • Graves problemas eléctricos. No se utiliza el SAI • Graves problemas de aire acondicionado • Parque de ordenadores para usuarios a base de clónicos, anticuados y sin servicio de reparación. Primeros pasos a seguir • Servidores críticos: correo ( Instalado en 5 máquinas, algunas con 8 años) • Inventario servidores y servicios • Documentación de la red. Elaboración del primer diagrama de red en 8 años. • Renovación de la red en navidades del 2007 Renovación red • Primer paso: Quitar toda la red del CPD y los servidores • Segundo paso : Volver a poner cableado con etiquetas y ordenado Renovación red • Tercer paso: Volver a poner todos los servidores • Cuarto paso : Poner switchs nuevos • Quinto paso: Cablear servidores y puestos Siguientes pasos a seguir para la renovación del centro de calculo • • • • • Renovación de PCs de usuarios Diseño de la red de servidores y servicios Diseño de un nuevo centro de calculo Documentación en general Gestión de la compra de un servidor de Cálculo • Renovación de PCs de usuarios Diseño de un nuevo centro de calculo • Renovación Eléctrica – SAI nuevo de 60 Kw ampliable a 90 kw – Cambio del cuadro eléctrico – Cambio de cableado eléctrico, tanto el del suelo como el del techo – Ordenación del cableado eléctrico en bandejas que pasen por el falso suelo – Previsión de energía para el cluster • Renovación del aire acondicionado. Añadir a los 7 kw unos 38 kw más Diseño de un nuevo centro de calculo • Renovación disposición servidores. Compra de racks y servidores enrracables. • Compra de más switches adicionales • Saneamiento del cableado de red y eléctrico antiguo. • Realizar todas las obras sin perdida de red y servicios para los usuarios Centro de calculo antiguo Centro de calculo ahora Pasos a seguir • Contratar las diferentes empresas para los diversos trabajos a hacer • Reinstalar todos los servidores en todo CIMNE • Verificación día tras día de las obras y arreglar nosotros mismos los fallos Siguientes pasos a seguir • Introducir en el CPD todos los servidores repartidos en todo CIMNE • Etiquetar cableado de red, cuadro eléctrico • Arreglar pequeños detalles de última hora • Reordenación de toda la documentación • Instalación de nuevos servidores enrracables Diseño de la red de servidores y servicios • Sustitución paulatina de los servidores de torre y clónicos por servidores enrracables – Marca DELL, modelos 1950 y 2950, pensados para una futura virtualización • Migración de todos los servicios que hay que dar al usuario Servidor de cálculo • Cabina de discos MD3000i con capacidad para 15 HDs y tenemos 5 hd de 750 Gb • Blade PowerEdge M1000e para 16 modulos • 10 PE M600 Quad Core Xeon E510 (2.33Ghz, 2x6Mb, 1333Mhz FSB) 16 Gb , 146 Gb SAS • 1 PE M600 Quad Core Xeon E510, con 32 Gb de RAM • 2 PE M605 Quad Core Opteron • Switch infiniband Software • Sistema Operativo instalado: RED HAT 5.1 con entorno gráfico y escritorio GNOME • Se instala el conjunto de aplicaciones OSCAR ( Open Source Cluster Application Resources) • Componentes de oscar O S C A R • C3 (Cluster Command Control): Herramienta que permite administrar y ejecutar comandos en todos los nodos del cluster. • Ganglia: Es un programa que permite monitorizar y observar en tiempo real el cluster. • MPI: OSCAR incorpora tres implementaciones del estándar MPI; MPICH, OPENMPI y LAM. Las cuales se pueden cambiar fácilmente utilizando el comando switcher. • OPIUM: Este permite sincronizar cuentas y configurar ssh a través de todo el cluster. Copia los archivos de cuentas a todos los nodos y los sincroniza cada cierto tiempo. • OpenPBS: Es un administrador de trabajos que permite administrar colas y ejecución de trabajos. • PVM: Esta biblioteca de paso de mensajes viene disponible con Oscar y se puede ocupar sin problemas para paralelizar. • Maui: Permite programar, administrar y priorizar con sofisticados algoritmos los trabajos a través del cluster. Funciona como parte de OpenPBS, aun cuando originalmente no forma parte de él • SIS: System Instalation Suite es una herramienta que permite la instalación de Linux a través de una red. Se usa para instalar los nodos clientes. • Switcher: La instalación de los programas parte de Oscar necesitan modificar varios de los script de configuración propios de las cuentas (.bashrc, .login, .logout). • Torque: Gestor de recursos que proporciona control sobre trabajos batch y nodos de cómputo distribuidos. Utiliza un mecanismo de colas para ejecución de trabajos que respeta los criterios de prioridad configurados. Ruegos y preguntas Visita del CPD