Anexo II Servicios de Instalacion.pdf

Documento Adicional Ver licitación
{# full_text keeps real newlines; whitespace-pre-wrap renders them (so no |linebreaks filter, which would double the spacing). #}
<!-- image --> <!-- image --> <!-- image --> ## ANEXO II SERVICIOS DE INSTALACIÓN PROPORCIONAR POR EL ADJUDICATARIO AVANZADA Y/O ## II.1. SERVICIOS DE INSTALACIÓN AVANZADA DE LOS SUMINISTROS ## Alcance ## 4.- Instalación y aceptación ## 4.1.- Instalación del sistema | Ref | Descripción | |-------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | R1 | El clúster y todos los componentes y servicios descritos en este pliego se deben entregar 'llaves en mano', completamente listos para ser usados en producción, según la descripción de este documento. | | R2 | El licitador debe de proveer recursos de gestión de proyecto para la instalación del clúster. | | R3 | El licitador debe proveer de soporte de expertos en benchmarking del sistema de GPUs, optimizando el rendimiento de estos benchmarks. Se deberá verificar los valores de rendimiento en cómputo usando HPL Linpack FP64, y HPL en 'mixed - precission'. | | R4 | Todas las tareas de instalación y configuración deben realizarse presencialmente en el BSC; no se proporcionará acceso remoto para realizar estas tareas. La instalación debe llevarse a cabo junto con el equipo de operaciones de BSC-CNS, para permitir la transferencia de conocimientos durante todo el proceso de instalación. El equipo de operaciones debe aprobar cualquier decisión o plan establecido durante la fase de instalación antes de su implementación. | | R5 | Durante la fase de instalación, el Candidato se encargará de limpiar el datacenter (CPD TG -1) del BSC-CNS cada semana para mantenerlo libre de material sobrante, cajas de cartón u otros materiales de transporte e instalación, esto afectará a las zonas de trabajo de ambos datacenter. | ## 4.2.- Planificación en tiempo | Ref | Descripción | |-------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | R2 | El licitador proveerá de una lista de riesgos que podrían afectar negativamente a la instalación y a la operación del sistema licitado. Para cada riesgo se debe indicar la probabilidad, descripción del impacto y las acciones de mitigación del riesgo que se tomarían. | <!-- image --> SOPORTE A <!-- image --> <!-- image --> <!-- image --> <!-- image --> | Ref | Descripción | |-------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | R3 | Las tareas de adaptación de los CPDs para la instalación del clúster, serían las primeras tareas a planificar e implementar. Dentro de la implementación de estas tareas se deben indicar las afectaciones a los sistemas actuales en producción en esas localizaciones. Los componentes administrativos y elementos de red centrales, se deberían enviar e instalar con anticipación a la llegada de cualquier rack de cómputo, con tal de instalarlos previamente y así agilizar la instalación de los racks de cómputo y el pasar a producción. | | R4 | Dentro de la planificación de la instalación el licitador deberá añadir o reservar 2 días los cuales se usarán para realizar las pruebas de las nueva/s CDU/s a instalar. | | R5 | El horario de trabajo se define de 08:30h a 17h los días laborales del calendario laboral del BSC-CNS. | ## 4.3.- Procedimiento de aceptación Para la aceptación provisional, las siguientes pruebas se deberán de realizar. Al menos por 24 horas los siguientes valores de elementos defectuosos no deben de ser sobrepasados: | Componente | Límite de elementos defectuosos | |-------------------------------------|---------------------------------------------------| | Nodos cómputo | Todos los nodos deben estar funcionales | | Servidores administrativos y logins | Todos los nodos funcionales | | Ethernet | Menos del 1%delos links/switches disfuncionales | | Red alto rendimiento | Menos del 1% de los links/switches disfuncionales | ## Pruebas funcionales como las siguientes: - Todas las funcionalidades del hardware y software de alta disponibilidad deben ser testeadas (incluyendo el circuito de agua interno). - Función correcta de todo el sistema de enfriamiento en conformidad con las especificaciones propuestas. Para validar el rendimiento de los nodos de cálculo se realizarán tres tipos de ejecuciones: - Pruebas de rendimiento completo del sistema (o partición de cálculo completa) <!-- image --> <!-- image --> <!-- image --> <!-- image --> - Pruebas de rendimiento con un número predeterminado de cores, para medir el rendimiento de la partición en comparación con otras máquinas. El rendimiento se medirá en términos de rendimiento por nodo, rendimiento por rack y rendimiento por isla o subconjunto grande de nodos de cálculo. - Pruebas de estabilidad: estas pruebas consisten en la ejecución de varios trabajos pequeños e idénticos que utilizan el sistema completo (hasta un 95%) durante 7 horas. Se requiere que el superordenador, hardware y software sean lo suficientemente estables para completar correctamente el 98% de los trabajos y los tiempos de ejecución no deben variar más del 10%. Si esta prueba falla, el proveedor debe solucionar cualquier problema para poder alcanzar la estabilidad solicitada. Las aplicaciones a utilizar en estas pruebas serán HPL Linpack y HPCG. Todos los rendimientos ofertados serán validados y son de obligado cumplimiento para la aceptación de este clúster. Cualquier valor que no cumpla requerirá acciones de mitigación por parte del proveedor hasta que se alcance el valor comprometido. ## Hitos y entregables | Hito | Descripción del hito y sus entregables | Plazo | Porcentaje de la prestación | |---------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------|-------------------------------| | HITO_01 | Adecuación del CPD, entrega de todo el hardware, cableado físico y labelado de toda la solución completo. Entregables: • Documentación modificaciones del CPD • Listado de todos los elementos hardware, número de modelo, serial number • Layout de racks con los componentes. Excel con el P2P de todo el cableado físico • Cuaderno de pruebas u otras evidencias de que se han realizado las tareas | 1 mes | 33% | | HITO_02 | Configuración de los componentes e instalación software de la solución Entregables: • Documentación de las decisiones y configuraciones realizadas • Cuaderno de pruebas u otras evidencias de todas las funcionalidades operativas descritas en este pliego | 1 mes | 33% | | HITO_03 | Aceptación provisional y cumplimiento de todas las condiciones para la aceptación descritos anteriormente. Entregables: • Cuaderno de pruebas u otras evidencias demostrando el éxito de todas las pruebas requeridas para la aceptación | 1 mes | 33% | <!-- image --> <!-- image --> ## II.2. SERVICIOS DE SOPORTE DE LOS SUMINISTROS ## Alcance <!-- image --> ## 5.- Mantenimiento y soporte | Ref | Descripción | |-------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | R1 | Se deberá proporcionar un mantenimiento de una duración mínima de 3 años desde el momento de aceptación del clúster. Delante de fallos hardware se deberán reparar con una respuesta en 4 horas dentro de las horas de oficina (08:00 - 17:00) y con un servicio de soporte de Next Business Day. En caso de incidencias muy críticas que impliquen una afectación global de la producción de los clúster, se deberá proveer un seguimiento continuo 24x7 hasta la resolución de la incidencia. | | R2 | Durante el periodo de mantenimiento, el Proveedor debe asumir toda la responsabilidad por el reemplazo de cualquier componente de hardware o resolver cualquier mal función del software. Esto incluye cualquier componente de infraestructura proporcionado con el Supercomputador (circuito de agua interno, CDU, tuberías de agua a los racks, etc.). | | R5 | El Candidato realizará acciones de mantenimiento preventivo y proactivo para reemplazar componentes que son propensos a fallar en el futuro inmediato. Por otro lado, proporcionará recomendaciones sobre actualizaciones de firmware/software necesarias para mejorar el rendimiento o corregir errores existentes. Se deben proporcionar los pasos de actualización y la metodología. Si BSC- CNS considera que algunas de las actualizaciones/cambios propuestos tienen algún riesgo y no son obvios de implementar, puede solicitar la presencia de técnicos | | R6 | Se exigirá un trabajo en equipo con el departamento de operaciones del BSC, para la coordinación del diseño hardware de la solución. Cualquier plan o toma de decisión se deberá verificar con el departamento de operaciones del BSC antes de llevarla a cabo. | | R7 | El Candidato garantizará que todos los datos del cliente almacenados en cualquier componente de almacenamiento no volátil accesible por el usuario (incluyendo Flash, HDD) serán eliminados cuando se retiren del cluster como parte del mantenimiento del sistema. La eliminación de datos puede ocurrir fuera del BSC-CNS, pero debe estar en conformidad con las directrices comunes de protección de datos. Se pueden proponer alternativas que garanticen la confidencialidad de los datos almacenados en componentes de almacenamiento no volátil (por ejemplo, destrucción por parte del cliente). | | R8 | El licitador proveerá de mecanismos de escalado de incidencias. | <!-- image --> <!-- image --> <!-- image --> <!-- image --> <!-- image --> | R9 | BSC-CNS prevé celebrar reuniones, regulares o en cualquiermomento en caso de crisis o no cumplimiento de los SLA de esta licitación. El Candidato garantizará la disponibilidad de las personas clave del soporte técnico necesarias para asistir a estas reuniones. | |------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | R10 | El Candidato describirá los roles y responsabilidades de todas las partes involucradas durante la operación del sistema mediante un modelo RACI (Responsable, Responsable por la Aprobación, Consultado, Informado). | | R11 | Toda tarea de mantenimiento y soporte del superordenador hardware/software se debe realizar de forma presencial, no se dará acceso remoto para realizarlas. | | R12 | Si más del 10% de un componente de hardware se ha reemplazado anualmente (basado en la población total de ese componente en el supercomputador completo) debido a fallos de hardware, todos esos componentes deben ser reemplazados por un componente compatible de otro proveedor o una nueva versión mejorada que no presente esa tasa de fallo, lo cual será evaluado con pruebas de aceptación adecuadas. | ## 6.- Transferencia de conocimientos | Ref | Descripción | |-------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | R1 | El licitador deberá proveer documentación final describiendo el diseño final y todo el registro de instalación, explicando cada una de las decisiones de diseño tomadas durante la instalación. Un plano físico por cada rack se deberá de proveer, con los cables salientes y entrantes por cada rack. También un resumen final con las características hardware y configuraciones para cada tipo de servidor. Por otro lado, se deberá entregar un documento en formato Excel con todos serial numbers de todos los componentes. | | R2 | Mapas físicos de todas las redes de la infraestructura se deberán de proveer, indicando claramente que está conectado en cada uno de los puertos de cualquier switch de cualquier red. La documentación debe incluir todas las operativas que se requieren para el funcionamiento del sistema de forma adecuada, tanto de la parte informática como de los componentes más dedicados a la refrigeración e infraestructura. Los documentos deben ser entregados. | | R3 | Todo documento a entregar a final de proyecto/instalación se debe hacer en formato editable (Office). | | R4 | El proveedor deberá realizar sesiones formativas prácticas durante la instalación y trabajar de forma conjunta con el equipo de operaciones del BSC en las tareas de instalación. Al final de la instalación una sesión de formación se deberá realizar (mínimo 2 días enteros) que describiría la infraestructura entera y las tareas administrativas y procedimiento de administración de la ampliación. | ## Horario de servicio <!-- image --> <!-- image --> <!-- image --> <!-- image --> El horario de trabajo se define de 08:30h a 17h los días laborales del calendario laboral del BSCCNS. ## II.2.1. DIMENSIONAMIENTO DEL SERVICIO Delante de fallos hardware se deberán reparar con una respuesta en 4 horas dentro de las horas de oficina (08:00 - 17:00) y con un servicio de soporte de Next Business Day. En caso de incidencias muy críticas que impliquen una afectación global de la producción de los clúster, se deberá proveer un seguimiento continuo 24x7 hasta la resolución de la incidencia. ## II.2.2. ACUERDOS DE NIVEL DE SERVICIO A efectos de cálculo del cumplimiento de los ANS, sólo computa el tiempo transcurrido dentro del horario de prestación del servicio descrito en el apartado anterior y atendiendo al dimensionamiento anterior. No se considerará el incorrecto desempeño del contratista por incumplimiento de los ANS si las incidencias superan el dimensionamiento del servicio previstos en el apartado anterior. | Id. | Nombre | Descripción del indicador | Valor | |--------|--------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------| | ANS_01 | Tiempo de respuesta | Tiempo transcurrido desde la comunicación de la incidencia hasta que el equipo de soporte comunica que ha empezado a trabajar en su resolución. | 4 horas / días | | ANS_02 | Tiempo de resolución de incidencia leve | Tiempo transcurrido desde el final del tiempo de respuesta hasta que el equipo de soporte ha solucionado la incidencia. No incluye el tiempo necesario para la aprobación por el Responsable del Contrato Específico. | 3 días | | ANS_03 | Tiempo de resolución de incidencia grave | Tiempo transcurrido desde el final del tiempo de respuesta hasta que el equipo de soporte ha solucionado la incidencia. No incluye el tiempo necesario para la aprobación por el Responsable del Contrato Específico. | 2 días | | ANS_04 | Tiempo de resolución de incidencia crítica | Tiempo transcurrido desde el final del tiempo de respuesta hasta que el equipo de soporte ha solucionado la incidencia. No incluye el tiempo necesario para la aprobación por el Responsable del Contrato Específico. | 1 día | Cuando la resolución de la incidencia requiera la realización de desarrollos que por su naturaleza necesitan de un plazo material superior al indicado en la tabla precedente, el contratista estará obligado a presentar al Responsable del Contrato Específico en el organismo destinatario, dentro del plazo de tiempo de resolución inicial, un plan de actuación que incluya la duración prevista de los trabajos para la resolución, la justificación de dicha previsión y la descripción de los trabajos a realizar. Si es necesario, se incluirá la descripción de las medidas paliativas a adoptar hasta la completa resolución de la incidencia. Dicho plan deberá ser aprobado por el Responsable del Contrato Específico. ## II.3. REQUISITOS DE LOS PERFILES PROFESIONALES El Candidato proporcionará un equipo de personas calificadas para el soporte de hardware presencial durante las horas laborales, con el fin de cumplir con los SLA establecidos. Las tareas principales incluyen el análisis de fallos, soporte de hardware (incluyendo el reemplazo de piezas y logística si es necesario). <!-- image --> <!-- image --> <!-- image --> <!-- image --> Se proporcionarán los documentos de calificación para las personas propuestas a BSC para verificarlas. BSC tendrá el derecho de solicitar una persona diferente con la calificación y experiencia adecuadas para las tareas descritas anteriormente. Para los componentes de infraestructura proporcionados con el clúster, en caso de cualquier incidente, una persona calificada debe estar presente en el sitio dentro de 2 horas desde la notificación del incidente.