Helmholtz-Zentrum für Umweltforschung GmbH - UFZ Konzept zur Erweiterung des EVE Clustersystems Inhaltsverzeichnis I. Ausgangssituation (Seite 1) II. Leistungsbeschreibung (Seite 2) 1. Compute Nodes (Seite 2 / Seite 3) 2. Frontend Node (Seite 4) 3. Remote Management über separaten Serviceprozessor (Seite 5) 4. FC Switch für das Storage Netzwerk (Seite 5) 5. Integration/ Installation (Seite 6) 6. Support (Seite 7) 7. Infrastruktur (Racks/Kühlung/Strom/Verkabelung) (Seite 7) 8. Kompatibilität (Seite 8) 9. Referenzprojekte (Seite 8) 10. Angaben zur Lieferfähigkeit (Seite 8) 11. Nachkaufoption (Seite 8) 12. Hinweis zur Bewertung (Seite 8) 13. Eignungsbewertungskriterien zum Verfahren (Seite 8) I. Ausgangssituation Anfang 2011 wurde mit dem EVE Clustersystem das erste, leistungsfähige, Linuxbasierte HPC Clustersystem mit ca. 1000 Cores basierend auf INTEL XEON E5 (Westmere) in Betrieb genommen. Mitte 2014 wurde dieses System mit ca. 1300 Cores INTEL Xeon E5 (Ivy Bridge-EP) auf den aktuellen Stand mit einer Größe von 2300 Cores erweitert. Die Serversysteme des Clusterverbundes sind über eine zentrale Infiniband-Switch Netzwerk-, bzw. Hardwareseitig verbunden. Die verfügbaren Ressourcen werden über die alle Serversysteme einschließende Ressource-Management-Software (RMS) UNIVA Grid Engine Software-seitig verwaltet. Die Konfiguration der RMS ermöglicht Nutzungs-Szenarien, in denen sogenannten Full-System Runs, d.h. Prozessläufe über alle Ressourcen (CPU Cores, RAM) des Clustersystems für einzelne Anwender und Anwendungen, bzw. Arbeitsgruppen möglich sind. In den vergangenen Jahren wurde stetig versucht sämtliche Anwendungssoftware auf die vorliegende Hardwarearchitektur zu optimieren um daraus optimale Ergebnisse und den größtmöglichen Nutzen ziehen zu können. Schlussfolgernd daraus ist sowohl Hard- als auch Softwareseitig von einem hochintegrierten, homogenen Gesamtsystem auszugehen. Seite 1 von 8 Helmholtz-Zentrum für Umweltforschung GmbH - UFZ II. Leistungsbeschreibung Im Rahmen dieser Beschaffung wird der Austausch der Compute und Frontend Nodes aus der Beschaffung von 2010/2011 mit dem Ziel der Maximierung der Rechnenleistung angestrebt. Zusätzlich soll die vorhandene Fibrechannel-Switch, die im Bereich des GPFS Filesystems die Anbindung der Storage-Server an die StorageSysteme realisiert, ersetzt werden. Es wird ein Rahmenvertrag für die Dauer von sechs Monaten abgeschlossen der Einzelbeschaffungen der geforderten Optionen zum angebotenen Preis ermöglicht. 1. Compute Nodes Als Compute Nodes sollen energieoptimierte Rackmount Server zum Einsatz kommen, die mit den aktuellen Intel Broadwell-EP CPUs ausgestattet sind. Für die Compute Nodes sind zwei Konfigurationen vorgesehen, die sich durch den Einsatz von Grafikkarten / GPUs unterscheiden. Die Konfigurationen sind mit identischen CPUs auszustatten. Konfiguration der Compute Node: Konfiguration 1: Compute Node ohne GPU • Rackmount-Server, inkl. Slide-Rail-Schienen ohne Kabelarm, maximale Bauhöhe 2HE • 2x CPU mit 16 Cores / 32 Threads, Leistungsklasse Intel E5-2683v4, 2.1GHz, 9.6 GT/s, 120W • 256 GB DDR4-2400MHz, basierend auf 16GB Modulen • energieeffizientes NT, austauschbar, Hot-Plug-fähig, nicht redundant • Stromversorung über PDU -C13/C14 Stecker mit max. Länge 1m anstatt Standard CEE 7/17 zu C13 • mind. Dual Port 1GBit Ethernet HCA • Abbildung von 2 VLANs (Interconnect, Remote-Management) über einen 1 Gbit Ethernet Port möglich • Single Port QDR InfiniBand HCA • Remote Management über iDRAC8 Enterprise, oder vergleichbare Funktionalität Es werden mind. 30 Compute Nodes beschafft. Zusätzlich sind Erweiterungspakete zu jeweils 1, 5 und 10 Nodes mit dem jeweiligen Paketpreis anzubieten. Seite 2 von 8 Helmholtz-Zentrum für Umweltforschung GmbH - UFZ Konfiguration 2: Compute Node mit GPU • Rackmount-Server, inkl. Slide-Rail-Schienen ohne Kabelarm, maximale Bauhöhe 2HE • 2x CPU mit 16 Cores / 32 Threads, Leistungsklasse Intel E5-2683v4, 2.1GHz, 9.6 GT/s, 120W • 256 GB DDR4-2400MHz, basierend auf 16GB Modulen • Energieeffizientes NT, austauschbar, Hot-Plug-fähig, nicht redundant wenn technisch mgl. • Stromversorgung über PDU -C13/C14 Stecker mit max. Länge 1m anstatt Standard CEE 7/17 zu C13 • Mind. Dual Port 1GBit Ethernet HCA • Abbildung von 2 VLANs (Interconnect, Remote-Management) über einen 1 Gbit Ethernet Port möglich • Single Port QDR InfiniBand HCA • Der Compute Node muss mind. 2 Steckplätze für Nvidia K80 besitzen • GPU (Cudafähig): 1x Nvidia K80 • Remote Management über iDRAC8 Enterprise, oder vergleichbare Funktionalität Es wird die Beschaffung von 2 Compute Nodes angestrebt. Zusätzlich sind Erweiterungspakete zu jeweils 1 und 5 Nodes mit dem jeweiligen Paketpreis anzubieten. Infiniband-Karte Optional zur Ausstattung der Server mit neuen Infiniband-Karten ist die Kompatibilität der Nachnutzung der bestehenden Karten (QLE7340) zu prüfen. Die Funktionsfähigkeit der Karten in den angebotenen Serversystemen ist durch den Anbieter zu dokumentieren und idealerweise mit einem Prüfprotokoll nachzuweisen. Für den Fall der Nachnutzung der bestehenden Infiniband-Karten in den zu beschaffenen Serversystemen sind die daraus resultierenden Service- und Supportbedingungen für die neuen Server zu dokumentieren. Bei Bedarf wird eine der vorhandenen Karten zum Test der Kompatibilität bereitgestellt. Falls es die Möglichkeit zum Rückkauf der vorhandenen Infiniband Karten gibt, ist ein Preisangebot zu unterbreiten. Durch die Außerbetriebnahme der Altsysteme stehen 84 Karten (QLE7340) zur Verfügung. Seite 3 von 8 Helmholtz-Zentrum für Umweltforschung GmbH - UFZ 2. Frontend Node Die Frontend-Nodes bilden die zentrale Nutzer-Schnittstelle zum Cluster und dienen weiterhin als Pre- und Postprocessing-Plattform. Es wird ein Frontend-Server passend zur Architektur der Compute Nodes benötigt, sodass vorbereitende Arbeiten und Tests auf der gleichen Plattform möglich sind. Schlussfolgernd daraus soll auch ein architektonisch identischer Frontend-Server beschafft werden. Die CPU ist identisch zur Konfiguration der Compute Nodes zu wählen. Frontend Node mit GPU • Rackmount-Server, inkl. Slide-Rail-Schienen ohne Kabelarm, maximale Bauhöhe 2HE • 2x CPU mit 16 Cores / 32 Threads, Leistungsklasse Intel E5-2683v4, 2.1GHz, 9.6 GT/s, 120W • 256 GB DDR4-2400MHz, basierend auf 16GB Modulen • mind. 2x 250GB SAS, mind. 10K RPM, Raid1 • mind. Quad Port 1GBit Ethernet, 2x Administration, 1x Remote-Management, 1x UFZ • energieeffizientes NT, austauschbar, Hot-Plug-fähig, redundant • Stromversorung über PDU -C13/C14 Stecker mit max. Länge 1m anstatt Standard CEE 7/17 zu C13 • Abbildung von 2 VLANs (Interconnect, Remote-Management) über einen 1 Gbit Ethernet Port • Single Port QDR InfiniBand HCA • Der Frontend Node muss mind. 2 Steckplätze für Nvidia K80 besitzen • GPU (Cudafähig): 1x Nvidia K80 • Remote Management über iDRAC8 Enterprise, oder vergleichbare Funktionalität Es wird die Beschaffung von einem Frontend Node angestrebt. Zusätzlich ist der Einzelpreis für einen weiteren Server zu spezifizieren. Optional zwingend anzubieten jeweils für Compute und für Frontend Node sind folgende Aufpreise statt der geforderten Mindestkonfiguration : • RAM-Upgrade: Ausstattung der Nodes mit 384GB DDR4-2400 MHz, basierend auf 16 GB Modulen • RAM-Upgrade: Ausstattung der Nodes mit 512GB DDR4-2400 MHz, basierend auf 32 GB Modulen • CPU-Upgrade: Ausstattung der Nodes mit 2x CPU mit 14 Cores / 28 Threads, Leistungsklasse Intel E5-2690v4, 2.6GHz, 9.6 GT/s, 135W • CPU-Upgrade nur für Konfiguration 1: Ausstattung der Compute Nodes mit 2x CPU mit 16 Cores / 32 Threads, Leistungsklasse Intel E5-2697A v4, 2.6GHz, 9.6 GT/s, 145W • GPU-Upgrade: Erweiterung um eine weitere NVIDIA K80 • Remote Management mit iDRAC8 Express statt Enterprise, oder vergleichbare Funktionalität (Abschlag definieren) Seite 4 von 8 Helmholtz-Zentrum für Umweltforschung GmbH - UFZ 3. Remote Management über separaten Serviceprozessor Als Remote-Management und Hardware-Monitoring System für das EVE Cluster, insbesondere für die Compute und Frontend Nodes kommt Dell OpenManage zum Einsatz. Dies ermöglicht die umfangreiche Remote-Wartung ohne Zugang zum Rechenzentrum. Hauptsächlich genutzte Funktionen des Remote-Managements sind: • • • • • • • Remote Login via SSH sowie einer virtuellen Konsole (KVM) wenn möglich HTML5, optional Java basiert. Die virtuelle Konsole (KVM) muss plattformübergreifend die Weiterleitung von lokalen ISO Images oder des lokalen DVD Laufwerks zum Server unterstützen (Client Win/Linux/MAC OS) System-Status aller Hardware-Komponenten der Server im Detail und Gesamtüberblick über alle Serversysteme Intelligent Plattform Management Interface (IPMI) für einfache Remote Aktionen wie starten, stoppen sowie resetten des Servers über ein separates Interface. Möglichkeit die Netzwerkerreichbarkeit des Remote Managements sowohl über ein dedizierten RJ45 Ethernet Port als auch über einen geteilten Port realisierbar (2 VLANs auf einem physichen Port um Kabel und Switchports zu sparen) Möglichkeit von Systemupdates wie BIOS, Netzwerkcontroller, RAID Controller etc. über den Service Prozessor bzw. Dell OpenManage zu verwalten und auszuführen ohne die Notwendigkeit am Hostsystem lokale Medien zu verwenden oder solche Prozesse aus dem Host Betriebssystem zu starten E-Mail-Benachrichtigung im Fehlerfall durch den Service Prozessor bzw. OpenManage Aufgrund des hohen Integrationsgrades der bestehenden Server-Systeme in Dell OpenManage wird auch die vollständige Integration der anzubietenden Serversysteme angestrebt. Aus diesem Grund ist der Grad der Integrationsfähigkeit der angebotenen Serversysteme detailliert zu dokumentieren. Darüber hinaus ist dem Angebot die vollständig ausgefüllte und unterschriebene „Checkliste zur Integration Dell OpenManage“ beizulegen. Evtl. Kompatibilitäten sind zu benennen. 4. FC Switch für das Storage Netzwerk Für eine leistungsfähige und redundante Anbindung aller Cluster Storage Server an die Fibre Channel basierten Storage Systeme für die Objekt sowie- Metadaten des parallelen Filesystems wird eine SAN Infrastruktur benötigt. Diese soll Ausfälle einzelner FC Ports, sowie den Ausfall einer kompletten FC Switch ohne Seite 5 von 8 Helmholtz-Zentrum für Umweltforschung GmbH - UFZ Beeinträchtigung des Produktivbetriebs gewährleisten. Dabei sind derzeit 6 Storage Server mit jeweils 2 FC Ports sowie 13 Arrays mit jeweils 4 anzubindenden FC Ports (2 je Controller) in der Cluster Umgebung durch die Switch Infrastruktur zu versorgen. Des Weiteren sollte freie Kapazität übrig bleiben so dass die Switch Infrastruktur sowohl weitere Cluster Storage Server als auch weitere Storage Systeme aufnehmen kann. Anzubieten sind unter Nennung der Einzelpreise 2 redundant mit Strom versorgte FC Switche mit dem Geschwindigkeitsstandard FC16 und der Port-Anzahl von mindestens 36 je Switch. Die Ausbaufähigkeit auf 48 Ports ist sicherzustellen. Optional sind Upgrade-Packs für FC8 als auch FC16 hot-pluggable SFP+ sowie PortLizenzen (12-er Packs) anzubieten. Die FC Switche müssen in jedem Falle sowohl über eine HTTP-basierte sowie eine Konsolenbasierte Schnittstelle zur Verwaltung und Konfiguration verfügen. Dieser Zugriff soll auf einer Ethernet basierten RJ45 Schnittstelle (IPv4) realisiert werden. Über die Managementzugriffe muss ein Monitoring der Portbandbreiten möglich sein. Aufgrund des redundant verteilten Know Hows in der IT Abteilung des UFZ wird ein Brocade basierter FC Switch angestrebt. Das Model Brocade 6510 erfüllt die zuvor genannten Anforderungen. 5. Integration/ Installation • Position 1 KickOff Meeting o Vor-Ort-Begehung o technische Absprachen (Feinabstimmung) zwischen dem Rechenzentrum des UFZ und dem Auftragnehmer • Position 2 Technische Inbetriebnahme des Clusters o Ausbau der zu ersetzenden Server-Technik in Absprache mit dem Auftraggeber o Einbau aller IT-Komponenten in die Racks o Funktionstüchtige Verkabelung der Komponenten (Infiniband, Strom, Ethernet) nach Absprache beim Kick-Off o Beschriftung aller Komponenten und Verkabelung nach Absprache beim Kick-Off o Check und ggf. Update der Firmware aller Komponenten auf den aktuellen Stand o Bios Einstellung nach Vorgabe des Auftraggebers o Integration in die bestehende DELL OpenManage Installation nach Vorgabe des Auftraggebers. • Position 3 Dokumentation / Übergabepunkt zum Auftraggeber o Bereitstellung der MAC-Adressen und Service/ Seriennummern in digitaler Form in Absprache mit dem Auftraggeber o Dokumentation der installierten Hardware und Firmwarestände ist durch Einbindung in das Remote-Management-System erreicht Seite 6 von 8 Helmholtz-Zentrum für Umweltforschung GmbH - UFZ 6. Support Anzubieten sind unterschiedliche Konfigurationen für die Komponenten: Compute Nodes, Frontend-Server • 5 Jahre Pro-Support, Ticket/Case-Eröffnung und Bearbeitung 24/7, Vor-Ort Service und Teillieferung am nächstens Arbeitstag Optional ist zwingend anzubieten: • 5 Jahre Pro-Support, Mission Critical, Ticket/Case-Eröffnung und Bearbeitung 24/7, Vor-Ort Service und Teillieferung innerhalb von 8h. FC-Switch • 5 Jahre Pro-Support, Ticket/Case-Eröffnung und Bearbeitung 24/7, Vor-Ort Service und Teillieferung am nächstens Arbeitstag Optional ist anzubieten: • falls verfügbar: 7 Jahre Pro-Support, Ticket/Case-Eröffnung und Bearbeitung 24/7, Vor-Ort Service und Teillieferung am nächstens Arbeitstag 7. Infrastruktur (Racks/Kühlung/Strom/Verkabelung) Die Compute Nodes und Netzwerkkomponenten werden im Rechenzentrum des UFZ untergebracht. Innerhalb des Rechenzentrums ist ein Kaltgang verbaut. Die Klimatisierung über eine Umluftkühlung wird seitens der Rechenzentrumsinfrastruktur in ausreichendem Maße zur Verfügung gestellt. Bei den zur Verfügung stehenden Rackschränken handelt es sich um das Model SUN RACKII (42U, 1200mm depth). Es sind entsprechende passende Rack-Einbauschienen anzubieten. Für die Stromversorgung der Server stehen ausreichend C13/C14 Anschlüsse zur Verfügung. Alle für Integration notwendigen Kabel: GbE Kupfer Cat 6a (konfektioniert) sowie weiteres Zubehör für ein betriebsfertiges System sind mit anzubieten bzw. ein abgegebenes Angebot versteht sich inklusive aller notwendigen Kabel sowie weiteren Zubehör. Dem Angebot sind die realistischen Leistungsaufnahme- und Wärmeabgabewerte der einzelnen Serversysteme bei Volllast beizufügen. Seite 7 von 8 Helmholtz-Zentrum für Umweltforschung GmbH - UFZ 8. Kompatibilität Gefordert wird die Verwendung von ausgereiften Serversystemen mit aufeinander abgestimmten Komponenten (= Gesamtlösung aus einer Hand). Die Serverkomponenten müssen Hardware-kompatibel zueinander sein 9. Referenzprojekte Die Verwendbarkeit und technische Ausgereiftheit der angebotenen Serversysteme sollte durch Referenzprojekte in hinsichtlich Hardwarearchitektur und Systemkonfiguration vergleichbaren Installationen gezeigt werden. 10. Angaben zur Lieferfähigkeit Zu allen angefragten Komponenten, Optionen sowie Leistungen ist anzugeben mit welcher Liefer- bzw. Realisierungszeit zu rechnen ist. 11. Nachkaufoption Für die angebotenen Komponenten und Optionen wird eine Nachkaufoption mit einer Preisbindung für den Zeitraum von 6 Monaten ab Vertragsschluss vereinbart. 12. Hinweis zur Bewertung 70% von 100% für Preis Punktevergabe im Bereich Preis: 100 Punkte für den preiswertesten Anbieter. Danach linear bis zum doppelten Preis des preiswertesten Anbieters. Alle Anbieter, die das Doppelte und mehr des preiswertesten Anbieters als Preis anbieten, bekommen null Punkte in dieser Kategorie. 30% von 100% für Leistung Punktevergabe im Bereich Leistung: max. sind 100 Punkte erreichbar. Aufgeteilt in folgende Auswahlkriterien (bei Wertung von 1-10): Energetische Effizienz: 5% Einbindung OpenManage: 25% (siehe „Checkliste_Einbindung_OpenManage.pdf“) 13. Eignungsbewertungskriterien zum Verfahren • • • Darlegung der Umsatzzahlen des Unternehmens der letzten drei Jahre für vergleichbare Realisierungen. Anzahl der verfügbaren Fachkräfte (Techniker) welche für die ausgeschriebene Hardware und den damit verbundenen Leistungen qualifiziert sind. Nachweis der Zertifizierung der angebotenen Systeme (Node und Server) für Red Hat Enterprise 6 und 7. (Systeme (Node und Server) die nicht vollständig zertifiziert sind, werden als nicht geeignet bewertet.) Seite 8 von 8
© Copyright 2024 ExpyDoc