Inhaltsverzeichnis

Helmholtz-Zentrum für Umweltforschung GmbH - UFZ
Konzept zur Erweiterung des EVE Clustersystems
Inhaltsverzeichnis
I. Ausgangssituation (Seite 1)
II. Leistungsbeschreibung (Seite 2)
1. Compute Nodes (Seite 2 / Seite 3)
2. Frontend Node (Seite 4)
3. Remote Management über separaten Serviceprozessor (Seite 5)
4. FC Switch für das Storage Netzwerk (Seite 5)
5. Integration/ Installation (Seite 6)
6. Support (Seite 7)
7. Infrastruktur (Racks/Kühlung/Strom/Verkabelung) (Seite 7)
8. Kompatibilität (Seite 8)
9. Referenzprojekte (Seite 8)
10. Angaben zur Lieferfähigkeit (Seite 8)
11. Nachkaufoption (Seite 8)
12. Hinweis zur Bewertung (Seite 8)
13. Eignungsbewertungskriterien zum Verfahren (Seite 8)
I. Ausgangssituation
Anfang 2011 wurde mit dem EVE Clustersystem das erste, leistungsfähige, Linuxbasierte HPC Clustersystem mit ca. 1000 Cores basierend auf INTEL XEON E5
(Westmere) in Betrieb genommen.
Mitte 2014 wurde dieses System mit ca. 1300 Cores INTEL Xeon E5 (Ivy Bridge-EP)
auf den aktuellen Stand mit einer Größe von 2300 Cores erweitert. Die
Serversysteme des Clusterverbundes sind über eine zentrale Infiniband-Switch
Netzwerk-, bzw. Hardwareseitig verbunden. Die verfügbaren Ressourcen werden
über die alle Serversysteme einschließende Ressource-Management-Software
(RMS) UNIVA Grid Engine Software-seitig verwaltet. Die Konfiguration der RMS
ermöglicht Nutzungs-Szenarien, in denen sogenannten Full-System Runs, d.h.
Prozessläufe über alle Ressourcen (CPU Cores, RAM) des Clustersystems für
einzelne Anwender und Anwendungen, bzw. Arbeitsgruppen möglich sind. In den
vergangenen Jahren wurde stetig versucht sämtliche Anwendungssoftware auf die
vorliegende Hardwarearchitektur zu optimieren um daraus optimale Ergebnisse und
den größtmöglichen Nutzen ziehen zu können.
Schlussfolgernd daraus ist sowohl Hard- als auch Softwareseitig von einem
hochintegrierten, homogenen Gesamtsystem auszugehen.
Seite 1 von 8
Helmholtz-Zentrum für Umweltforschung GmbH - UFZ
II. Leistungsbeschreibung
Im Rahmen dieser Beschaffung wird der Austausch der Compute und Frontend
Nodes aus der Beschaffung von 2010/2011 mit dem Ziel der Maximierung der
Rechnenleistung angestrebt. Zusätzlich soll die vorhandene Fibrechannel-Switch, die
im Bereich des GPFS Filesystems die Anbindung der Storage-Server an die StorageSysteme realisiert, ersetzt werden.
Es wird ein Rahmenvertrag für die Dauer von sechs Monaten abgeschlossen der
Einzelbeschaffungen der geforderten Optionen zum angebotenen Preis ermöglicht.
1. Compute Nodes
Als Compute Nodes sollen energieoptimierte Rackmount Server zum Einsatz
kommen, die mit den aktuellen Intel Broadwell-EP CPUs ausgestattet sind. Für die
Compute Nodes sind zwei Konfigurationen vorgesehen, die sich durch den Einsatz
von Grafikkarten / GPUs unterscheiden. Die Konfigurationen sind mit identischen
CPUs auszustatten.
Konfiguration der Compute Node:
Konfiguration 1: Compute Node ohne GPU
• Rackmount-Server, inkl. Slide-Rail-Schienen ohne Kabelarm, maximale
Bauhöhe 2HE
• 2x CPU mit 16 Cores / 32 Threads, Leistungsklasse Intel E5-2683v4, 2.1GHz,
9.6 GT/s, 120W
• 256 GB DDR4-2400MHz, basierend auf 16GB Modulen
• energieeffizientes NT, austauschbar, Hot-Plug-fähig, nicht redundant
• Stromversorung über PDU -C13/C14 Stecker mit max. Länge 1m anstatt
Standard CEE 7/17 zu C13
• mind. Dual Port 1GBit Ethernet HCA
• Abbildung von 2 VLANs (Interconnect, Remote-Management) über einen 1
Gbit Ethernet Port möglich
• Single Port QDR InfiniBand HCA
• Remote Management über iDRAC8 Enterprise, oder vergleichbare
Funktionalität
Es werden mind. 30 Compute Nodes beschafft. Zusätzlich sind
Erweiterungspakete zu jeweils 1, 5 und 10 Nodes mit dem jeweiligen Paketpreis
anzubieten.
Seite 2 von 8
Helmholtz-Zentrum für Umweltforschung GmbH - UFZ
Konfiguration 2: Compute Node mit GPU
• Rackmount-Server, inkl. Slide-Rail-Schienen ohne Kabelarm, maximale
Bauhöhe 2HE
• 2x CPU mit 16 Cores / 32 Threads, Leistungsklasse Intel E5-2683v4, 2.1GHz,
9.6 GT/s, 120W
• 256 GB DDR4-2400MHz, basierend auf 16GB Modulen
• Energieeffizientes NT, austauschbar, Hot-Plug-fähig, nicht redundant wenn
technisch mgl.
• Stromversorgung über PDU -C13/C14 Stecker mit max. Länge 1m anstatt
Standard CEE 7/17 zu C13
• Mind. Dual Port 1GBit Ethernet HCA
• Abbildung von 2 VLANs (Interconnect, Remote-Management) über einen 1
Gbit Ethernet Port möglich
• Single Port QDR InfiniBand HCA
• Der Compute Node muss mind. 2 Steckplätze für Nvidia K80 besitzen
• GPU (Cudafähig): 1x Nvidia K80
• Remote Management über iDRAC8 Enterprise, oder vergleichbare
Funktionalität
Es wird die Beschaffung von 2 Compute Nodes angestrebt. Zusätzlich sind
Erweiterungspakete zu jeweils 1 und 5 Nodes mit dem jeweiligen Paketpreis
anzubieten.
Infiniband-Karte
Optional zur Ausstattung der Server mit neuen Infiniband-Karten ist die Kompatibilität
der Nachnutzung der bestehenden Karten (QLE7340) zu prüfen. Die
Funktionsfähigkeit der Karten in den angebotenen Serversystemen ist durch den
Anbieter zu dokumentieren und idealerweise mit einem Prüfprotokoll nachzuweisen.
Für den Fall der Nachnutzung der bestehenden Infiniband-Karten in den zu
beschaffenen Serversystemen sind die daraus resultierenden Service- und
Supportbedingungen für die neuen Server zu dokumentieren. Bei Bedarf wird eine
der vorhandenen Karten zum Test der Kompatibilität bereitgestellt.
Falls es die Möglichkeit zum Rückkauf der vorhandenen Infiniband Karten gibt, ist ein
Preisangebot zu unterbreiten. Durch die Außerbetriebnahme der Altsysteme stehen
84 Karten (QLE7340) zur Verfügung.
Seite 3 von 8
Helmholtz-Zentrum für Umweltforschung GmbH - UFZ
2. Frontend Node
Die Frontend-Nodes bilden die zentrale Nutzer-Schnittstelle zum Cluster und dienen
weiterhin als Pre- und Postprocessing-Plattform. Es wird ein Frontend-Server
passend zur Architektur der Compute Nodes benötigt, sodass vorbereitende Arbeiten
und Tests auf der gleichen Plattform möglich sind. Schlussfolgernd daraus soll auch
ein architektonisch identischer Frontend-Server beschafft werden. Die CPU ist
identisch zur Konfiguration der Compute Nodes zu wählen.
Frontend Node mit GPU
• Rackmount-Server, inkl. Slide-Rail-Schienen ohne Kabelarm, maximale
Bauhöhe 2HE
• 2x CPU mit 16 Cores / 32 Threads, Leistungsklasse Intel E5-2683v4, 2.1GHz,
9.6 GT/s, 120W
• 256 GB DDR4-2400MHz, basierend auf 16GB Modulen
• mind. 2x 250GB SAS, mind. 10K RPM, Raid1
• mind. Quad Port 1GBit Ethernet, 2x Administration, 1x Remote-Management,
1x UFZ
• energieeffizientes NT, austauschbar, Hot-Plug-fähig, redundant
• Stromversorung über PDU -C13/C14 Stecker mit max. Länge 1m anstatt
Standard CEE 7/17 zu C13
• Abbildung von 2 VLANs (Interconnect, Remote-Management) über einen 1
Gbit Ethernet Port
• Single Port QDR InfiniBand HCA
• Der Frontend Node muss mind. 2 Steckplätze für Nvidia K80 besitzen
• GPU (Cudafähig): 1x Nvidia K80
• Remote Management über iDRAC8 Enterprise, oder vergleichbare
Funktionalität
Es wird die Beschaffung von einem Frontend Node angestrebt. Zusätzlich ist der
Einzelpreis für einen weiteren Server zu spezifizieren.
Optional zwingend anzubieten jeweils für Compute und für Frontend Node
sind folgende Aufpreise statt der geforderten Mindestkonfiguration :
• RAM-Upgrade: Ausstattung der Nodes mit 384GB DDR4-2400 MHz,
basierend auf 16 GB Modulen
• RAM-Upgrade: Ausstattung der Nodes mit 512GB DDR4-2400 MHz,
basierend auf 32 GB Modulen
• CPU-Upgrade: Ausstattung der Nodes mit 2x CPU mit 14 Cores / 28 Threads,
Leistungsklasse Intel E5-2690v4, 2.6GHz, 9.6 GT/s, 135W
• CPU-Upgrade nur für Konfiguration 1: Ausstattung der Compute Nodes mit 2x
CPU mit 16 Cores / 32 Threads, Leistungsklasse Intel E5-2697A v4, 2.6GHz,
9.6 GT/s, 145W
• GPU-Upgrade: Erweiterung um eine weitere NVIDIA K80
• Remote Management mit iDRAC8 Express statt Enterprise, oder
vergleichbare Funktionalität (Abschlag definieren)
Seite 4 von 8
Helmholtz-Zentrum für Umweltforschung GmbH - UFZ
3. Remote Management über separaten Serviceprozessor
Als Remote-Management und Hardware-Monitoring System für das EVE Cluster,
insbesondere für die Compute und Frontend Nodes kommt Dell OpenManage zum
Einsatz. Dies ermöglicht die umfangreiche Remote-Wartung ohne Zugang zum
Rechenzentrum.
Hauptsächlich genutzte Funktionen des Remote-Managements sind:
•
•
•
•
•
•
•
Remote Login via SSH sowie einer virtuellen Konsole (KVM) wenn möglich
HTML5, optional Java basiert.
Die virtuelle Konsole (KVM) muss plattformübergreifend die Weiterleitung von
lokalen ISO Images oder des lokalen DVD Laufwerks zum Server unterstützen
(Client Win/Linux/MAC OS)
System-Status aller Hardware-Komponenten der Server im Detail
und Gesamtüberblick über alle Serversysteme
Intelligent Plattform Management Interface (IPMI) für einfache Remote
Aktionen wie starten, stoppen sowie resetten des Servers über ein separates
Interface.
Möglichkeit die Netzwerkerreichbarkeit des Remote Managements sowohl
über ein dedizierten RJ45 Ethernet Port als auch über einen geteilten Port
realisierbar (2 VLANs auf einem physichen Port um Kabel und Switchports zu
sparen)
Möglichkeit von Systemupdates wie BIOS, Netzwerkcontroller, RAID
Controller etc. über den Service Prozessor bzw. Dell OpenManage zu
verwalten und auszuführen ohne die Notwendigkeit am Hostsystem lokale
Medien zu verwenden oder solche Prozesse aus dem Host Betriebssystem zu
starten
E-Mail-Benachrichtigung im Fehlerfall durch den Service Prozessor bzw.
OpenManage
Aufgrund des hohen Integrationsgrades der bestehenden Server-Systeme in Dell
OpenManage wird auch die vollständige Integration der anzubietenden
Serversysteme angestrebt.
Aus diesem Grund ist der Grad der Integrationsfähigkeit der angebotenen
Serversysteme detailliert zu dokumentieren. Darüber hinaus ist dem Angebot die
vollständig ausgefüllte und unterschriebene „Checkliste zur Integration Dell
OpenManage“ beizulegen. Evtl. Kompatibilitäten sind zu benennen.
4. FC Switch für das Storage Netzwerk
Für eine leistungsfähige und redundante Anbindung aller Cluster Storage Server an
die Fibre Channel basierten Storage Systeme für die Objekt sowie- Metadaten des
parallelen Filesystems wird eine SAN Infrastruktur benötigt. Diese soll Ausfälle
einzelner FC Ports, sowie den Ausfall einer kompletten FC Switch ohne
Seite 5 von 8
Helmholtz-Zentrum für Umweltforschung GmbH - UFZ
Beeinträchtigung des Produktivbetriebs gewährleisten. Dabei sind derzeit 6 Storage
Server mit jeweils 2 FC Ports sowie 13 Arrays mit jeweils 4 anzubindenden FC Ports
(2 je Controller) in der Cluster Umgebung durch die Switch Infrastruktur zu
versorgen. Des Weiteren sollte freie Kapazität übrig bleiben so dass die Switch
Infrastruktur sowohl weitere Cluster Storage Server als auch weitere Storage
Systeme aufnehmen kann.
Anzubieten sind unter Nennung der Einzelpreise 2 redundant mit Strom versorgte FC
Switche mit dem Geschwindigkeitsstandard FC16 und der Port-Anzahl von
mindestens 36 je Switch. Die Ausbaufähigkeit auf 48 Ports ist sicherzustellen.
Optional sind Upgrade-Packs für FC8 als auch FC16 hot-pluggable SFP+ sowie PortLizenzen (12-er Packs) anzubieten.
Die FC Switche müssen in jedem Falle sowohl über eine HTTP-basierte sowie eine
Konsolenbasierte Schnittstelle zur Verwaltung und Konfiguration verfügen. Dieser
Zugriff soll auf einer Ethernet basierten RJ45 Schnittstelle (IPv4) realisiert werden.
Über die Managementzugriffe muss ein Monitoring der Portbandbreiten möglich sein.
Aufgrund des redundant verteilten Know Hows in der IT Abteilung des UFZ wird ein
Brocade basierter FC Switch angestrebt. Das Model Brocade 6510 erfüllt die zuvor
genannten Anforderungen.
5. Integration/ Installation
•
Position 1 KickOff Meeting
o Vor-Ort-Begehung
o technische Absprachen (Feinabstimmung) zwischen dem Rechenzentrum
des UFZ und dem Auftragnehmer
•
Position 2 Technische Inbetriebnahme des Clusters
o Ausbau der zu ersetzenden Server-Technik in Absprache mit dem
Auftraggeber
o Einbau aller IT-Komponenten in die Racks
o Funktionstüchtige Verkabelung der Komponenten (Infiniband, Strom,
Ethernet) nach Absprache beim Kick-Off
o Beschriftung aller Komponenten und Verkabelung nach Absprache beim
Kick-Off
o Check und ggf. Update der Firmware aller Komponenten auf den aktuellen
Stand
o Bios Einstellung nach Vorgabe des Auftraggebers
o Integration in die bestehende DELL OpenManage Installation nach
Vorgabe des Auftraggebers.
•
Position 3 Dokumentation / Übergabepunkt zum Auftraggeber
o Bereitstellung der MAC-Adressen und Service/ Seriennummern in digitaler
Form in Absprache mit dem Auftraggeber
o Dokumentation der installierten Hardware und Firmwarestände ist durch
Einbindung in das Remote-Management-System erreicht
Seite 6 von 8
Helmholtz-Zentrum für Umweltforschung GmbH - UFZ
6. Support
Anzubieten sind unterschiedliche Konfigurationen für die Komponenten:
Compute Nodes, Frontend-Server
•
5 Jahre Pro-Support, Ticket/Case-Eröffnung und Bearbeitung 24/7, Vor-Ort
Service und Teillieferung am nächstens Arbeitstag
Optional ist zwingend anzubieten:
•
5 Jahre Pro-Support, Mission Critical, Ticket/Case-Eröffnung und Bearbeitung
24/7, Vor-Ort Service und Teillieferung innerhalb von 8h.
FC-Switch
•
5 Jahre Pro-Support, Ticket/Case-Eröffnung und Bearbeitung 24/7, Vor-Ort
Service und Teillieferung am nächstens Arbeitstag
Optional ist anzubieten:
•
falls verfügbar: 7 Jahre Pro-Support, Ticket/Case-Eröffnung und Bearbeitung
24/7, Vor-Ort Service und Teillieferung am nächstens Arbeitstag
7. Infrastruktur (Racks/Kühlung/Strom/Verkabelung)
Die Compute Nodes und Netzwerkkomponenten werden im Rechenzentrum des UFZ
untergebracht. Innerhalb des Rechenzentrums ist ein Kaltgang verbaut. Die
Klimatisierung über eine Umluftkühlung wird seitens der Rechenzentrumsinfrastruktur
in ausreichendem Maße zur Verfügung gestellt.
Bei den zur Verfügung stehenden Rackschränken handelt es sich um das Model
SUN RACKII (42U, 1200mm depth).
Es sind entsprechende passende Rack-Einbauschienen anzubieten.
Für die Stromversorgung der Server stehen ausreichend C13/C14 Anschlüsse zur
Verfügung.
Alle für Integration notwendigen Kabel: GbE Kupfer Cat 6a (konfektioniert) sowie
weiteres Zubehör für ein betriebsfertiges System sind mit anzubieten bzw. ein
abgegebenes Angebot versteht sich inklusive aller notwendigen Kabel sowie
weiteren Zubehör.
Dem Angebot sind die realistischen Leistungsaufnahme- und Wärmeabgabewerte
der einzelnen Serversysteme bei Volllast beizufügen.
Seite 7 von 8
Helmholtz-Zentrum für Umweltforschung GmbH - UFZ
8. Kompatibilität
Gefordert wird die Verwendung von ausgereiften Serversystemen mit aufeinander
abgestimmten Komponenten (= Gesamtlösung aus einer Hand). Die
Serverkomponenten müssen Hardware-kompatibel zueinander sein
9. Referenzprojekte
Die Verwendbarkeit und technische Ausgereiftheit der angebotenen Serversysteme
sollte durch Referenzprojekte in hinsichtlich Hardwarearchitektur und
Systemkonfiguration vergleichbaren Installationen gezeigt werden.
10. Angaben zur Lieferfähigkeit
Zu allen angefragten Komponenten, Optionen sowie Leistungen ist anzugeben mit
welcher Liefer- bzw. Realisierungszeit zu rechnen ist.
11. Nachkaufoption
Für die angebotenen Komponenten und Optionen wird eine Nachkaufoption mit einer
Preisbindung für den Zeitraum von 6 Monaten ab Vertragsschluss vereinbart.
12. Hinweis zur Bewertung
70% von 100% für Preis
Punktevergabe im Bereich Preis: 100 Punkte für den preiswertesten Anbieter.
Danach linear bis zum doppelten Preis des preiswertesten Anbieters. Alle Anbieter,
die das Doppelte und mehr des preiswertesten Anbieters als Preis anbieten,
bekommen null Punkte in dieser Kategorie.
30% von 100% für Leistung
Punktevergabe im Bereich Leistung: max. sind 100 Punkte erreichbar.
Aufgeteilt in folgende Auswahlkriterien (bei Wertung von 1-10):
Energetische Effizienz: 5%
Einbindung OpenManage: 25% (siehe „Checkliste_Einbindung_OpenManage.pdf“)
13. Eignungsbewertungskriterien zum Verfahren
•
•
•
Darlegung der Umsatzzahlen des Unternehmens der letzten drei Jahre für
vergleichbare Realisierungen.
Anzahl der verfügbaren Fachkräfte (Techniker) welche für die ausgeschriebene
Hardware und den damit verbundenen Leistungen qualifiziert sind.
Nachweis der Zertifizierung der angebotenen Systeme (Node und Server) für Red
Hat Enterprise 6 und 7. (Systeme (Node und Server) die nicht vollständig
zertifiziert sind, werden als nicht geeignet bewertet.)
Seite 8 von 8