Speichersysteme Moderne Forschung technisch unterstützen

Autor / Redakteur: Adam Marko* / Susanne Ehneß

Welchen Effekt High-Performance-Computing-Speicherausfallzeiten (HPC) und eine verringerte Produktivität auf wissenschaftliche Forschungsprojekte haben, erläutert Adam Marko in seinem Gastbeitrag.

Firma zum Thema

HPC-Speicherausfallzeiten sind in der medizinischen Forschung ein No-go
HPC-Speicherausfallzeiten sind in der medizinischen Forschung ein No-go
(© Darren Baker - stock.adobe.com)

Konstant verfügbare Betriebszeit spielt eine entscheidende Rolle, damit Wissenschaftler mehr Experimente durchführen können und schneller zu wissenschaftlichen Ergebnissen gelangen. Lässt sich die Arbeit jedoch nicht zügig und produktiv erledigen, besteht das Risiko des Scheiterns. Erschwerend kommt hinzu, dass viele HPC-Speichertechnologien anfällig für Ausfallzeiten sind, was sich nachteilig auf die Produktivität auswirkt und Arbeitsfortschritte verzögert.

Wissenschaftler kämpfen heute leider mit den gleichen Problemen, die viele HPC-Anwender schon kennen, nämlich hohe Wartungsanforderungen und regelmäßige Betriebsunterbrechungen, die die Arbeit erschweren. Oft stören System-Ausfallzeiten nicht nur den zeitlichen Ablauf von Projekten, sondern können auch zu Verzögerungen beim Erkenntnisgewinn in der medizinischen Forschung führen.

Schwachstellen bei der HPC-Speicherung

Benutzer gewöhnen sich mit der Zeit an die Tatsache, dass HPC-Speicherinstallationen notorisch schwer zu verwalten sind. Abteilungen mussten daher beträchtliche Personalressourcen für den Umgang mit den Feinheiten des Betriebs solcher komplizierter Speichersysteme aufwenden. Oft waren sie die Einzigen in der Organisation, die solche großen komplizierten Installationen betreiben konnten.

In der HPC-Branche sollte man aber nicht davon ausgehen, dass Manager von Rechenzentren Zeit, Geld und Personal für den Kauf und die Wartung umständlicher, komplexer HPC-Speichersysteme aufwenden wollen. Ein solches Vorgehen ist längst überholt.

Der Wandel bei HPC-Speichern ist schon lange überfällig – jahrelang haben sich die meisten Käufer von Speichersystemen nicht für Bewertungskriterien bezüglich der Gesamt-Betriebskosten interessiert. Das ändert sich gerade, wie die Ergebnisse einer Umfrage von Hyperion Research unter Datenmanagern zeigen, die Panasas in Auftrag gegeben hat:

  • Fast die Hälfte aller Befragten hatte einmal im Monat Speichersystem-Ausfälle, wobei Anwender HPC-Speicherausfallzeiten für normal halten.
  • Nach einem Systemausfall benötigen 40 % der HPC-Standorte meist mehr als zwei Tage für die vollständige Wiederherstellung ihres Speichersystems.
  • Die meistgenannten Herausforderungen beim Betrieb von HPC-Speichern sind die Rekrutierung und Einstellung von qualifiziertem Personal, gefolgt vom Zeit- und Kostenaufwand für Abstimmung und Optimierung der Speichersysteme.
  • Über 75 % aller Befragten erlebten im letzten Jahr Produktivitätseinbußen aufgrund von Speicherproblemen. Bei einem von acht Standorten geschah dies in den letzten zwölf Monaten mehr als zehnmal.
  • Manche Ausfälle verursachten Ausfallzeiten mit einer Dauer von bis zu einer Woche. Die Kosten für einen einzigen Tag Ausfallzeit können zwischen 100.000 US-Dollar und mehr als 1 Million US-Dollar liegen.

Offensichtlich wirken sich Probleme bei bestehenden Speicherlösungen auch weiterhin negativ auf die Unternehmensziele aus.

In den Life Sciences sollte man TCO in einem anderem Licht sehen

Es fällt schwer, eine Entscheidung über die Speicherung nicht ausschließlich auf der Grundlage der Minimierung des ursprünglichen Kaufpreises zu treffen. Auf den ersten Blick erscheint ein Open-Source-System preiswert; eine Umfrage ergab jedoch, dass Speicherprobleme nach der Installation häufig auftreten und kostspielig sind. Die Auswirkungen von Ausfallzeiten kosten Unternehmen oft aber mehr als nur Geld. Durch Speicherprobleme verursachte finanzielle Verluste sind für Wissenschaftler nicht immer nachvollziehbar. Die Kosten für den Fortschritt von Forschungsarbeiten sind aber offensichtlich.

Ergebnis der Panasas-Umfrage
Ergebnis der Panasas-Umfrage
(© Panasas)

Verringerte Produktivität aufgrund von Infrastrukturausfällen führt zu Verzögerungen bei der Ermittlung von Forschungsergebnissen. Auch wenn dies z. B. bei einer Organisation, die ein neues Arzneimittel entwickelt, finanzielle Auswirkungen hat, ist die Berechnung der TCO (Total Cost of Ownership, Gesamt-Betriebskosten) in einem akademischen Umfeld meist schwieriger. Es gibt effektiv keine Messgröße, mit der sich TCO mit den Gesamtkosten verlorener Forschungszeit in einer Organisation genau korrelieren lässt. Hier bietet sich das Konzept der sogenannten Research Cost of Ownership (RCO – Forschungs-bezogene Betriebskosten) an.

Der Effekt von Ausfallzeiten und verringerter Produktivität auf die gesamte wissenschaftliche Arbeit lässt sich durch RCO beschreiben. Auch wenn sich RCO nicht unmittelbar quantifizieren lässt, ist es doch ein wichtiges Kriterium bei der Beschaffung von Speicherkapazität. Forschungsarbeiten sollen einen Beitrag zum kollektiven Wissenskapital der Menschheit leisten. So macht die Menschheit Entdeckungen und treibt die Innovation voran. Kurzsichtige finanzielle Entscheidungen beeinträchtigen dies und wirken sich negativ auf den gesamten globalen Bestand an wissenschaftlichem Wissen aus.

Es ist Zeit, dass sich IT-Mitarbeiter mit den Auswirkungen von Speicherproblemen auf die RCO befassen. Auch wenn man beim Erstkauf einige Euro pro Terabyte einsparen konnte, so können die Kosten für die wissenschaftliche Gemeinschaft doch viel höher sein. Das immer wiederkehrende Drama, bei dem Forscher Ausfallzeiten erleiden, muss offengelegt werden. Vorhersagbarkeit, Belastbarkeit und Zuverlässigkeit sollten der neue Standard werden. Wissenschaft und Forschung sind zu wichtig, als dass man sie durch vermeidbare technische Probleme verzögern dürfte.

Jeder überprüft heute seine Infrastruktur, um den besten technologischen Ansatz zu finden, mit dem die Arbeit schnell und zuverlässig erledigt werden kann - und das bedeutet, dass sich die Welt der HPC-Speicher ändern muss. Wenn man es richtig macht, gewinnen alle.

Keine Kompromisse bei RCO

Die Ergebnisse der Umfrage von Hyperion Research sind ein Weckruf für die HPC-Branche: Jeder sollte sich auf die Bereitstellung zugänglicher und zuverlässiger Speicher mit hochleistungsfähigen parallelen Dateisystemen konzentrieren, die die anspruchsvollen Aufgaben der modernen Forschung unterstützen können. Mit einer zuverlässigen, skalierbaren und kommerziell unterstützten Lösung lässt sich dieses Ziel erreichen.

TCO ist eine gut quantifizierbare Rechenmethodik für den Kauf von Speichersystemen; der finanzielle Aspekt macht aber nur einen kleinen Teil des Gesamtbildes aus. Forschungsarbeiten sollen das menschliche Verständnis unserer Welt verbessern. Im Gegensatz zu TCO ist RCO ein eher qualitativer Aspekt, der aber zur Bewertung von Infrastrukturentscheidungen unerlässlich ist. Man denke nur an die immensen Forschungskosten, die bei anhaltenden Speicherproblemen in einer Organisation verloren gehen.

RCO sollte bei Ihrer nächsten Entscheidung in Bezug auf Speichersysteme ein wichtiges Bewertungskriterium sein. Es bedarf agiler, flexibler Speichersysteme, die sich an neue Herausforderungen anpassen können und es Wissenschaftlern ermöglichen, ihre Ziele zu erreichen. Die Konsequenzen daraus sind ernst zu nehmen: Der Zeitbedarf bis zum Erreichen von Ergebnissen ist entscheidend.

*Der Autor: Adam Marko, Direktor für Life Science Solutions bei Panasas, Inc..

(ID:47453018)