Case Study

Nr. 23-1 aktualisiert 26.05.2023

Lesedauer: min

Scale Out Storage

Wie das Health 2030 Genome Center schneller wird

Das Health 2030 Genome Center profitiert durch den Wechsel zu einer Scale-Out-Speicherlösung von einer zehnmal schnelleren Verfügbarkeit von Analysedaten und einer zweifachen Übertragungsgeschwindigkeit zu den Kundenstandorten.

Das Health 2030 Genome Center in Genf führt DNA-Sequenzierungsanalysen durch, auf die sich Forscher und Mediziner bei der Diagnose von Patienten stützen. (Bild: zVg.)

Bei Unternehmen und Organisationen wird die Kapazität für unstrukturierte Daten in Zukunft um ein x-Faches ansteigen. Für preisempfindliche Workloads mit grosser Kapazität, die derzeitige plattenbasierte Speicherlösungen nutzen, ist dieses Wachstum nicht tragbar. Denn festplattenbasierte Systeme belasten die IT-Teams und Budgets vieler Unternehmen. Sie sind schwierig zu verwalten, benötigen viel Strom, nehmen viel Platz in Anspruch und ihre Komponenten fallen zu häufig aus, was zu Störungen führt, wertvolle Daten gefährdet und Geschwindigkeit kostet. Dies beeinträchtigt die Fähigkeit, Daten schnell zu verarbeiten und/oder einen geschäftlichen Nutzen aus ihnen zu ziehen. Moderne Datei- und Objektspeicherlösungen sind zwar in der Lage, viele dieser Herausforderungen zu bewältigen, waren aber bisher keine brauchbare Option für grosse unstrukturierte Datenbestände, die gleichzeitig auch kostensensibel sind.

Objekt- versus Scale-Out-Lösungen

Abhilfe können sogenannte Scale-Out-Speicherlösungen bieten. Diese unterscheiden sich wie folgt von den Objektspeicherlösungen:

Datenstruktur: Objektspeicher organisiert Daten in einzelnen Objekten, die über eine eindeutige Kennung identifiziert werden. Jedes Objekt enthält sowohl die eigentlichen Daten als auch Metadaten. Scale-Out-Speicher hingegen verwendet in der Regel eine Dateisystemstruktur oder einen blockbasierten Ansatz, bei dem Daten in Blöcken oder Dateien organisiert sind.
Skalierbarkeit: Beide Ansätze bieten Skalierbarkeit, jedoch auf unterschiedliche Weise. Objektspeicher sind darauf ausgelegt, grosse Mengen an unstrukturierten Daten zu speichern und zu skalieren, oft in den Grössenordnungen von Petabytes oder Exabytes. Scale-Out-Speicher hingegen ermöglicht das Hinzufügen von Speicherressourcen in einem Cluster, um Kapazität und Leistung zu erhöhen.
Zugriffsmuster: Objektspeicher sind besonders gut geeignet für den unveränderlichen Zugriff auf grosse Mengen von Daten, zum Beispiel für die Archivierung oder den Zugriff über APIs in Cloud-Anwendungen. Scale-Out-Speicher bietet dagegen meistens einen Datei- oder Blockzugriff, der für verschiedene Anwendungen geeignet ist, die auf die Speicherung und Verarbeitung von Dateien oder Blöcken angewiesen sind.
Datenintegrität und Redundanz: Objektspeicher bieten in der Regel integrierte Mechanismen zur Gewährleistung der Datenintegrität und -haltbarkeit, einschliesslich Redundanz und Fehlerkorrekturcodes. Scale-Out-Speicher kann ebenfalls Redundanz- und Replikationsmechanismen verwenden, um Datenverlust zu verhindern, jedoch ist dies nicht zwingend in allen Implementierungen gegeben.
Verwendungszweck: Objektspeicher werden häufig in Cloud-Speicherumgebungen, Archivierungssystemen und Content Delivery Networks (CDNs) eingesetzt. Scale-Out-Speicher findet Anwendung in Bereichen wie Cluster-Dateisystemen, Big Data-Analysen und hochleistungsfähigen Datenverarbeitungsszenarien.

Schweizer Genome Center setzt auf Scale-Out-Speicher

Eine Organisation, die künftig auf Scale-Out-Speicher setzt, ist das Health 2030 Genome Center in Genf. Dabei handelt es sich um ein institutionenübergreifendes Zentrum zur Förderung der Genommedizin in der Schweiz und zur Bereitstellung von Sequenzier- und Analysediensten für die Forschung und die klinische Gemeinschaft. Das Genome Center ist der genomische Medizinzweig der Initiative Health 2030 (health2030.ch), deren Ziel die Förderung der personalisierten Medizin in der Schweiz ist. Initiiert wurde es von der École Polytechnique Fédérale de Lausanne, der Université de Genève, dem Centre Hospitalier Universitaire Vaudois, den Hôpitaux Universitaires de Genève, der Université de Lausanne sowie dem Inselspital und der Universität Bern.

Die Bioanalysten des Genome Centers führen DNA-Sequenzierungsanalysen durch, auf die sich Forscher und Mediziner bei der Diagnose von Patienten stützen, und erzeugen dabei grosse Datenmengen. Die Daten- und Interpretationsplattform des Centers zielt darauf ab, diese Daten nutzbar zu machen. Sie hat die Aufgabe, das volle Potenzial der Sequenzierungstechnologie auszuschöpfen, um eine bessere, personalisierte medizinische Behandlung zu ermöglichen.

Um dies zu erreichen, benötigte das Genome Center effizienteren und flexibleren Speicher für seine unstrukturierten Daten, als es das bisher hatte, da eine hohe Rechenleistung und ein schneller, einfacher Zugang zu Ergebnissen für die Mediziner entscheidend sind. «Wir haben immer mehr DNA-Proben, die sequenziert und analysiert werden müssen, was eine beträchtliche Datenmenge darstellt, wenn man bedenkt, dass eine einzige Probe 200 Gigabyte umfassen kann», erklärt Arnaud Hungler, Leiter IT-Infrastruktur des Genome Centers. Als die Organisation nach einer Storage-Lösung suchte, gehörten Performance und Skalierbarkeit zu den zentralen Anforderungen. Ebenso wichtig war Agilität. «Abhängig von den laufenden Projekten kann der Bedarf an Storage-Volumen sehr schnell von null auf 200 Terrabyte steigen und umgekehrt», so Arnaud. «Unsere Infrastruktur muss in der Lage sein, sich entsprechend anzupassen.»

Arnaud Hungler ist Leiter IT-Infrastruktur des Genome Centers von Health 2030.

«Dank Pure sind Analysedaten auf der Plattform für die Benutzer-Community zehnmal schneller verfügbar.»

Pure Storage macht das Rennen

Nach einem erfolgreichen zweimonatigen Proof of Concept entschied sich Arnaud für die Lösung Pure Storage FlashBlade, das über das Abonnement Evergreen//One bereitgestellt wird, um die Speicherperformance zu verbessern, neue Anwendungsfälle zu unterstützen und mehr Flexibilität bei der Skalierung zu erhalten. «Dank Pure sind die Analysedaten auf der von Forschern und Klinikern genutzten Plattform zehnmal schneller verfügbar, und die Übertragungsgeschwindigkeit zum Kundenstandort hat sich verdoppelt», erklärt Hugler. «Forscher können die auf unserer Schnittstelle gespeicherten Daten in Echtzeit analysieren, ohne sie selbst herunterladen zu müssen, und Patienten schneller und einfacher diagnostizieren.» Mit dem Evergreen//One-Abonnement könne das Genome Center seinen Storage entsprechend den sich ständig ändernden Anforderungen skalieren. «Das bedeutet, dass wir nicht permanent für 500 Terrabyte an Daten bezahlen müssen, die wir nur gelegentlich nutzen», fügt Arnaud hinzu. Pure biete darüber hinaus noch weitere Vorteile, darunter einen effizienten Kundensupport nach Bedarf und die benutzerfreundliche Pure1-Schnittstelle für das Storage-Management. Durch diese Einfachheit spare Arnaud viel Zeit bei täglichen Betriebsaufgaben.

Genomische Medizin voranbringen

Die Leistung der Datenverarbeitung bleibt auf absehbare Zeit oberste Priorität des Genome Centers. Dessen Team verfolgt insbesondere folgendes wichtiges Ziel: die Geschwindigkeit der DNA-Sequenzanalyse zu erhöhen, damit Mediziner schneller eine Diagnose stellen können. Arnaud ist es ausserdem wichtig, ein Höchstmass an Datensicherheit und -integrität aufrechtzuerhalten, um gesetzliche Anforderungen zu erfüllen. Mit der Scale-Out-Speicherlösung von Pure Storage sieht er das Genome Centers gut gerüstet, eine wichtige Rolle bei der Bereitstellung einer personalisierten medizinischen Behandlung einzunehmen.

Daniel Thüler

Chefredaktor

Daniel Thüler ist Chefredaktor der Computerworld und der deutschen Schwesterzeitschrift com! professional.

Digital Economy Award 2023: So arbeitet die Jury

Nächstes Thema