Klicken zum Bearbeiten

KI-Servicezentren
KI Made in Germany

Das BMBF fördert seit November 2022 vier KI-Servicezentren. Zentraler Auftrag dieser Zentren ist der Aufbau einer auf die KI-Forschung abgestimmten, leistungsstarken IT-Infrastruktur sowie der generelle Ausbau der KI-Expertise am Standort Deutschland. Die Förderrichtlinie ist damit Teil der Strategie Künstliche Intelligenz der Bundesregierung und dient dazu, die Marke “KI Made in Germany” zu stärken. Die geförderten KI-Servicezentren stellen Nutzerinnen und Nutzern aus Wissenschaft und Wirtschaft eine leistungsstarke IT-Infrastruktur zur Verfügung und unterstützen beim Transfer von KI in die Praxis.

Die vier BMBF-geförderten KI-Servicezentren setzten unterschiedliche Schwerpunkte: So fokussiert sich hessian.AI auf Erklärbarkeit, Generalisierbarkeit und kontextuelle Anpassung von KI, in KISSKI liegt der Fokus auf sensibler und kritischer Infrastruktur (insbesondere den beiden Bereichen Energie und Medizin), das KISZ-BB legt besonderen Wert auf den KI-Wissenstransfer und fokussiert sich auf die Bereitstellung von Bildungs- und Beratungsangeboten, während bei WestAI große und übertragbare KI-Modelle im Mittelpunkt stehen.

hessian.AISC

Das vom Bundesministerium für Bildung und Forschung geförderte KI Servicezentrum hessian.AISC mit Standort bei hessian.AI in Darmstadt stärkt das europäische KI-Ökosystem und die technologische Souveränität von Europa durch

  • die Bereitstellung und den Ausbau einer massiven KI-Computing-Infrastruktur,
  • anwendungsorientierte Forschung im Rahmen der 3rd wave of AI,
  • Bereitstellung von Services und
  • Weiterbildungen im Bereich der künstlichen Intelligenz.

Durch diese vier Säulen trägt das Servicezentrum maßgeblich dazu bei, die Ergebnisse der Spitzenforschung von heute in die Dienstleistungen und Produkte von morgen zu überführen. Unser zentraler Antrieb ist es, robuste, sichere und effiziente KI-Systeme für einen breiten Nutzerkreis zu entwickeln und die Barrieren für die Anwendung und Weiterentwicklung stark zu senken.

Gemeinsam mit der vorhandenen Expertise von hessian.AI bietet das KI Servicezentrum ein einzigartiges Ökosystem, um Startups, Unternehmen und öffentliche Einrichtungen bei ihrem Einstieg und ihrer Weiterentwicklung im Bereich der künstlichen Intelligenz zu unterstützen und die Spitzenforschung in Deutschland voranzutreiben.

Das KI Servicezentrum bietet eine für Hessen einzigartige High-Performance-Computing (HPC) Recheninfrastruktur zum Trainieren und Entwickeln von KI-Modellen an. Neben einer stufenlosen Skalierbarkeit der Rechenleistung auf bis zu 632 A100 80GB-SMX-GPUs bietet das Rechencluster zusätzliche Non-Mainstream-Hardware zur Forschung & Entwicklung spezialisierter KI-Lösungen. So sind in das HPC-Cluster 4 Graphcore bow-200 Nodes und ein Nvidia Developer Toolkit eingebunden. Die einzelnen Server sind mit einer 80GB-Infiniband-Netz verbunden und es stehen bis zu 1.251 TB an Nutzspeicherkapazität zur Verfügung.

Gleichzeitig wird unser Rechencluster kontinuierlich weiter ausgebaut, um die Souveränität von Deutschland als Standort für künstliche Intelligenz auch zukünftig sicherzustellen und zu stärken.
In diesem Rahmen werden im Q3 2024 weitere 280x H100 GPUs

Auf diese Weise können auch große Modelle trainiert und – im Rahmen unserer Services – effiziente Proof of Concepts sowie größere Projekte direkt vor Ort realisiert werden.

Highlights der HessianAI-Infrastruktur

  • HPC CLUSTER MIT 79 APOLLO 6500 SERVER, jeweils mit
    • 2x AMD EPYC 7313 3.0GHz 16-core
    • 8x NVIDIA HGX A100 80GB GPU mit NV-Link (SXM Card)
    • 32x HPE 64GB Dual Rank x4 DDR4-3200 (= 2.048 GB)
  • HPC GRAPHCORE SERVER mit
    • 2x AMD EPYC 7713 2.0GHz 64-core
    • 4x Graphcore bow-2000 Nodes
    • 16x HPE 32GB Dual Rank x4 DDR4-3200 (= 512 GB)
  • PARALLEL FILE STORAGE SYSTEM mit
    • Infiniband Netzwerk mit 800 GB/s
    • 1.251 TB Nutzkapazität
    • 192 GB/s lesen, and 152,3 GB/s schreiben

Weitere Details erfahren Sie unter https://hessian.ai/de/ki-servicezentrum/recheninfrastruktur/ Antrag auf Nutzung kann direkt über diese Seite gestellt werden: https://hessian-ai.atlassian.net/servicedesk/customer/portal/1

KISSKI

Das zentrale Anliegen von KISSKI, dem „KI-Servicezentrum für Sensible und Kritische Infrastrukturen“, ist die Forschung an KI-Methoden und deren Bereitstellung in einem hochverfügbaren Serviceangebot. Der Fokus liegt dabei auf den gesellschaftlich relevanten Bereichen Medizin und Energie. Investitionen in die notwendige Hardware-Infrastruktur und der Zugriff auf Expertenwissen sind besonders für kleine und mittelständische Unternehmen eine große Herausforderung. Ein zentrales Anliegen von KISSKI ist es daher, die entsprechende IT-Infrastruktur bereitzustellen, KI-Dienste zu entwickeln und ein umfangreiches Beratungs- und Schulungsangebot zu etablieren.
https://kisski.de/

Für das Training von KI-Modellen stellt KISSKI ein GPU-Cluster, bestehend aus insg. 46 mit NVIDIA A100 und H100 GPUs ausgerüsteten Servern zur Verfügung. Als Speicherlösung kommt ein VAST All-Flash System zum Einsatz, das einen flexiblen und performanten Zugriff auf ca. 600 TB nutzbare Kapazität ermöglicht. Der Zugriff erfolgt durch interaktiven SSH-Login in Kombination mit dem Slurm Workload Manager. Weiterhin betreibt das KI-Servicezentrum ein über seine Betreiberstandorte Hannover und Göttingen verteiltes Inferenzsystem auf Basis von insgesamt 21 Knoten mit NVIDIA H100 GPUs, das unter anderem die technische Basis für den Dienst  „Chat AI“ bildet, über den verschiedene Sprachmodelle, z.B. LLaMA und GPT-4 interaktiv genutzt werden können. Schließlich ist über die KISSKI Entwicklungsplattform eine breite Paletter neuer Architekturen zur Erprobung von KI-Workloads mit der entsprechenden Softwareumgebung verfügbar. Die Rechenressourcen können unkompliziert über den KISSKI Leistungskatalog gebucht werden.

Highlights der KISSKI-Infrastruktur

  • Trainingsplattform
    • 35 Knoten mit jeweils 4 NVIDIA A100 (SXM4, 80 GB)
    • 11 Knoten mit jeweils 4 NVIDIA H100 (SXM5, 94 GB)
  • Future Technology Plattform (Entwicklungsplattform) :
    • Intel Habana Gaudi 2
    • NVIDIA Grace Hopper
    • GraphCore
    • Esperanto.ai
    • SpiNNaker
  • Inferenzplattform :
    • 21 Knoten mit jeweils 4 NVIDIA H100 (PCIe, 80 GB)
    • Geo-redundantes System mit Betreiberstandorten in Göttingen und Hannover
  • 600 TB VAST All-Flash Speichersystem
  • Das KISSKI-Angebot ist offen für alle Nutzerinnen und Nutzer aus Wissenschaft und Wirtschaft (insb. KMUs), vor allem aus den Bereichen Medizin und Energie

KISZ-BB

Das KI-Servicezentrum Berlin-Brandenburg ist ein Projekt des Hasso-Plattner-Instituts mit dem Ziel, durch Wissensvermittlung und Vernetzung Barrieren für den Einsatz von KI in Wirtschaft und Gesellschaft zu senken. Forschungsschwerpunkte sind die Betriebsforschung zur Untersuchung eines KI-Rechenzentrums mit heterogener Hardware und die Methodenforschung zur Adaption und Optimierung von KI-Modellen. Für die Entwicklung und Nutzung von KI-Anwendungen stellt das KISZ-BB Ressourcen wie Rechenleistung, Speicherplatz, Daten und Modelle bereit. Zudem bietet das KISZ-BB Bildungs- und Beratungsangebote in Form von Workshops, Einzelberatungen und Online-Kursen an. So werden Unternehmen, Start-ups und gemeinnützige Einrichtungen dabei unterstützt, die nächsten Schritte zur Professionalisierung von KI-Anwendungen erfolgreich zu meistern.
https://hpi.de/kisz/

Das KISZ-BB stellt 8 NVIDIA Basepods mit je 8 H100 GPUs (mit je 80 GB VRAM) für das Training von KI-Modellen zur Verfügung. Die H100 Pods kommunizieren untereinander über 400 Gb/s Infiniband und 200 Gb/s Ethernet. Für die Inferenz stehen 5 NVIDIA Pods mit jeweils 8 A30 zur Verfügung. Zusätzlich werden ein NVIDA Jetson AGX Modul, ein ARM Server (2 NVIDIA L40 GPUs mit 48GB und 512GB RAM) und ein Server mittlerer Preisklasse (8 NVIDIA L40S + AMD Epyc CPU), der auch für KMUs relevant ist, angeboten. Für die Daten- und Modellspeicherung stehen insgesamt 1,5 PB in einem VAST ALL-Flash System zur Verfügung. Um die Ressourcen im Rahmen von Pilotprojekten nutzen zu können, benötigt das KISZ-BB zunächst Informationen über das geplante Projekt, die Anzahl der benötigten GPUs sowie die Projektdauer. Die Anfrage erfolgt über die Website . Um Zugang zu den GPU-Clustern zu erhalten, müssen die Nutzungsbedingungen des KISZ-BB akzeptiert werden, was durch Unterzeichnung des Nutzungsvertrages geschieht.

Übersicht der Infrastruktur:

  • Trainingscluster:
    • 8 Knoten mit jeweils 8 NVIDIA H100 (64 GPU)
  • Inferenzcluster:
    • 5 Knoten mit jeweils 8 NVIDIA A30 (40 GPU)
  • GPU-Server:
    • 8 NVIDIA L40S (8 GPU)
    • AMD Epyc CPU
  • ARM Server
    • 2 NVIDIA L40 (2 GPU)
    • Ampere Altra Max 128-30 CPU, 2.8GHz
  • Edge-Simulation:
    • NVIDIA Jetson AGX
    • ARMv8 CPU
  • 1,5 PB VAST All-Flash Speichersystem

WestAI

WestAI – das KI-Servicezentrum im Westen Deutschlands – ermöglicht Akteuren aus Wirtschaft und Wissenschaft den Zugang zu KI-Services, KI-Modellen und leistungsstarken KI-Recheninfrastrukturen. Die wissenschaftlichen Schwerpunkte von WestAI sind dabei die Erstellung und der Transfer von großen, multimodalen KI-Modellen. Beim Transferlernen passt WestAI große KI-Modelle für spezifische Anwendungsfälle an und komprimiert diese bei Bedarf, um Hardwarerestriktionen gerecht zu werden. Für die Multimodalität vereint WestAI Fachexpertise aus den Bereichen Text-, Bild-, Video-, Audio-, 3D- und Zeitreihen-Datenverarbeitung und kombiniert diese für multimodale Anwendungsfälle.

WestAI bietet Kundinnen und Kunden High Performance Computing (HPC) Hardware für Ihre KI-Trainings an. Diese Hardware ist in die Systeme CLAIX-2023 am IT Center der RWTH Aachen University und in JURECA am Jülich Supercomputing Centre integriert. So profitieren Nutzende von bestehender Infrastruktur, Speichersystemen und jahrzehntelanger Erfahrung in der Administration.
Mithilfe des Workloadmanagement-Systems SLURM wird eine gerechte Verteilung der verfügbaren Rechenressourcen sichergestellt. Zudem werden alle gängigen ML-Softwarepakete und -Container bereitgestellt.
Forschungseinrichtungen können Rechenzeit über ein Online-Formular beantragen. Interessierte aus der Wirtschaft wenden sich am besten direkt an contact@westai.de.

Die Recheninfrastruktur besteht aus den folgenden Bestandteilen:

  • 15 Rechenknoten am IT Center der RWTH Aachen
    • 2x Intel Xeon Platinum 8468 (Sapphire Rapids) CPUs
    • 4x NVIDIA H100 GPUs
      • inkl. NVLink Interconnect
      • 94 GB HBM2e pro GPU
    • 512 GB DDR5 RAM pro Knoten
    • 750 GB lokaler SSD Speicher
    • Infiniband Interconnect
    • Rechenknoten sind in CLAIX-2023 integriert
  • 16 Rechenknoten am Jülich Supercomuting Centre
    • 2x Intel Xeon Platinum 8462Y (Sapphire Rapids) CPUs
    • 4x NVIDIA H100 GPUs
      • inkl. NVLink Interconnect
      • 94 GB HBM2e pro GPU
    • 512 GB DDR5 RAM pro Knoten
    • Infiniband Interconnect
    • Rechenknoten sind in JURECA integriert
  • Storage-Lösungen sind an beiden Standorten über Infiniband angebunden.

Zentrumsübergreifende Zusammenarbeit

Die vier KI-Servicezentren mit ihren unterschiedlichen Schwerpunkten ergänzen sich harmonisch. Sie sind untereinander vernetzt und in virtuellen, Zentrums-übergreifenden Interessengruppen organisiert. Diese Interessensgruppen dienen dem Austausch zu Themen wie Hardwarebeschaffung und Servicebereitstellung, die für alle Zentren gleichermaßen von Bedeutung sind. Weiterhin werden gemeinsame Aktivitäten auf nationaler Ebene geplant, wie zum Beispiel gemeinsame Auftritte auf Konferenzen und Messen. Zudem sind gemeinsame Workshops in Planung.