Durch die stetig wachsende Größe und Komplexität aktueller HPC-Systeme werden die Auswirkungen von Fehlern und Ausfällen von Systemkomponenten immer gravierender. Aktuelle Extrapolationen zeigen klar, dass die Herausforderungen der Integration großer HPC-Systeme im Multi-Petascale- und Exascale-Bereich zu einem Zustand führen werden, bei dem die Dauer der „Stabilisierung“ einen signifikanten Anteil der Lebensdauer dieser Systeme beansprucht. Daher ist die Integration von Mechanismen zur Fehlertoleranz über entsprechend erweiterte System- und Anwendungssoftware in HPC-Systemen unabdingbar, um ihre Widerstandsfähigkeit (Resilienz) gegen eine Vielzahl von möglichen Teilversagensmechanismen nachhaltig zu erhöhen. Das seit Mitte 2011 vom BMBF geförderte HPC-Projekt „Eine fehlertolerante Umgebung für peta-scale MPI Löser (FEToL)“ greift diese Herausforderung durch Entwicklung eines hierarchischen, middleware-basierten Ansatzes auf, der bei minimaler Adaption der Anwendungen eine fehlertolerante Ausführung großer paralleler Jobs ermöglicht. Neben der TU Braunschweig als Koordinator sind an dem Projekt die Universitäten Duisburg-Essen, Stuttgart und Erlangen-Nürnberg sowie die Firma NEC beteiligt. Weitere Informationen: FEToL