Registrierung: Montag, 8. Oktober 2018, 09:30 - 10:15 Uhr
Beginn: Montag, 8. Oktober 2018, 10:15 Uhr
Ende: Dienstag, 9. Oktober 2018, 16:00 Uhr
Das aktuelle Programm finden Sie hier.
Registrierung
Martensstraße 1, 91058 Erlangen
Eröffnung der 8. HPC-Status-Konferenz
Prof. Dr. Gerhard Wellein
RRZE, Friedrich-Alexander-Universität Erlangen-Nürnberg
RRZE, Hörsaal 4 (H4)
Keynote: HPC-Projekte in Luft- und Raumfahrt
RRZE, Hörsaal 4 (H4)
Eine taskbasierte Programmierumgebung zur Entwicklung reaktiver HPC Anwendungen
RRZE, Hörsaal 4 (H4)
Beschreibung
Das Chameleon Projekt beschäftigt sich mit der Untersuchung von taskbasierten Programmieransätzen im Hinblick auf die zu erwartende steigende dynamische Hardware-Variabilität zukünftiger HPC Systeme. Der Vortrag gibt einen Überblick über den Stand des Projektes und berichtet über aktuelle Arbeiten zur Verbesserung der knotenlokalen Taskausführung von OpenMP durch Datenlokalität, die Einzug in die nächste OpenMP Spezifikation halten werden ('affinity' Klausel). Es wird weiters eine Fallstudie präsentiert, bei der für eine hybride (MPI+OpenMP) Anwendung ein verteiltes Tasking-Konzept beispielhaft "manuell" umgesetzt wurde. Hier zeigt sich, dass das neue Konzept zur Lastbalancierung besser und flexibler auf Lastungleichgewichte reagieren kann, insbesondere im Fall von (künstlich erzeugter) Verlangsamung von Knoten. Pläne für zukünftige Arbeiten, die die Portierung einer Anwendung auf verteiltes Tasking vereinfachen, schließen den Vortrag ab.
Task-Based Load Balancing and Auto-Tuning in Particle Simulations
RRZE, Hörsaal 4 (H4)
Beschreibung
Im Projekt TaLPas werden innovative, Auto-Tuning-basierte Softwarelösungen für Node-Level optimierte Partikelsimulationen und hochskalierbare, taskbasierte Samplingverfahren entwickelt.
In diesem Vortrag werden die Stati verschiedener, aus TaLPas hervorgehender Softwarelösungen präsentiert.
Die Bibliothek Auto-Pas verfügt über verschiedene (1) Partikeltraversierungen, (2) Datenstrukturen, (3) OpenMP-Parallelisierungen und (4) Partikelinteraktionskernels. Nach einem kurzen Überblick über die Bibliothek wird ihre Funktionalität an Hand ausgewählter Partikelsimulationsszenarien demonstriert und auf das Potential einer automatisierten Auswahl optimaler Konfigurationen aus (1)-(3) (Auto-Tuning) eingegangen.
Ein Python-basierter Workflow-Manager wird vorgestellt, dessen Design die Anbindung von Partikelsimulation, Leistungsvorhersagewerkzeugen (bspw. Extra-P) und Sampling-Algorithmen erlaubt. Der geplante Einsatz des Managers wird am Beispiel des Equation-of-state Fitting demonstriert.
Zur Verbesserung der Robustheit werden Checkpoint- und In-Memory-basierte Ansätze zur Fehlertoleranz vorgestellt, welche derzeit an der Partikelsoftware ls1 erprobt werden.
Die Integration aller Komponenten--Workflow-Manager, Auto-Pas, Resilienz--ist Gegenstand aktueller und künftiger Arbeiten.
Programmierung und Ausführung von taskbasierten HPC Anwendungen
Lutz Schubert, Randolf Rotta, Stefan Bonfert
RRZE, Hörsaal 4 (H4)
Beschreibung
ProThOS unterstützt den kompletten Stack von Entwicklung bis Ausführung von hochskalierbaren, task-basierten Anwendungen. anydsl erlaubt die einfach Definition von komplexen Anwendungen, die dann compiler-gestützt in Tasks zerlegt und deren Datenabhängigkeiten identifizert werden können. Durch die Integration der Task-Ausführung mit dem Betriebssystem können effiziente Scheduling- und insbesondere Adaptationsstrategien realisiert werden, die die Ressourcenauslastung auch in stark verteilten System deutlich verbessert.
Statusbericht des SeASiTe-Projekts
RRZE, Hörsaal 4 (H4)
Beschreibung
Im BMBF-Projekt SeASiTe (Selbstadaption für zeitschrittbasierteSimulationstechniken auf heterogenen HPC-Systemen) untersuchen wir systematisch Selbstadaptionansätze für zeitschrittbasierte Simulationstechniken auf heterogenen HPC-Systemen. Ziel ist der Entwurf und die Bereitstellung des Prototypen eines Werkzeugkastens, mit dessen Hilfe Programmierer ihre Anwendungen mit effizienten Selbstadaptionstechniken ausstatten können.
In diesem Vortrag geben wir einen Überblick über den aktuellen Standder Arbeiten und stellen kurz wesentliche Erkenntnisse und Fortschritte aus der ersten Projekthälfte vor.
ENVELOPE - Effizienz und Zuverlässigkeit: Selbstorganisation in HPC-Systemen: ein Zwischenbericht
RRZE, Hörsaal 4 (H4)
Beschreibung
Der Vortrag gibt einen Überblick über den Stand der Arbeiten im Projekt ENVELOPE.
Code generation for HPC
RRZE, Hörsaal 4 (H4)
Beschreibung
The presentation will discuss the code generation approach from the HPC2SE project and show how efficient and scalable implementations can be automatically derived from high-level descriptions. As back-ends we couple the generated code with the waLBerla and DUNE software frameworks.
Modeling Performance and Energy at Compile Time for Improved Scheduling Decisions
Prof. Dr. Holger Fröning, Lorenz Braun, Sotirios Nikas, Prof. Dr. Vincent Heuveline
RRZE, Hörsaal 4 (H4)
Beschreibung
The BMBF Mekong Project aims to simplify the programming of multi-GPU systems by automatically converting CUDA programs to run on multiple GPUs. It is based on compile-time analysis and transformation to partition CUDA kernels and to add orchestration functionality in terms of scheduling and data movements. For improved scheduling decisions in terms of time and energy, we predict performance and power consumption at compile time using static code analysis and models that infer execution time respectively power consumption. In this talk, we present our underlying concept and discuss initial results.
Domänenspezifische Programmierung und zielplattformbewusste Compiler-Infrastruktur für Algorithmen auf unstrukturierten Gittern
PD Dr.-Ing. habil. Frank Hannig, Christian Schmitt
RRZE, Hörsaal 4 (H4)
Beschreibung
Ziel des Verbundprojektes HighPerMeshes ist die Entwicklung eines in der Praxis einsetzbaren domänenspezifischen Frameworks zur effizienten, parallelen und skalierenden Implementierung iterativer Algorithmen auf unstrukturierten Gittern. Simulationssoftware im Zeitbereich, die in diese Gruppe fällt, wird in den letzten Jahren sowohl im wissenschaftlichen als auch im industriellen Umfeld vermehrt eingesetzt und ergänzt bzw. verdrängt vergleichbare Methoden auf regulären Gittern. Um in der rechnergestützten Forschung und industriellen Entwicklung den Anwendungsbereich dieser Methoden voranzutreiben, zum Beispiel von der Analyse eines statischen Systems hin zur Optimierung von Parametern, wird immer mehr Rechenleistung benötigt. Dazu können hochskalierende Systeme mit vielen parallelen Rechenknoten mit modernen Prozessorarchitekturen wie Manycore-CPUs, Graphikprozessoren oder FPGAs beitragen. Im Gegensatz zur Domäne der regulären Gitter gibt es für Entwicklerinnen und -entwickler natur- und ingenieurwissenschaftlicher Simulationsprogramme mit unstrukturierten Gittern bisher keine einfach zu nutzenden, produktiven und damit praxistauglichen Entwicklungswerkzeuge, um moderne Rechnersysteme effizient zu erschließen.
Metacca - Metaprogramming for Accelerators
RRZE, Hörsaal 4 (H4)
Beschreibung
Die Rechnerlandschaft wird heutzutage immer heterogener und derzeit ist keine Trendwende in Sicht. Insbesondere wird die Hardware immer spezialisierter und weist verschiedene Formen der Parallelität auf. Für performante Programme ist es unabdingbar, hardwarespezifische Eigenheiten zu adressieren. Wegen des Halteproblems ist es allerdings unrealistisch anzunehmen, dass ein Programm, das in einer universell einsetzbaren Programmiersprache implementiert ist, vollautomatisch auf solche spezialisierte Hardware übersetzt werden kann und dabei noch Spitzenleistung erzielt. Aus diesem Grund nutzen HPC-Programmierer viele Techniken, die den Quellcode unleserlich, schwer zu verstehen und vor allem in der Regel unportierbar machen. Insbesondere ist diese Anpassung enorm zeitaufwendig und kann für verschiedene Hardwareplattformen komplett unterschiedlich aussehen.
Im Rahmen des Metacca-Projektes beschäftigen wir uns damit, Algorithmen so zu implementieren, dass sie einer Lehrbuchimplementierung ähneln. Durch verschiedene Abstraktionen können wir mithilfe eines partiellen Auswerters, hardwarespezifische Anpassungen im Nachhinein in die Implementierung hineinweben. Der Programmierer muss diese Anpassungen nicht mehr händisch erledigen. Wir verwenden unser Rahmenwerk in drei Anwendungen: Bildverarbeitung, Ray-Tracing und Genomsequenzausrichtung. Dort können wir hochperformante Implementierungen für CPUs und GPUs aus einer Sprache und einer Codebasis auf generische Weise erhalten. Die Performance unserer Codes ist vergleichbar mit industrietauglichen Codes, die über Jahre hinweg von Experten optimiert worden sind. Desweiteren beschäftigen wir uns mit Performance-Modellierung, um a priori abzuschätzen, ob bestimmte Optimierungen überhaupt lohnenswert sind.
Metaprogrammierung für Heterogene Verteilte Systeme
RRZE, Hörsaal 4 (H4)
Beschreibung
Das MEPHISTO Projekt befasst sich mit der Entwicklung einer Programmierumgebung für verteilte heterogene Systeme mit Techniken der (C++) Metaprogrammierung. Zur Erreichung dieses Zieles setzt MEPHISTO auf existierenden Komponenten der beteiligten Partnerinstitutionen auf, und entwickelt Ansätze und Methoden zur Kombination dieser vorhandenen Komponenten. Der Vortrag stellt einige dieser Entwicklungen vor, etwa zur abstrakten Repräsentation von Datenstrukturen die selektiv sowohl für GPUs als auch für CPUs optimiert werden kann
Parallel large-scale optimization and Internet of Things for cyber physical power systems
RRZE, Hörsaal 4 (H4)
Beschreibung
Power systems are undergoing dramatic changes towards distributed generation, increasing exploitation of renewables, transmission over long distances and coupling of multiple sectors, such as heat, electricity and e-mobility. The resulting cyber-physical systems require new management and control technologies, starting from planning and marketing based on weather forecasts, up to operation in real-time and provision of ancillary services. Model-based control and optimization offer promising technologies for mastering the new power systems.
The presentation highlights findings of the PARADOM research project (PARallel Automatic Differentiation in OpenModelica) for parallel optimization. Modelica models are exported from OpenModelica as Functional Model Unit (FMU).
The planning horizon for the operation of power systems is split into sub-intervals that are treated in parallel with multiple instances of the FMU. The sub-intervals are concatenated with continuity conditions known from multiple shooting. Analytic Jacobians are generated by OpenModelica using automatic differentiation.The resulting large-scale equation systems are treated with parallel matrix solvers, such as PARDISO or SuperLU. Overall, a significant speedup is obtained on multi-core architectures.
The presentation concludes with a demonstration of energy optimization in ABB Ability.
The Internet of Things (IoT) offers promising technologies for new model-based control and optimization of large-scale power systems. The platform, such as ABB Ability, covers secure, geographically distributed connectivity and offers high computing power on demand.
This work is supported in parts by the Federal Ministry of Education and Research (BMBF) within the project PARADOM (PARallel Algorithmic Differentiation in OpenModelica) – BMBF funding code: 01IH15002E.
Improvements to the ELPA eigensolvers
RRZE, Hörsaal 4 (H4)
Beschreibung
Further improvements for the eigensolver ELPA will be presented, with respect to algorithms, functionality, ease of use, support for new architectures, and performance.
Social Event
Hauptstraße 110, 91054 Erlangen
Hochparallele Software-Verifikation nebenläufiger Anwendungen in der Automobilindustrie
RRZE, Hörsaal 4 (H4)
Beschreibung
Das zentrale Ziel des BMBF-Projektes HPSV ist die Schaffung einer HPC-Softwareplattform für die Verifikation komplexer Sicherheitsanforderungen an eingebettete Systeme. Damit wird einerseits, am Anwendungsbeispiel des Automobilbaus, ein völlig neues Feld des Hoch- und Höchstleistungsrechnens erschlossen und andererseits die effiziente Nutzung heutiger und zukünftiger HPC-Architekturen anhand neuer Ansätze erforscht. Das Vorhaben hat vier Zielrichtungen: - Hochskalierende Softwareverifikation und Nebenläufigkeitsanalyse für eingebettete Anwendungen in der Automobilindustrie, - Entwicklung neuer Skalierungsverfahren für ganzzahldominierte Anwendungen mit irregulärem Kommunikationsmuster, - Kompetenzaufbau zu Manycore und Exascale-Optimierung der genannten Anwendungsklassen, Nebenläufigkeitssimulation und Software-Verifikation, - Übertragung der entwickelten Werkzeuge, Verfahren und Prozesse in generische Dienstleistungen der HPC-Fachberatung für weitere Anwendungen.
Advances in the Skampy Project
Prof. Dr. Ulrich Ruede, PD Dr. Harald Köstler, Martin Bauer, Christian Godenschwager, Jan Hönig
RRZE, Hörsaal 4 (H4)
Beschreibung
In this talk we will present new results for massively parallel multiphysics simulations that are based on advanced numerical methods and coupling techniques employed on advanced heterogeneous supercomputer architectures. The resulting high complexity of implementaion is alleviated by program generation techniques. In this way excellent scalability and additionally superior node efficiency can be achieved.
Toward space-time parallel simulations of phase-field models
Ruth Schöbel
Juelich Supercomputing Centre, FZ Juelich, JSC@GCS
RRZE, Hörsaal 4 (H4)
Beschreibung
Phase-field models are an important class of mathematical techniques for the description of a multitude of industry-relevant physical and technical processes. Examples are the modelling of cracks and fracture propagation in solid media like ceramics or dry soil.
The price for the broad applicability and mathematical elegance of this approach is the significant computing cost required for the simulation of phase-field equations at large scales. Solutions of these equations typically contain sharp interfaces moving through the domain. Such structures can only be resolved with carefully tuned, adaptive discretization schemes in space and time. Even worse, many key phenomena start to emerge only when the simulation domain is large and the simulation time is long enough. Thus, the enormous number of degrees-of-freedom for the discretization in space and time as well as the significant complexity of the simulation demand the use of modern HPC architectures.
The goal of the BMBF project “ParaPhase -- space-time parallel adaptive simulation of phase-field models on HPC architectures” is the development of algorithms and methods that allow for highly efficient space-time parallel and adaptive simulations of phase-field problems. Three key aspects will be addressed in the course of the project: (1) heterogeneous parallelization in space using an adaptive phase-field multigrid algorithm, (2) innovative parallelization in time and (3) high-order and flexible methods in space and time. Based on the open source software DUNE, the “Distributed and Unified Numerics Environment”, the resulting algorithms will help to make large-scale HPC simulations accessible for researchers in these fields.
HPC-Toolbox zur Simulation und Inversion von Wellenfeldern
RRZE, Hörsaal 4 (H4)
Beschreibung
Wir entwickeln eine HPC-Toolbox zur Simulation und Inversion vollständiger seismischer Wellenfelder. In dem neu entwickelten C++ Software-Paket werden Finite-Differenzen-Berechnungen in Matrix-Vektor-Formulierung mit der Bibliothek LAMA durchgeführt, die Berechnungen auf verschiedenen Architekturen (CPU/GPU) ermöglicht. Eine Lastbalanzierung soll eine optimale Ausnutzung der verfügbaren Rechenkapazität ermöglichen. Es werden Anwendungen der Wellenforminversion aus der Geophysik und der Medizintechnik vorgestellt.
Deep Learning on HPC Systems
Dr. Franz-Josef Pfreundt
Fraunhofer ITWM
RRZE, Hörsaal 4 (H4)
ORKA-HPC - OpenMP für Rekonfigurierbare Architekturen
Viktor Achter, Florian Mayer
RRZE, Hörsaal 4 (H4)
Beschreibung
ORKA-HPC erleichtert bei rekonfigurierbaren Rechnerarchitekturen die Implementierung von HPC-Anwendungen durch ein optimiertes OpenMP für FPGAs. Ziel ist eine drastische Reduzierung des Portierungsaufwandes und einer breiten Anwenderschicht der Zugang zu dieser Technologie ermöglicht. So soll ein vollständiges Compiler-Eco-Systems unter Nutzung des OpenMP 4.5-Standards als Programmiermodell erstellt werden, um heterogene rekonfigurierbare Rechnerarchitekturen mit FPGAs für eine breite Community im HPC-Umfeld bereitzustellen.
Keynote: Performance Engineering for Computational Science
RRZE, Hörsaal 4 (H4)
Progress of the SES-HPC project at Uni Siegen
RRZE, Hörsaal 4 (H4)
Beschreibung
The SES-HPC project (Services for Experienced and Starting HPC Tier 3 Users) aims at improving support, both technical and administrative, and training for users of Tier-3 high-performance computing resources. The project includes the development of a training course program, the support of scientists in developing and optimizing their software as well as running off-the-shelf computing software, administrative help for users who want to switch to higher-tier centers, and the organization of knowledge transfer and documentation. In this talk, the progress of the project is presented.
Performance und Effizienz in HPC mit Custom Computing
Prof. Dr. Christian Plessl
PC2, Universität Paderborn
RRZE, Hörsaal 4 (H4)
Performance Conscious HPC (PeCoH)
Dr. Julian Kunkel
University of Reading
RRZE, Hörsaal 4 (H4)
Beschreibung
The objectives of the PeCoH project are to raise awareness and knowledge of users for performance engineering, i.e., to assist in the identification and quantification of potential efficiency improvements in scientific codes and code usage. In this talk, we present the status of the project. Conducted work covers tools for raising cost-awareness of running jobs on the data center, the establishment of a certification program for teaching, application of novel concepts into the scientific workflow and more.
Enabling Performance Engineering in Hesse and Rhineland-Palatinate (im Rahmen der Zwischenevaluierung der DFG)
Prof. Dr. Felix Wolf
FG Parallele Programmierung, TU Darmstadt
RRZE, Hörsaal 4 (H4)
Beschreibung
HPC software is an essential part of the infrastructure for science, but in order to push science, it must efficiently use state-of-the-art hardware and has to be continually brought forward as the hardware landscape changes. Users often lack the time and skill to improve their codes, computing centers lack the personnel, and improvements through tools (e.g., auto-parallelization) work, without accompanying code redesign, only in rare circumstances. To help users in this situation, the EPE project (“Enabling Performance Engineering in Hesse and Rhineland-Palatinate”), a project of the DFG Program “Performance Engineering for Scientific Software”, pursues a two-pronged approach. Its first objective is to push the partners’ expertise in GPU performance engineering, performance modeling for scalability analysis, algorithmic stability, performance, and reproducibility into performance engineering practices, thus empowering HPC users in areas critical for performance engineering. Its second objective is to bundle the distributed expertise for HPC support and performance engineering within the Hessian HPC-Competence Center (HKHLR) and the Alliance for HPC in Rhineland-Palatinate (AHRP) under a new umbrella organization to support scientists to efficiently use the HPC resources in Hesse and Rhineland-Palatinate. In this talk, we will present initial results, review first experiences, and outline future perspectives.
ProfiT-HPC - automatisierte Job-Reports
RRZE, Hörsaal 4 (H4)
Beschreibung
Im Fokus des DFG-geförderten Projektes ProfiT-HPC steht die automatisierte Generierung von Job-Reports für Nutzer von Tier 2 und Tier 3 Rechenzentren. Nach einem kurzen Projektüberblick und der Motivation, die hinter diesem Ansatz liegen, werden vor allem die Job-Reports selbst vorgestellt. Hierbei geht es um die Architektur, die der Reporterzeugung zu Grunde liegt, aber insbesondere auch um die Möglichkeiten und Grenzen der Reports im aktuellen Projektstatus. Zuletzt wird ein Ausblick auf zukünftige Arbeiten innerhalb des Projekts gegeben.
ProPE - Components for process-oriented performance engineering in academic HPC computing centres
Dr. Jan Eitzinger, Prof. Dr. Gerhard Wellein
RRZE, Friedrich-Alexander-Universität Erlangen-Nürnberg
RRZE, Hörsaal 4 (H4)
Beschreibung
Large HPC systems are expensive, and so is their operation, which makes their efficient use a crucial goal. However, those systems are complex with regard to hardware architectures, network topologies, tool chains and software environments. Particularly in academic computing centres there is a vast variety of applications with very different hardware demands. Furthermore, small- to medium-sized HPC sites tend to have very limited resources for user support and application performance tuning. For them, it is not feasible to manually ensure an efficient use of the systems. The DFG ProPE project is an effort to address critical components for an integrated nationwide Performance Engineering (PE) infrastructure. This involves a process that describes how to systematically handle and, if necessary, delegate a PE project within a network of HPC centres, but it also covers tools for job-specific application performance monitoring that assist the staff in detecting pathological jobs or jobs which expose a significant optimisation potential. A further emphasis is put on giving central access to HPC related knowledge.