Erste deutschsprachige große Sprachmodelle

Mit dem erfolgreichen Training von gleich zwei rein deutschen großen Sprachmodellen setzt der Lehrstuhl für Data Science am Center for Artificial Intelligence and Data Science (CAIDAS) der Universität Würzburg einen Meilenstein für deutschsprachige Large Language Models (LLMs). Beide Modelle – „LLäMmlein 120M“ und das leistungsstärkere „LLäMmlein 1B“ mit einer Mrd. Parametern sowie verschiedenen Chat-Varianten – stehen Forschenden seit November 2024 zur freien Verfügung. Das Projekt, bei dem nicht nur die deutsche Sprachverarbeitung, sondern auch die Untersuchung und Verbesserung der Lerndynamik der Modelle im Fokus steht, ist Auftakt für die Entwicklung noch größerer Modelle. Die umfangreichen Berechnungen für das 1B-Modell wurden am GPGPU-Cluster „Alex“ des NHR@FAU in Erlangen durchgeführt. Hierfür wurden 50.000 GPU-Stunden auf A100-GPUs mit 80 GB Speicher benötigt. Das kleinere Modell wurde auf dem neuen eigenen JuliaV2-Cluster der Universität Würzburg mit etwa 10.000 L40-GPU-Stunden berechnet. Weitere Informationen: informatik.uni-wuerzburg.de/datascience/projects/nlp/llammlein/ .

Kontakt:

Andreas Hotho

JMU

Mail

Erste deutschsprachige große Sprachmodelle

More articles from infoletter issue 123

Einweihung des Supercomputers Hunter am HLRS

Blue Lion: ein neuer Supercomputer fürs LRZ

HammerHAI: AI Factory für Wissenschaft und Industrie

HOSHMAND – KI-gesteuerter Compute Scheduler

Teleportation in VR: Projekt “Put Me There”

QUADRIGA – Datenkompetenz für Berlin-Brandenburg

Gauss AI Compute Competition

Credits

About Gauß-Allianz

Erste deutschsprachige große Sprachmodelle

More articles from infoletter issue 123

Einweihung des Supercomputers Hunter am HLRS

Blue Lion: ein neuer Supercomputer fürs LRZ

HammerHAI: AI Factory für Wissenschaft und Industrie

HOSHMAND – KI-gesteuerter Compute Scheduler

Teleportation in VR: Projekt “Put Me There”

QUADRIGA – Datenkompetenz für Berlin-Brandenburg

Gauss AI Compute Competition

Credits

About Gauß-Allianz

Search