Mit dem erfolgreichen Training von gleich zwei rein deutschen großen Sprachmodellen setzt der Lehrstuhl für Data Science am Center for Artificial Intelligence and Data Science (CAIDAS) der Universität Würzburg einen Meilenstein für deutschsprachige Large Language Models (LLMs). Beide Modelle – „LLäMmlein 120M“ und das leistungsstärkere „LLäMmlein 1B“ mit einer Mrd. Parametern sowie verschiedenen Chat-Varianten – stehen Forschenden seit November 2024 zur freien Verfügung. Das Projekt, bei dem nicht nur die deutsche Sprachverarbeitung, sondern auch die Untersuchung und Verbesserung der Lerndynamik der Modelle im Fokus steht, ist Auftakt für die Entwicklung noch größerer Modelle. Die umfangreichen Berechnungen für das 1B-Modell wurden am GPGPU-Cluster „Alex“ des NHR@FAU in Erlangen durchgeführt. Hierfür wurden 50.000 GPU-Stunden auf A100-GPUs mit 80 GB Speicher benötigt. Das kleinere Modell wurde auf dem neuen eigenen JuliaV2-Cluster der Universität Würzburg mit etwa 10.000 L40-GPU-Stunden berechnet. Weitere Informationen: informatik.uni-wuerzburg.de/datascience/projects/nlp/llammlein/ .