Neues 10B-Modell für drei Sprachen

Das Team „Big Data & Artificial Intelligence (BDAI)“ am LRZ hat gemeinsam mit Partnern das trilinguale Sprachmodell Llama-GENBA-10B entwickelt. Es basiert auf Metas Llama-Modell (Version 3.1-8B), umfasst 10 Mrd. Parameter und wurde mit einem Datensatz von 164 Mrd. Token auf dem Cerebras CS-2 System am LRZ trainiert. Llama-GENBA-10B ist als inklusives und ressourceneffizientes Basismodell konzipiert und kann Texte in Englisch, Deutsch und Bayerisch generieren sowie übersetzen. In einem Preprint beschreibt die Gruppe die Methode und die besonderen Herausforderungen beim Training und vergleicht die Leistungsfähigkeit des Modells mit anderen Sprachmodellen wie Apertus-8B, gemma-2-9b oder EuroLLM-9B. Weitere Informationen: lrz.de/news/detail/lrz-entwickelt-10b-sprachmodell .

Kontakt:

Nicolay Hammer

LRZ@GCS

Mail

Neues 10B-Modell für drei Sprachen

More articles from infoletter issue 129

JUPITER eingeweiht: Exascale für Europa

Neues Rechenzentrum an der Universität Mainz

SuperMUC-NG simuliert detailgenau Turbulenz

Simulation von Elektronen für sichere Fusionsenergie

Testbed für Quantenkommunikation startet

Effiziente Forschungssoftware für HPC

Gordon-Bell-Preisnominierung für ICON-Simulationen

Credits

About Gauß-Allianz

Neues 10B-Modell für drei Sprachen

More articles from infoletter issue 129

JUPITER eingeweiht: Exascale für Europa

Neues Rechenzentrum an der Universität Mainz

SuperMUC-NG simuliert detailgenau Turbulenz

Simulation von Elektronen für sichere Fusionsenergie

Testbed für Quantenkommunikation startet

Effiziente Forschungssoftware für HPC

Gordon-Bell-Preisnominierung für ICON-Simulationen

Credits

About Gauß-Allianz

Search