Sapient stellt ein Open-Source-Modell mit 1B Parametern HRM-Text bereit; erreicht 1.472 US-Dollar Trainingskosten in 46 Stunden

Laut Beating hat Sapient Intelligence HRM-Text als Open Source veröffentlicht: ein Text-Generierungsmodell mit 1 Milliarde Parametern auf Basis seiner Hierarchical-Reasoning-Model- (HRM-) Architektur. Mit nur 40 Milliarden strukturierten Tokens benötigt das Modell für das Training lediglich 46 Stunden auf zwei 8-GPU-H100-Servern; die Rechenkosten liegen bei ungefähr 1.472 US-Dollar für die 1B-Version und bei 800 US-Dollar für die 0,6B-Variante. Das entspricht einer 130- bis 600-fachen Reduktion der Vortrainings-Rechenleistung im Vergleich zu Standardmodellen.

Die Effizienzgewinne ergeben sich aus einem Dual-Timescale-Recurrent-Design mit separaten schnellen und langsamen Transformer-Modulen, die abwechselnd über dieselbe Eingabe laufen und Informationen über Zustandsaddition austauschen. Das komplette Engineering-Framework einschließlich Datenauszug und PyTorch-Distributed-Training wurde ebenfalls als Open Source bereitgestellt. Beachten Sie, dass die veröffentlichten Gewichte nicht ausgerichtetes reines Pretraining sind; das Modell kann Prefix-Completion-Aufgaben unterstützen, aber nicht als Assistent im Gespräch funktionieren.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare