Laut Beating hat Sapient Intelligence HRM-Text als Open Source veröffentlicht: ein Text-Generierungsmodell mit 1 Milliarde Parametern auf Basis seiner Hierarchical-Reasoning-Model- (HRM-) Architektur. Mit nur 40 Milliarden strukturierten Tokens benötigt das Modell für das Training lediglich 46 Stunden auf zwei 8-GPU-H100-Servern; die Rechenkosten liegen bei ungefähr 1.472 US-Dollar für die 1B-Version und bei 800 US-Dollar für die 0,6B-Variante. Das entspricht einer 130- bis 600-fachen Reduktion der Vortrainings-Rechenleistung im Vergleich zu Standardmodellen.
Die Effizienzgewinne ergeben sich aus einem Dual-Timescale-Recurrent-Design mit separaten schnellen und langsamen Transformer-Modulen, die abwechselnd über dieselbe Eingabe laufen und Informationen über Zustandsaddition austauschen. Das komplette Engineering-Framework einschließlich Datenauszug und PyTorch-Distributed-Training wurde ebenfalls als Open Source bereitgestellt. Beachten Sie, dass die veröffentlichten Gewichte nicht ausgerichtetes reines Pretraining sind; das Modell kann Prefix-Completion-Aufgaben unterstützen, aber nicht als Assistent im Gespräch funktionieren.
Related News