Gate News-Mitteilung, 24. April — Der technische Bericht von DeepSeek über V4 zeigt, dass V4-Flash und V4-Pro jeweils auf 32T- bzw. 33T-Token vortrainiert wurden, also doppelt so viele wie die ungefähr 15T-Token, die für V3 verwendet wurden. Der Bericht räumt ein, dass es während des Trainings zu „erheblichen Instabilitätsproblemen“ kam, wobei es wiederholt zu Verlust-Spikes kam, die auf Anomalien in der Mixture-of-Experts (MoE)-Schicht zurückzuführen sind; der Routing-Mechanismus selbst verschärft diese Anomalien, und ein simples Rollback kann das Problem nicht beheben.
DeepSeek hat jetzt zwei Lösungen implementiert, die im tatsächlichen Training eingesetzt werden: Antizipatives Routing, das die Berechnung des Routing-Index von Updates des Backbone-Netzwerks entkoppelt und automatisch nur dann auslöst, wenn Verlust-Spikes erkannt werden (wobei ein zusätzlicher Overhead von etwa 20% entsteht), sowie SwiGLU-Clamping, das Anomalien direkt unterdrückt, indem Aktivierungswerte auf einen festen Wertebereich eingeklemmt werden. Der Bericht besagt, dass beide Ansätze wirksam sind, räumt jedoch ein: „Die zugrunde liegenden Prinzipien sind weiterhin nicht ausreichend verstanden.“
Susan Zhang, eine Forscherin bei Google DeepMind, die zuvor bei Meta AI und OpenAI gearbeitet hat, kommentierte, dass die Instabilität, die durch das Verdoppeln der Trainingsdaten ausgelöst wurde, „die Verzögerung erklärt.“ Sie bezeichnete die beiden Lösungen als „Pflaster“, während sie zugleich anerkennt, wie transparent DeepSeek technisch ist.
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to
Disclaimer.
Verwandte Artikel
Commonwealth Bank senkt 120 Stellen im Zuge der KI-Expansion
Die Commonwealth Bank of Australia hat angekündigt, etwa 120 Arbeitsplätze zu streichen, da die größte Bank des Landes ihre Stellen überprüft und ihren Einsatz von Künstlicher Intelligenz ausweitet, laut Bloomberg. Die Kürzungen umfassen 43 Stellen bei Bankwest in Westaustralien, wobei sechs Positionen von der Automatisierung betroffen sind. Dies ist ein
CryptoFrontier3M her
Cursor deckt XAI-Trainingsgrund auf: Die Rechenleistung wird blockiert, SpaceX hält außerdem 60 Milliarden US-Dollar Kaufoptionen bereit
Anysphere kündigt an, dass Cursor mit der xAI mithilfe der Colossus-Infrastruktur neue Modelle trainieren wird, um die Rechenkapazitätsgrenze zu durchbrechen; SpaceX legt eine Übernahmeoption in Höhe von 60 Milliarden US-Dollar vor (vollständige Übernahme innerhalb von 2026), andernfalls wird etwa 10 Milliarden US-Dollar als Kooperationsentschädigung gezahlt. Beide Transaktionen laufen gleichzeitig und werden neu definieren, wer Cursor trainieren kann und wer Cursor kaufen kann; Cursor erlaubt weiterhin viele Modell-Backends, aber der langfristige Verlauf hängt davon ab, ob SpaceX das Übernahmerecht ausübt.
ChainNewsAbmedia21M her
Anthropic: Bewertung des Zweitmarkts überschreitet 1 Billion US-Dollar: Forge Global überholt OpenAI mit 880 Milliarden
Laut einem Bericht von Decrypt beträgt die sekundäre Bewertung von Forge Global für Anthropic etwa 1 Billion US-Dollar, für OpenAI etwa 880 Milliarden US-Dollar, wobei es erstmals zu einem führenden Umschwung im Sekundärmarkt kommt. Anthropic ARR stieg von ungefähr 9 Milliarden am Jahresende 2025 auf etwa 30 Milliarden im März 2026; in drei Monaten entspricht das einem Wachstum von 233%, was die Private-Equity-Bewertungen anhebt. Sekundäre Bewertungen unterscheiden sich von Erstfinanzierungen und spiegeln die Erwartungen an einen Exit wider; in Zukunft werden weiterhin vier Schienen betrachtet: Technologie, Politik, Geschäftsmodell und Narrativ.
ChainNewsAbmedia22M her
Meta Platforms plant am 20. Mai eine Reduzierung der Belegschaft um 10%, betroffen sind etwa 8.000 Stellen
Gate News-Meldung, 24. April — Meta Platforms plant, seine Belegschaft um etwa 10% zu reduzieren, wodurch rund 8.000 Stellen betroffen sind, am 20. Mai. Die Entlassungen sollen die operative Effizienz verbessern und zugleich Investitionen in künstliche Intelligenz erhöhen.
Die geplante Umstrukturierung spiegelt die
GateNews1Std her
Das Trump-Regime hat einen Plan zur Bekämpfung der KI-Extraktion veröffentlicht und wirft chinesischen Unternehmen vor, systematisch die Modellfähigkeiten zu stehlen.
Das Büro für Wissenschafts- und Technologiepolitik des Weißen Hauses (OSTP) veröffentlichte am 23. April eine offizielle Erklärung von Michael J. Kratsios, Assistant des Präsidenten, in der erklärt wird, dass die Trump-Regierung über Informationen verfügt, die zeigen, dass ausländische Akteure (hauptsächlich mit Sitz in China) gezielt gegen große US-amerikanische KI-Unternehmen vorgehen, indem sie systematisch die Fähigkeiten US-amerikanischer KI-Modelle über „zehntausende von Agentenkonten“ und durch Jailbreak-Technologiesysteme extrahieren, und gleichzeitig vier Gegenmaßnahmen bekanntgegeben werden.
MarketWhisper1Std her
DeepSeek veröffentlicht V4 als Open-Source-Vorschauversion, Technikbewertung 3206 übertrifft GPT-5.4
DeepSeek hat am 24. April offiziell die V4-Vorschauversion-Reihe veröffentlicht. Mit einer Open-Source-Lizenz unter der MIT-Lizenz ist das Modellgewicht gleichzeitig auf Hugging Face und ModelScope verfügbar. Laut dem DeepSeek-V4-Technikbericht erzielte V4-Pro-Max (der Modus mit der höchsten Inferenzstärke) 3206 Punkte im Codeforces-Benchmark und übertraf damit GPT-5.4.
MarketWhisper1Std her