OpenAI-Ingenieur Clive Chan stellt V4-Hardwareempfehlungen infrage und nennt Fehler und Unklarheit im Vergleich zu V3

Gate News Mitteilung, 24. April — OpenAI-Ingenieur Clive Chan hat detaillierte Einwände gegen das Kapitel mit den Hardware-Empfehlungen im technischen V4-Bericht erhoben und es im Vergleich zur vielgepriesenen V3-Version als "überraschend mittelmäßig und fehleranfällig" bezeichnet. Die Hardware-Anleitung von V3, die Q&A-Sessions umfasste, die zum beliebtesten Diskussionsthema auf der ISCA-Fachkonferenz wurden, bot spezifische Empfehlungen, die mit den Industriestandards für Interconnects übereinstimmen. V4 hingegen ist weitaus unbestimmter.

Chan stellte systematisch drei zentrale Empfehlungen infrage. Zum Stromverbrauch schlägt der Bericht vor, dass Software-Optimierungen es ermöglichen, dass Chips Rechnen, Speicher und Kommunikation gleichzeitig in voller Kapazität betreiben, und empfiehlt, dass Chiphersteller zusätzlichen Strom-Headroom einplanen. Chan argumentiert, dass das kontraproduktiv ist: Die gesamte Chip-Leistung ist durch physikalische Prozessgrenzen begrenzt, sodass das Zurückhalten von mehr Leistungsreserve nur die Betriebsfrequenz verringert und letztlich die Rechenleistung senkt. In Bezug auf den GPU-zu-GPU-Datentransfer befürwortet der Bericht ein Pull-Modell — bei dem GPUs Daten aktiv abrufen — statt eines Push-Modells und verweist auf den hohen Benachrichtigungsaufwand bei Push-Operationen. Chan bestreitet dies und führt aus, dass Pull tatsächlich langsamer sei und dass verbesserte Fähigkeiten der Netzwerkadapter vorzuziehen wären. Allerdings könnten sich die beiden über unterschiedliche Ebenen des Problems unterhalten: Der Bericht behandelt den Overhead des Benachrichtigungsmechanismus, während Chan sich auf die Übertragungsverzögerung selbst bezieht.

Bei Aktivierungsfunktionen empfiehlt der Bericht, SwiGLU durch einfachere Funktionen zu ersetzen, um die Rechenlast zu reduzieren. Chan sieht darin keinen Nutzen und weist darauf hin, dass Sonic MoE bereits mit SwiGLU die optimale Leistung gezeigt hat. Chan vermutet, dass DeepSeek diesen Abschnitt "absichtlich abgeschwächt" haben könnte.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare