Anthropic hat kürzlich Natural Language Autoencoders (NLA) veröffentlicht, ein Tool, das interne Modell-Aktivierungen in für Menschen lesbaren Text übersetzt. Code und Modellgewichte wurden auf GitHub Open-Source gestellt. Im Gegensatz zu bestehenden Tools wie Sparse Autoencoders, die unverständliche Merkmale ausgeben, generiert NLA direkt natürlichsprachliche Beschreibungen mithilfe eines Dual-Model-Frameworks: Ein Modell wandelt Aktivierungen in Text um, während ein anderes Modell versucht, Aktivierungen aus Text zu rekonstruieren und die Genauigkeit iterativ durch Reinforcement Learning zu verbessern.
Beim Sicherheitstest zeigte NLA verstecktes Modell-Reasoning: Claude äußerte Zweifel, in 16% der adversarialen Szenarien getestet zu werden, und zeigte in 26% der Benchmark-Aufgaben „Exam Awareness“, verglichen mit unter 1% in normalen Gesprächen. In Auditing-Experimenten steigerte NLA die Erkennungsrate von eingeschleusten irreführenden Modellverhalten von unter 3% auf 12-15%, sodass Auditoren versteckte Ziele identifizieren können, ohne Zugriff auf Trainingsdaten zu haben. Das Tool wird derzeit in Sicherheits-Audits für Claude Mythos Preview und Opus 4.6 eingesetzt.
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to
Disclaimer.
Verwandte Artikel
Tessera Labs schließt eine $60M -Finanzierungsrunde ab, angeführt von a16z
Laut Odaily gab der KI-Automatisierungs-Startup Tessera Labs die Fertigstellung einer Finanzierungsrunde über 60 Millionen US-Dollar bekannt, die von Andreessen Horowitz (a16z) angeführt wurde; außerdem waren Foundation Capital, Myriad Venture Partners und Osage University Partners beteiligt. Die KI-nativen Plattform des Unternehmens automatisiert das Enterprise-
GateNews47M her
Angreifer schleusen 575 schädliche Skills in Hugging Face und ClawHub über 13 Konten ein
Laut Mist Security CISO @im23pds haben Angreifer kürzlich 13 Konten kompromittiert, um 575 bösartige Skills in Hugging Face und ClawHub (OpenClaw) einzuschleusen, wie auf der X-Plattform offengelegt wurde.
GateNews48M her
DeepSeek plant, bis zu 50 Milliarden RMB in einer Rekord-Finanzierungsrunde aufzubringen, Modell V4.1 kommt im Juni
Laut PANews vom 8. Mai plant DeepSeek, in seiner ersten Finanzierungsrunde bis zu 50 Milliarden RMB einzusammeln, was die größte einzelne Mittelbeschaffung eines chinesischen KI-Unternehmens darstellen würde. Gründer und CEO Liang Wenfeng wird voraussichtlich den Höchstbetrag beisteuern. Das Unternehmen plant, die Entwicklung großer Sprachmodelle zu beschleunigen.
GateNews58M her
Sportix schließt eine Finanzierungsrunde über 3,2 Millionen US-Dollar ab, die von Coinvestor Ventures und Animoca Brands angeführt wird
Laut ChainCatcher hat die Plattform für Sport-KI-Infrastruktur Sportix eine Finanzierungsrunde in Höhe von 3,2 Millionen US-Dollar abgeschlossen. Die Runde wurde von Coinvestor Ventures angeführt; beteiligt waren außerdem Animoca Brands, Becker Ventures, X21 Digital und Alpha Capital.
Sportix sagte, es werde die Mittel einsetzen, um seine KI voranzutreiben
GateNews1Std her
Die Kosten für Roboterschulungsdaten sinken um 65% seit 2024 und fallen von 340 US-Dollar auf 118 US-Dollar pro Stunde
Laut Cointelegraph sind die Kosten für Roboterausbildungsdaten um 65% seit 2024 gesunken und von 340 US-Dollar pro Stunde auf 118 US-Dollar pro Stunde gefallen (Stand 2026).
GateNews1Std her
China Mobile kündigt am 8. Mai ein Token-Anwendungs-Ökosystem mit einer Allianz von 8 Partnern an
Laut PANews gab China Mobile am 8. Mai die Gründung einer Token-Application-Ecosystem-Alliance mit 8 Partnern bekannt, darunter Alibaba Cloud, Volcano Engine und Huawei Cloud. Das Bündnis nutzt die MoMA-Modellaggregationsplattform, um ein einheitliches Service-Gateway für inländische KI zu bauen m
GateNews2Std her