Am 18. April bestätigten mehrere Quellen aus der Venture-Capital-Branche, dass DeepSeek mit seiner ersten Runde externer Mittelbeschaffung begonnen hat, wie (Pail News) unter Berufung auf澎湃新闻 berichtete. Das Unternehmen zielt auf eine Bewertung von über $10 Milliarde und plant, mindestens $300 Millionen aufzunehmen, um seine Kapitalreserven angesichts steigender Kosten im KI-Wettbewerb zu stärken, so die Berichte unter Zitierung von Informierten.
DeepSeek hatte zuvor in der Branche Anerkennung dafür erhalten, dass es sich auf eine Vermarktungs-Fokussierung nicht eingelassen hat; stattdessen stützte es sich auf den Gründer Liang Wenfeng und auf die Unterstützung durch Phantasm Capital. Das Unternehmen verfügte über starke technische Fähigkeiten im Bereich quantitativer Handel und intelligenter Finanzen und gehörte zu den ersten großen Modellunternehmen Chinas, die einen 10.000-Karten-GPU-Cluster in Betrieb nahmen.
Trotz der Bekanntheit von DeepSeek nach dem viralen Erfolg zum chinesischen Neujahr im letzten Jahr hat das Unternehmen erhebliche Talentverluste erlitten. Laut Berichten von澎湃新闻 sind seit letztem Jahr mehrere zentrale Forscherinnen und Forscher weggegangen, überwiegend junge Wissenschaftler, die als „Post-95s“ gelten:
Forschender für multimodale Modelle: Am 12. April bestätigte das autonome Fahrunternehmen YuanRong Autonomous Driving öffentlich, dass Ruan Cong, ein zentraler Mitwirkender an DeepSeeks multimodalen Modell, als Chief Scientist zu dem Unternehmen gewechselt ist und dort sein erstes öffentliches Auftreten auf der Beijing Auto Show haben wird.
Autor des ersten LLM: Wang Bingxuan, zentraler Autor von DeepSeeks erstem Large Language Model, gab kürzlich bekannt, zu Tencent zu wechseln.
Autor der OCR-Reihe: Wei Haoran, zentraler Autor der DeepSeek-OCR-Reihe, ist etwa zum chinesischen Neujahr in diesem Jahr abgereist, hat jedoch seinen neuen Arbeitgeber bislang nicht öffentlich offengelegt.
Forscher für den GRPO-Algorithmus: Am 16. April wurde berichtet, dass der ehemalige zentrale DeepSeek-Forscher Guo Daya ByteDance beigetreten ist, mit einem gemeldeten Gehalt in der Größenordnung von hunderten Millionen Yuan. Laut einschlägigen Offenlegungen ist Guo Daya bei ByteDance in die Seed-Organisation eingestiegen, die für Forschung und Entwicklung großer Modelle zuständig ist, als einer der Leitenden für den Agent (intelligent agent)-Bereich auf der L8-Ebene. Guo Daya wird als wesentlicher Mitwirkender am GRPO-Algorithmus identifiziert, der ein Kernbestandteil der Reasoning-Trainingsmethodik von DeepSeek-R1 ist. Am selben Tag reagierte der Group Vice President von ByteDance, Li Liang, darauf, dass die Meldung unzutreffend sei und das Unternehmen in letzter Zeit keine Mitarbeitenden mit Jahresgehältern in der Nähe von hundert Millionen Yuan eingestellt habe. Allerdings, so mehrere Quellen, die von澎湃新闻 bestätigt wurden, ist Guo Daya tatsächlich zu ByteDance gewechselt.
Forschender für Deep Learning: Am 12. November gab die ehemalige zentrale DeepSeek-Forscherin Luo Fuli öffentlich bekannt, zu Xiaomi MiMo zu wechseln. In einem Social-Media-Beitrag sagte sie: „Intelligenz wird sich irgendwann vom Sprachlichen auf die physische Welt verlagern. Ich bin bei Xiaomi MiMo und arbeite mit einer Gruppe kreativer, talentierter und wirklich leidenschaftlicher Forschender daran, diese Zukunft zu gestalten und das AGI zu verfolgen, das wir uns vorstellen.“ Laut öffentlichen Informationen absolvierte Luo Fuli das Computer Science-Programm der Beijing Normal University und schloss einen Master in Computerlinguistik an der Peking University ab. Nach ihrem Master trat sie dem Alibaba DAMO Academy bei, als Forschende im Bereich Machine Intelligence Laboratory, wo sie das mehrsprachige Vortrainingsmodell VECO entwickelte und die AliceMind Open-Source-Arbeit vorantrieb. Im Jahr 2022 wechselte Luo Fuli zu Phantasm Quantitative (DeepSeeks Muttergesellschaft) für Arbeiten im Bereich Deep Learning, später arbeitete sie als DeepSeek-Forscherin für Deep Learning und beteiligte sich an der Forschung und Entwicklung von Modellen einschließlich DeepSeek-V2.
Auf Grundlage der oben genannten Informationen hat DeepSeek zentrale Talentverluste in mehreren Bereichen erlebt, darunter Foundation Large Language Models (LLM), intelligente Agenten (Agent), optische Zeichenerkennung (OCR) und Multimodal-Technologien.
Laut Branchenquellen liegen das Gehalts- und Vergütungsniveau von DeepSeek in der mittleren Liga der Branche, nicht ganz oben. Allerdings beschleunigen Headhunter derzeit das Abwerben von Talenten aus dem Team von DeepSeek mit 2–3-mal höheren Gehältern und Aktienoptionsangeboten, wodurch die Personalverluste weiter beschleunigt werden.
Am 8. April wurden auf DeepSeek neue Aktualisierungen der Benutzeroberfläche beobachtet: Das Eingabefeld zeigt nun Optionen „Quick Mode“ und „Expert Mode“ an. Laut der Anzeige auf der Webseite ist der Quick Mode für tägliche Gespräche mit sofortigen Antworten geeignet und unterstützt die Texterkennung aus Bildern und Dateien, während der Expert Mode bei komplexen Problemen besonders stark ist. Damit ist dies DeepSeeks erste Einführung geschichteter Modi auf der offiziellen Webseite.
Diese Updates haben die Spekulationen über die Veröffentlichung von DeepSeeks V4 neu entfacht. Basierend auf Berichten externer Medien sowie Informationen aus sozialen Medien und mehreren Quellen wird erwartet, dass DeepSeek V4 im April offiziell auf den Markt bringt. Nach den Erwartungen von außen gilt: Wenn dieses V4-Release das Phänomen vom letzten chinesischen Neujahr nachbilden soll, wird es zweifellos auf größere Herausforderungen treffen, und die Talentverluste werden die Veröffentlichung von V4 zwangsläufig beeinträchtigen.