Em 18 de abril, múltiplas fontes de venture capital confirmaram que a DeepSeek deu início à sua primeira rodada de captação externa, de acordo com澎湃新闻 (Pail News). A empresa está mirando uma avaliação que exceda $10 bilhão e planeja levantar pelo menos $300 milhão para reforçar suas reservas de capital diante do aumento dos custos na disputa pela IA, segundo reportagens que citam fontes com conhecimento.
A DeepSeek ganhou anteriormente reconhecimento na indústria por rejeitar o foco na comercialização, apoiando-se no fundador Liang Wenfeng e no respaldo da Phantasm Capital. A empresa possuía fortes capacidades técnicas nos setores de trading quantitativo e finanças inteligentes e esteve entre as primeiras empresas de grandes modelos da China a operar um cluster de GPU de 10.000 placas.
Apesar da proeminência da DeepSeek após seu sucesso viral durante o Ano Novo Chinês do ano passado, a empresa vem enfrentando perdas significativas de talentos. De acordo com a reportagem de澎湃新闻, múltiplos pesquisadores centrais deixaram a empresa desde o ano passado, principalmente jovens cientistas “pós-95”:
Pesquisador de modelo multimodal: Em 12 de abril, a empresa de direção autônoma YuanRong Autônoma de Direção confirmou publicamente que Ruan Cong, um contribuinte central para o modelo multimodal da DeepSeek, se juntou como Cientista-Chefe e fará sua primeira aparição pública na Beijing Auto Show.
Autor do primeiro LLM: Wang Bingxuan, autor central do primeiro modelo de linguagem de grande porte da DeepSeek, anunciou recentemente ter se juntado à Tencent.
Autor da série de OCR: Wei Haoran, autor central da série DeepSeek-OCR, deixou a empresa por volta do Ano Novo Chinês deste ano, mas não divulgou publicamente seu novo empregador.
Pesquisador do algoritmo GRPO: Em 16 de abril, o ex-pesquisador central da DeepSeek Guo Daya foi reportado como tendo se juntado à ByteDance com um salário reportado na casa das centenas de milhões de yuan. De acordo com divulgações relacionadas, Guo Daya se juntou à organização Seed da ByteDance responsável por pesquisa e desenvolvimento de grandes modelos como um dos líderes de direção de agente (intelligent agent) na camada L8. Guo Daya é identificado como um grande contribuinte para o algoritmo GRPO, que é central para a metodologia de treinamento de raciocínio do DeepSeek-R1. No mesmo dia, o vice-presidente do Grupo ByteDance, Li Liang, respondeu que o relatório era impreciso e que a empresa não contratou recentemente funcionários com salários anuais próximos a centenas de milhões de yuan. No entanto, de acordo com múltiplas fontes confirmadas por澎湃新闻, Guo Daya de fato se juntou à ByteDance.
Pesquisador de aprendizado profundo: Em 12 de novembro, o ex-pesquisador central da DeepSeek Luo Fuli anunciou publicamente ter se juntado à Xiaomi MiMo, afirmando em uma postagem em rede social: “A inteligência eventualmente vai transitar do idioma para o mundo físico. Estou na Xiaomi MiMo, trabalhando com um grupo de pesquisadores criativos, talentosos e genuinamente apaixonados para construir este futuro e buscar a AGI que imaginamos.” De acordo com informações públicas, Luo Fuli se formou no programa de Ciência da Computação da Beijing Normal University e concluiu um mestrado em linguística computacional na Peking University. Após seu mestrado, ela se juntou ao Alibaba DAMO Academy como pesquisadora do laboratório de inteligência de máquina, desenvolvendo o modelo de pré-treinamento multilíngue VECO e promovendo o trabalho open-source AliceMind. Em 2022, Luo Fuli se juntou à Phantasm Quantitative (empresa-mãe da DeepSeek) para trabalhos de aprendizado profundo, mais tarde atuando como pesquisadora de aprendizado profundo da DeepSeek e participando do desenvolvimento de modelos incluindo DeepSeek-V2.
Com base nas informações acima, a DeepSeek passou por perdas de talentos centrais em múltiplos domínios, incluindo grandes modelos de linguagem de base (LLM), agentes inteligentes (Agent), reconhecimento óptico de caracteres (OCR) e tecnologias multimodais.
De acordo com fontes da indústria, o nível de salários e compensações da DeepSeek está na faixa intermediária na indústria, não sendo o mais alto. Entretanto, headhunters estão acelerando atualmente a captura de talentos a partir da equipe da DeepSeek com salários 2-3x maiores e opções de equity, acelerando as perdas de pessoal.
Em 8 de abril, foram observadas atualizações na nova interface da DeepSeek: a caixa de entrada agora exibe as opções “Quick Mode” e “Expert Mode”. De acordo com a exibição na página da web, o Quick Mode é adequado para conversas diárias com respostas imediatas e oferece suporte ao reconhecimento de texto a partir de imagens e arquivos, enquanto o Expert Mode se destaca em problemas complexos. Isso marca a primeira introdução de modos em camadas no site oficial da DeepSeek.
Essas atualizações renovaram a especulação sobre o lançamento da V4 da DeepSeek. Com base em reportagens da mídia externa e informações de redes sociais e múltiplas fontes, a DeepSeek deve lançar formalmente a V4 em abril. De acordo com expectativas externas, se este lançamento da V4 for replicar o fenômeno do Ano Novo Chinês do ano passado, ele certamente enfrentará desafios maiores, e as perdas de pessoal inevitavelmente afetarão o lançamento da V4.