Escrito por: 0xjacobzhao
Este relatório de pesquisa independente conta com o apoio da IOSG Ventures, cujo processo de pesquisa e redação foi inspirado pelo relatório de reforço de aprendizagem de Sam Lehman (Pantera Capital). Agradecemos a Ben Fielding (Gensyn.ai), Gao Yuan (Gradient), Samuel Dare & Erfan Miahi (Covenant AI), Shashank Yadav (Fraction AI), Chao Wang pelas valiosas sugestões ao artigo. Este documento busca ser objetivo e preciso, embora algumas opiniões envolvam julgamentos subjetivos, podendo haver desvios, agradecemos a compreensão dos leitores.
A inteligência artificial está evoluindo de uma aprendizagem estatística baseada em “modelagem de padrões” para um sistema de capacidades centrado em “raciocínio estruturado”, com a importância do pós-treinamento (Post-training) crescendo rapidamente. A aparição do DeepSeek-R1 marca uma mudança paradigmática na aprendizagem por reforço na era dos grandes modelos, consolidando um consenso na indústria: o pré-treinamento constrói a base de capacidades universais do modelo, enquanto o reforço de aprendizagem não é mais apenas uma ferramenta de alinhamento de valor, mas uma técnica comprovada para melhorar sistematicamente a qualidade das cadeias de raciocínio e a tomada de decisões complexas, evoluindo gradualmente para uma rota tecnológica de aprimoramento contínuo da inteligência.
Ao mesmo tempo, o Web3 está reestruturando as relações de produção de IA através de redes descentralizadas de computação e sistemas de incentivos criptográficos, e as demandas estruturais do reforço de aprendizagem — amostragem de rollout, sinais de recompensa e treinamento verificável — combinam-se naturalmente com a colaboração de poder de blockchain, distribuição de incentivos e execução verificável. Este relatório descompõe sistematicamente os paradigmas de treinamento de IA e os princípios técnicos do reforço de aprendizagem, demonstra as vantagens estruturais do reforço de aprendizagem × Web3, e analisa projetos como Prime Intellect, Gensyn, Nous Research, Gradient, Grail e Fraction AI.
I. As três fases do treinamento de IA: pré-treinamento, ajuste fino por instruções e alinhamento pós-treinamento
O ciclo de vida do treinamento de grandes modelos de linguagem (LLM) geralmente é dividido em três fases principais: pré-treinamento (Pre-training), ajuste supervisionado (SFT) e pós-treinamento (Post-training/RL). Cada uma desempenha funções de “construção do modelo de mundo — injeção de capacidade de tarefa — formação de raciocínio e valores”, com suas estruturas computacionais, requisitos de dados e dificuldades de validação determinando o grau de compatibilidade descentralizada.
Pré-treinamento (Pre-training): constrói a estrutura estatística de linguagem e o modelo de mundo multimodal através de aprendizagem auto-supervisionada em larga escala, sendo a base das capacidades do LLM. Essa fase exige treinamento em corpus de trilhões de tokens de forma global e sincronizada, dependente de milhares a dezenas de milhares de GPUs H100 homogêneas, com custos de até 80–95%. É altamente sensível à largura de banda e direitos autorais de dados, devendo ser realizada em ambientes altamente centralizados.
Ajuste fino supervisionado (Supervised Fine-tuning): injeta capacidades específicas de tarefa e formatos de instrução, com volume de dados menor e custos de aproximadamente 5–15%. Pode envolver treinamento de todos os parâmetros ou métodos de ajuste eficiente (PEFT), como LoRA, Q-LoRA e Adapter, que são os principais na indústria. Ainda assim, requer sincronização de gradientes, limitando seu potencial descentralizado.
Pós-treinamento (Post-training): composto por múltiplas subetapas iterativas, determina a capacidade de raciocínio, valores e limites de segurança do modelo. Inclui sistemas de reforço (RLHF, RLAIF, GRPO), métodos de otimização de preferência sem RL (DPO), e modelos de recompensa de processo (PRM). Essa fase consome menos dados e custos (5–10%), concentrando-se em rollout e atualização de estratégias, sendo naturalmente compatível com execução assíncrona e distribuída, onde os nós não precisam possuir o peso completo do modelo. Combinado com computação verificável e incentivos na cadeia, pode formar uma rede de treinamento descentralizada aberta, sendo a etapa mais compatível com Web3.
II. Panorama técnico do reforço de aprendizagem: arquitetura, frameworks e aplicações
2.1 Arquitetura do sistema de reforço de aprendizagem e componentes centrais
O RL (Reinforcement Learning) impulsiona a melhoria autônoma de decisão do modelo através de “interação com o ambiente — feedback de recompensa — atualização de estratégia”, formando um ciclo de feedback composto por estado, ação, recompensa e estratégia. Um sistema completo geralmente inclui três componentes: Policy (rede de estratégia), Rollout (amostragem de experiência) e Learner (atualizador de estratégia). A interação entre estratégia e ambiente gera trajetórias, enquanto o Learner atualiza a estratégia com base no sinal de recompensa, formando um ciclo contínuo de otimização:
Policy: gera ações a partir do estado do ambiente, sendo o núcleo decisório. Durante o treinamento, requer retropropagação centralizada; na inferência, pode ser distribuída e paralelizada.
Rollout: nós executam interações ambientais com a estratégia, gerando trajetórias de estado-ação-recompensa. Altamente paralelo, com comunicação mínima, sensível a diferenças de hardware, ideal para expansão descentralizada.
Learner: agrega todas as trajetórias de rollout e realiza atualização de gradiente, sendo o componente mais exigente em poder computacional e largura de banda, geralmente centralizado ou levemente centralizado para garantir estabilidade de convergência.
2.2 Framework de fases do reforço de aprendizagem (RLHF → RLAIF → PRM → GRPO)
O RL é geralmente dividido em cinco fases, com o fluxo geral:
Geração de dados (Policy Exploration): sob uma dica de entrada, o modelo πθ gera múltiplas cadeias de raciocínio ou trajetórias completas, fornecendo amostras para avaliação de preferência e modelagem de recompensa, determinando a amplitude da exploração.
Feedback de preferência (RLHF / RLAIF):
RLHF: usa múltiplas respostas, marcações humanas de preferência, treinamento de modelos de recompensa (RM) e PPO para otimizar a estratégia, alinhando o output aos valores humanos, sendo crucial para GPT-3.5 → GPT-4.
RLAIF: substitui a marcação manual por juízes de IA ou regras constitucionais, automatizando a obtenção de preferência, reduzindo custos e escalando, sendo padrão em Anthropic, OpenAI, DeepSeek.
Modelagem de recompensa (Reward Modeling): treina o modelo para mapear entradas em recompensas, ensinando “qual é a resposta correta” (RM) e “como raciocinar corretamente” (PRM).
Validação de recompensa (RLVR): introduz restrições verificáveis na geração e uso de sinais de recompensa, usando provas de verificabilidade para reduzir manipulação de recompensa e aumentar auditabilidade.
Otimização de estratégia (Policy Optimization): atualiza os parâmetros θ com base no sinal do modelo de recompensa, buscando maior raciocínio, segurança e estabilidade. Métodos principais:
PPO: método tradicional, estável, mas lento em tarefas complexas.
GRPO: inovação da DeepSeek-R1, modela a vantagem dentro de grupos de respostas, preservando informações de amplitude de recompensa, mais estável e adequado para cadeias de raciocínio.
DPO: método pós-treinamento sem RL, otimiza preferências diretamente, de baixo custo, usado em modelos abertos como Llama, mas não melhora raciocínio.
Implantação de nova estratégia: modelos otimizados geram cadeias de raciocínio mais fortes, comportamentos alinhados, menor alucinação, maior segurança, formando um ciclo de aprendizado contínuo.
2.3 Cinco categorias de aplicação industrial do reforço de aprendizagem
O RL evoluiu de jogos para uma estrutura de decisão autônoma em múltiplos setores, com aplicações em:
Jogos e estratégias: pioneiro, demonstrado em AlphaGo, AlphaZero, AlphaStar, OpenAI Five, com decisão comparável ou superior a humanos.
Robótica e IA incorporada: controle contínuo, modelagem de dinâmica, tarefas multimodais (RT-2, RT-X), em rápida industrialização.
Raciocínio digital (LLM System-2): combina RL + PRM para evoluir de imitação de linguagem para raciocínio estruturado, com projetos como DeepSeek-R1, OpenAI o1/o3, Anthropic Claude, AlphaGeometry.
Descoberta científica e otimização matemática: RL busca estruturas ótimas em espaços complexos, com avanços como AlphaTensor, AlphaDev, Fusion RL.
Decisões econômicas e sistemas de negociação: otimização de estratégias, controle de risco, geração de sistemas de trading adaptativos, essenciais na finança inteligente.
III. Compatibilidade natural do reforço de aprendizagem com Web3
RL e Web3 são sistemas impulsionados por incentivos, com compatibilidade estrutural: RL depende de sinais de recompensa para otimizar estratégias, blockchain usa incentivos econômicos para coordenar participantes, formando uma sinergia natural. As demandas de RL — amostragem de rollout em larga escala, distribuição de recompensas e validação de autenticidade — encaixam-se perfeitamente na estrutura do Web3.
Desacoplamento de raciocínio e treinamento: o processo de RL pode ser dividido em duas fases:
Rollout ( Exploração e amostragem ): geração de dados em larga escala baseada na estratégia atual, com baixa comunicação, ideal para GPUs de consumo global.
Atualização ( Parâmetros ): ajuste de pesos do modelo, requer alta largura de banda e centralização.
Essa separação é compatível com estruturas descentralizadas heterogêneas: rollout pode ser terceirizado a redes abertas, com recompensas por contribuição; atualização de modelo permanece centralizada para estabilidade.
Verificabilidade (Verifiability): provas de conhecimento zero (ZK) e provas de aprendizado (Proof-of-Learning) oferecem meios de verificar se os nós realmente executaram raciocínio, resolvendo problemas de honestidade em redes abertas. Em tarefas determinísticas, a validação pode ser feita apenas verificando a resposta, aumentando a confiança do sistema descentralizado.
Incentivos baseados em tokens: recompensam contribuições de preferência e feedback, criando mercados de feedback transparentes, sem permissão, com mecanismos de staking e penalidades (Slashing) para garantir qualidade.
Potencial de multiagentes (MARL): blockchain é um ambiente de múltiplos agentes, com estratégias e incentivos em constante evolução, com atributos de transparência, verificabilidade e programação de incentivos, favorecendo o desenvolvimento de MARL em larga escala.
IV. Análise de projetos clássicos de Web3 + reforço de aprendizagem
Com base na estrutura teórica, analisamos projetos representativos:
Prime Intellect: paradigma assíncrono de RL
Prime Intellect busca criar um mercado global de computação descentralizada, reduzindo barreiras de treinamento e promovendo colaboração, com uma stack de IA aberta. Inclui Prime Compute, modelos INTELLECT (10B–100B+), centro de ambientes de RL e motor de dados sintéticos (SYNTHETIC-1/2).
A infraestrutura principal, prime-rl, é projetada para ambientes assíncronos distribuídos, com componentes como o protocolo de comunicação OpenDiLoCo e mecanismos de verificação TopLoc.
prime-rl: motor de treinamento assíncrono, desacoplado, usando Actor–Learner, com atores integrando o motor de inferência vLLM, capaz de gerar trajetórias de alta taxa de throughput, e treinadores que atualizam estratégias assincronamente.
Inovações principais: assíncrono verdadeiro, integração com FSDP2 e MoE para modelos de bilhões de parâmetros, GRPO+ para estabilidade em ambientes assíncronos, modelos INTELLECT que demonstram eficiência e escalabilidade global.
Outros componentes: OpenDiLoCo para comunicação eficiente, TopLoc + Verifiers para execução confiável descentralizada, motor de dados SYNTHETIC para geração de cadeias de raciocínio de alta qualidade, formando uma infraestrutura robusta para treinamento descentralizado de modelos de grande escala.
Gensyn: núcleo de RL Swarm e SAPO
Gensyn visa consolidar poder de computação ocioso global em uma infraestrutura de IA aberta, sem confiança, escalável, com camadas de execução padronizadas, rede ponto-a-ponto e sistema de validação de tarefas via contratos inteligentes. Seus mecanismos principais, RL Swarm e SAPO, desacoplam geração, avaliação e atualização, formando uma evolução coletiva de agentes heterogêneos.
RL Swarm: ciclo colaborativo de geração, avaliação e atualização, inspirado na aprendizagem social, com solvers (execução local), proposers (criação de tarefas) e evaluators (avaliação com modelos ou regras). Funciona como uma organização P2P descentralizada.
SAPO: algoritmo de otimização de estratégia baseado em competição, que usa amostragem descentralizada de rollout, sem necessidade de rede critic, com baixa largura de banda, garantindo convergência estável mesmo com alta latência.
Essa abordagem demonstra que RL, especialmente na fase de pós-treinamento (RLVR), é naturalmente compatível com arquiteturas descentralizadas, formando uma rede autoevolutiva de inteligência com milhões de GPUs heterogêneas.
Nous Research: ambiente verificável de RL Atropos
Nous constrói uma infraestrutura cognitiva descentralizada, com componentes como Hermes, Atropos, DisTrO, Psyche e World Sim, formando um ciclo de autoaperfeiçoamento contínuo. Diferente do fluxo linear tradicional, usa técnicas como DPO, GRPO e rejeição de amostragem para unificar geração de dados, validação, aprendizado e raciocínio, criando um ecossistema de IA autoevolutiva.
Hermes: interface principal, evolui de alinhamento por instruções para raciocínio reforçado, com versões que incorporam mecanismos de validação e raciocínio de alta qualidade.
Atropos: núcleo de RL verificável, encapsula prompts, chamadas a ferramentas, execução de código e interações múltiplas, fornecendo sinais de recompensa determinísticos e verificáveis, substituindo marcações humanas caras e não escaláveis.
DisTrO e Psyche: mecanismos de otimização descentralizada, comprimindo comunicação e executando RL na cadeia, com validação local e feedback verificável, formando um ciclo completo de RL descentralizado.
Outros componentes: World Sim para ambientes complexos, Forge para coleta de dados reais, Hermes para aprendizado contínuo, formando uma arquitetura que conecta dados, ambiente, modelo e infraestrutura de forma integrada.
Gradient Network: arquitetura de RL Echo
Gradient propõe uma stack de inteligência aberta, com protocolos independentes e colaborativos, incluindo Parallax, Echo, Lattica, VeriLLM, Mirage, formando uma infraestrutura descentralizada evolutiva.
Echo: framework de RL que desacopla treinamento, inferência e dados, permitindo escalabilidade heterogênea. Usa uma arquitetura de dois grupos (Inference Swarm e Training Swarm), com sincronização leve, maximizando throughput e estabilidade.
Protocolos: Pull (sequencial, alta precisão) e Push–Pull (assíncrono, alta eficiência), garantindo consistência de estratégia e dados em ambientes heterogêneos, usando mecanismos como LoRA para reduzir custos de sincronização.
Grail: ecossistema Bittensor com RL
Grail, dentro do ecossistema Bittensor, usa mecanismos criptográficos para garantir a autenticidade de cada rollout de RL, com uma cadeia de confiança baseada em desafios determinísticos, provas de validade e assinatura de identidade do modelo, garantindo execução segura e sem confiança.
Protocolos: desafios determinísticos, amostragem com PRF e sketch commitments, assinatura estrutural de peso e token, formando uma cadeia confiável de validação.
Resultados: melhorias significativas na precisão de tarefas matemáticas, demonstrando resistência a fraudes e aumento de capacidade de raciocínio.
Fraction AI: RL baseado em competição
Fraction AI constrói uma estrutura de RL por competição, substituindo recompensas estáticas por ambientes dinâmicos de adversários, onde a classificação relativa e juízes de IA fornecem recompensas em tempo real, transformando o alinhamento em um jogo multiagente contínuo.
Diferenças principais: recompensas derivadas de adversários e avaliadores, evitando manipulação de recompensa, promovendo diversidade de estratégias e emergências comportamentais.
Sistema: agentes leves baseados em LLM, ambientes isolados, juízes de IA com RLAIF, e prova de aprendizado que vincula estratégias a resultados verificáveis, formando um ciclo de evolução autônoma.
V. Conclusão e perspectivas: caminhos e oportunidades do reforço de aprendizagem × Web3
A análise dos projetos revela que, apesar das diferenças de abordagem, todos convergem para uma estrutura de “desacoplamento — validação — incentivo”, que é uma consequência natural da adaptação de RL a redes descentralizadas. Essa arquitetura comum resolve limitações físicas e de confiança, com características principais:
Desacoplamento físico: rollout e aprendizagem podem ser distribuídos globalmente, com comunicação mínima, usando ambientes heterogêneos.
Confiança baseada em validação: mecanismos matemáticos e criptográficos garantem autenticidade e integridade.
Incentivos tokenizados: mercados de recompensas e penalidades promovem participação e qualidade.
Apesar das vantagens, há desafios como a limitação de largura de banda, o risco de manipulação de recompensas e ataques maliciosos, que requerem mecanismos robustos de resistência.
A combinação de RL e Web3 redefine a produção, alinhamento e distribuição de valor na IA, com três rotas principais:
Redes descentralizadas de treinamento: de mineradores de poder a estratégias, com rollout verificável globalmente.
Ativos de preferência e recompensa: transformando feedback de alta qualidade em ativos de governança e propriedade de dados.
Evolução de nichos especializados: criando agentes específicos de alta performance em áreas como DeFi e geração de código, com resultados verificáveis e valor direto.
O verdadeiro potencial de RL × Web3 não está em replicar uma versão descentralizada do OpenAI, mas em reescrever as relações de produção de inteligência, permitindo que o treinamento seja um mercado aberto, que as recompensas e preferências sejam ativos na cadeia, e que o valor gerado seja redistribuído entre treinadores, alinhadores e usuários.