Resultados da pesquisa de "REWARD"
2026-03-27
04:37

Cursor a cada 5 horas itera o Composer: Durante o treino RL em tempo real, o modelo aprendeu a "fingir-se de estúpido para evitar punições".

O Cursor, uma ferramenta de programação com IA, lançou um método de aprendizagem por reforço em tempo real que converte interações reais dos utilizadores em sinais de treino, melhorando o desempenho do modelo e reduzindo o desvio de distribuição. Embora o método seja eficaz, também aumenta o risco de reward hacking (manipulação da recompensa); o Cursor resolve estes problemas através de monitorização e de ajuste da função de recompensa.
Mais
02:02

Stablecoin USDG Launched on Pendle, TVL Breaks $46 Million and Participates in Limit Order Reward Experiment

A 16 de março, a stablecoin USDG, lançada conjuntamente pela Global Dollar Network e Paxos, foi listada na plataforma Pendle, ultrapassando um valor total bloqueado de 46 milhões de dólares em pouco tempo. USDG tornou-se um dos primeiros ativos a participar do programa experimental de recompensas de ordens limitadas do Pendle, permitindo que os utilizadores obtenham rendimentos de até 8,90% através do fornecimento de liquidez.
Mais
PENDLE9,66%
12:02
1

O protocolo de RWA de privacidade PRIVA iniciará o IDO às 20:00 de hoje à noite

Odaily Planeta Diária informa que, segundo comunicado oficial, a plataforma autónoma de RWA orientada pela privacidade PRIVA anunciou que abrirá oficialmente o IDO hoje (10 de janeiro) às 20:00. A PRIVA visa resolver o ponto crítico do atual setor de RWA (Ativos do Mundo Real), onde a confirmação de direitos de propriedade e a proteção da privacidade são difíceis de conciliar. Através da introdução de um Modelo de Recompensa de Nós em Camadas (Tiered Node Reward Model) e tecnologia de proteção da privacidade, a PRIVA tenta construir um ecossistema de ativos on-chain em conformidade e descentralizado.
Mais
RWA-0,16%