D’après Beating, Microsoft a récemment open-sourcé la famille de modèles Phi-Ground, conçue pour résoudre le problème de l’endroit où l’IA doit cliquer sur un écran d’ordinateur. La version à 4 milliards de paramètres, associée à de grands modèles de langage pour la planification des instructions, a dépassé la précision de clic d’OpenAI Operator et de Claude Computer Use lors du benchmark Showdown et s’est classée première parmi tous les modèles de moins de 100 milliards de paramètres sur cinq évaluations, dont ScreenSpot-Pro.
L’équipe a entraîné le modèle sur plus de 40 millions d’exemples de données et a constaté que trois techniques d’entraînement courantes utilisées dans des articles académiques devenaient inefficaces à grande échelle. L’approche clé s’est révélée simple : produire des coordonnées sous forme de nombres ordinaires, tels que « 523, 417 ». Des recherches précédentes avaient inventé des vocabulaires de positions spécialisés pour les coordonnées, mais ils n’ont pas tenu à l’échelle. L’équipe a aussi découvert que placer des instructions textuelles avant les images améliorait les performances, car les modèles pouvaient identifier les cibles tout en traitant les pixels. De plus, des méthodes d’apprentissage par renforcement comme le DPO ont amélioré la précision même après le fine-tuning.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Quantra et FishWar annoncent un partenariat stratégique pour intégrer le jeu vidéo basé sur l’IA à l’infrastructure RWA le 9 mai
D’après des annonces officielles du 9 mai, Quantra et FishWar ont annoncé un partenariat stratégique visant à combiner des expériences de jeu propulsées par l’IA avec l’infrastructure blockchain des actifs du monde réel. La collaboration, partagée via les canaux de médias sociaux officiels des deux entreprises, vise à intégrer les solutions de tokenisation RWA de Quantra à la plateforme GameFi de FishWar sur le réseau Sei. Le partenariat cherche à renforcer la scalabilité du gaming sur blockchai
GateNewsIl y a 6m
Sam Altman révèle les parts d’utilisation de ChatGPT par âge, avec plus d’un tiers des 18-24 ans l’utilisant quotidiennement le 10 mai
D’après Fortune, le PDG d’OpenAI, Sam Altman, a révélé le 10 mai que les utilisateurs de ChatGPT, dans différents groupes d’âge, ont des modes d’utilisation distincts. Les utilisateurs plus âgés considèrent la plateforme comme un remplacement de Google, tandis que ceux dans la vingtaine et la trentaine l’utilisent comme un conseiller personnel. Les étudiants universitaires s’en servent comme d’un système d’exploitation quotidien, en tirant parti de la mémoire des conversations pour obtenir des c
GateNewsIl y a 46m
Le secrétaire financier de Hong Kong, Paul Chan, met en avant trois atouts majeurs de la Grande Baie : l’IA, l’industrie manufacturière et la finance
D'après ChainCatcher, le secrétaire financier de Hong Kong, Paul Chan, a publié récemment une déclaration écrite, présentant trois atouts essentiels de la Grande Baie : une recherche en IA à la pointe, des chaînes complètes de fabrication haut de gamme et un pôle financier international. Chan a déclaré que cette combinaison « IA + fabrication + finance » permet à Hong Kong de remplir deux fonctions clés pendant la période du 15e plan quinquennal : la coordination industrielle et le relai régleme
GateNewsIl y a 1h
Conflit en mode code d’Anthropic : MCP vs CLI — les outils bloquent le runtime, les tokens passent de 150 000 à 2 000
En 2025, la communauté d’ingénierie IA a beaucoup débattu sur la question « MCP vs CLI » pour savoir ce qui convient le mieux aux appels d’outils des agents, et la publication par Anthropic en novembre 2025 de l’article « Code execution with MCP » a redéfini le problème à partir des principes fondamentaux. akshay\pachaar a résumé le thread le 5/10 : le problème ne vient jamais du protocole lui-même, mais de la vieille habitude consistant à empiler toutes les descriptions d’outils dans le context
ChainNewsAbmediaIl y a 4h
ByteDance prévoit une hausse de 25 % de ses dépenses d'infrastructure pour l'IA, à 200 milliards de yuans cette année
D’après ChainCatcher citant Golden Data, ByteDance prévoit d’augmenter ses dépenses en infrastructure d’IA de 25 % pour atteindre 200 milliards de yuans cette année, sous l’effet de la hausse des coûts des puces mémoire et de l’accélération du développement de l’intelligence artificielle.
GateNewsIl y a 4h
La plateforme d’IA d’entreprise met fin à son cycle de financement $16M , dirigé par a16z
D’après Odaily, la plateforme d’IA d’entreprise Pit a annoncé l’achèvement d’une levée de fonds de 16 millions de dollars menée par a16z, avec la participation de Lakestar et d’exécutifs d’OpenAI, d’Anthropic, de Google, de Deel et de Revolut. Pit se positionne comme « une équipe produit d’IA en tant que service », conçue pour remplacer les tableurs traditionnels et des systèmes SaaS rigides.
GateNewsIl y a 4h