Gate-News-Meldung, 27. April — Logan Kilpatrick, Senior-Produktmanager bei Google DeepMind und Produktleiter für Google AI Studio, sagte auf X, dass jede Firma, die KI-basierte Produkte entwickelt, eigene benutzerdefinierte Benchmarks festlegen sollte, um die Leistung von KI-Modellen zu messen. Er beschrieb dies als eine Methode, um Modellverbesserungen „unverhältnismäßig vorteilhaft für Ihr Unternehmen“ zu machen, und forderte Gründer und Führungskräfte auf, „morgen anzufangen.“
Die meisten Unternehmen verlassen sich derzeit auf öffentliche Ranglisten, um KI-Modelle auszuwählen, aber diese messen allgemeine Fähigkeiten, die oft nicht zu konkreten Geschäftsszenarien passen. Kilpatrick nannte das Beispiel eines Vertragsprüfungsunternehmens, das vor allem auf die Genauigkeit der Extraktion von Klauseln bedacht ist – eine Fähigkeit, die in öffentlichen Benchmarks nicht vorkommt, wodurch es unmöglich ist, die Modellleistung bei dieser Aufgabe zu bewerten. Benutzerdefinierte Benchmarks bieten zwei zentrale Vorteile: Erstens ermöglichen sie es Unternehmen, jede Modellaktualisierung anhand ihrer eigenen Geschäftstasks zu bewerten und das Modell auszuwählen, das in ihrem tatsächlichen Anwendungsfall am besten abschneidet, statt das insgesamt höchstrangige Modell zu nehmen; zweitens erlauben sie es Unternehmen, diese Testsätze mit den Modellanbietern zu teilen und so eine kontinuierliche Optimierung in Bereichen zu erreichen, die für ihr Geschäft relevant sind.
Kilpatrick bemerkte, dass Unternehmen wie Zapier und Sierra diesen Ansatz bereits umsetzen, und sagte: „Hier lässt sich sehr viel Alpha erzeugen.“
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to
Disclaimer.
Verwandte Artikel
OpenAI bringt das MRC-Network-Protokoll mit AMD, Intel und NVIDIA auf den Markt; unterstützt 100.000+ GPUs
Laut der Ankündigung von OpenAI vom 6. Mai hat das Unternehmen eine Partnerschaft mit AMD, Broadcom, Intel, Microsoft und NVIDIA geschlossen, um Multipath Reliable Connection (MRC) auf den Weg zu bringen – ein offenes Netzwerkprotokoll für die GPU-Verkettung in großen KI-Trainings-Clusters. Das Protokoll teilt einzelne Datentransfers auf
GateNews38M her
Hut 8-Aktien steigen um 34% auf einen 9,8-Milliarden-US-Dollar-Deal für die Anmietung von KI-Datencentern
Laut The Block sind die Aktien von Hut 8 Corp. heute im vorbörslichen Handel um 34 % auf 107,87 US-Dollar gestiegen, nachdem das Unternehmen einen 9,8-Milliarden-US-Dollar-Mietvertrag für einen Campus für KI-Datencenter in Nueces County, Texas, unterzeichnet hat, der auf die Compute-Architektur von NVIDIA ausgelegt ist. Das Geschäft stellt die erste Phase von Hu
GateNews57M her
CleanSpark-CTO: KI/HPC-Infrastruktur benötigt mehr Netzwerkressourcen als das Bitcoin-Mining
Laut einem CoinDesk-Interview sagte CleanSpark Chief Technology Officer Taylor Monnig, dass der Übergang vom Bitcoin-Mining zu einer KI/HPC-Infrastruktur mehr Redundanz und weniger Improvisation erfordert. „Das Netzwerk-Fiber eines einzelnen Racks übersteigt das eines gesamten Bitcoin-Mining-Betriebs“, Monnig
GateNews1Std her
Die öffentliche Hand erwirbt die KI-Investmentplattform Treasury App
Laut Foresight News kündigte die Investment-App Public am 6. Mai die Übernahme der KI-gestützten Investmentplattform Treasury App an. Die Übernahmesumme wurde nicht offengelegt. Die Transaktion soll Publics KI-gestützte Brokerage-Aktivitäten stärken, die derzeit Aktien, Anleihen und
GateNews1Std her
MiroMind stoppt den MiroThinker-Dienst in Großchina ab dem 12. Mai
Laut BlockBeats wird MiroMind, das KI-Forschungsunternehmen, das vom Gründer von Shanda Group, Chen Tianqiao, gegründet wurde, seinen MiroThinker-Dienst (Web- und mobile App-Versionen) in Festlandchina, Hongkong und Macau ab dem 12. Mai 2026 aussetzen. Das Aussetzungsdatum und der Zeitplan für die Wiederaufnahme wurden angekündigt über
GateNews2Std her
ChatGPT bringt Excel- und Google-Sheets-Integration an den Start: GPT-5,5 meldet sich direkt in der Tabelle an, Copilot und Gemini im direkten Vergleich
OpenAI bringt ChatGPT für Excel und ChatGPT für Google Sheets Erweiterungen heraus, die auf GPT-5,5 basieren. Das Kernprinzip: Erklären während der Arbeit. Die Funktionen decken Analysen ab, automatisch Formeln schreiben, Tabellen aktualisieren und schrittweise die Gedankengänge des Reasoning erklären, damit Nutzer direkt in der Tabellenkalkulation damit arbeiten und es verstehen können. Im Wettbewerb tritt es gemeinsam mit Copilot und Gemini in eine Dreierkonkurrenz und markiert damit eine neue Phase für KI in der Unternehmensproduktivität. Nutzer in Taiwan müssen die Add-ons über AppSource bzw. den Workspace Marketplace installieren und sollten dabei auf den Datenschutz sowie darauf achten, ob ChatGPT Plus erforderlich ist.
ChainNewsAbmedia3Std her