Comment créer des données d'agent AI réussies?

律动

2024-12-12 08:10:40

Editor’s note: This article shares tools and methods that can help improve AI agent performance, with a focus on data collection and cleaning. Various no-code tools are recommended, such as tools that convert websites into LLM-friendly formats, as well as tools for Twitter data retrieval and document summarization. Storage techniques are also introduced, emphasizing that data organization is more important than complex architectures. With these tools, users can efficiently organize data and provide high-quality input for AI agent training.

Ce qui suit est le contenu original (pour faciliter la compréhension de la lecture, le contenu original a été légèrement réorganisé) :

Aujourd’hui, nous avons vu le lancement de nombreux agents d’IA, dont 99% disparaîtront.

Qu’est-ce qui distingue un projet réussi ? Les données.

Voici quelques outils qui peuvent faire ressortir votre agent d’IA.

Bonne donnée = bon AI.

Imaginez-le comme un scientifique des données construisant un pipeline :

Nettoyage

Avant d’optimiser la base de données vectorielle, ajustez d’abord vos exemples et mots clés à faible échantillonnage.

Lien du tweet avec image

Je considère la plupart des problèmes d’IA d’aujourd’hui comme la « théorie du seau » de Steven Bartlett - résoudre progressivement.

Établissez d’abord une base de données solide, c’est le fondement de la construction d’un excellent pipeline d’agents d’IA.

Voici quelques excellents outils pour la collecte et le nettoyage de données :

Générateur de llms.txt sans code : convertit n’importe quel site web en texte adapté à LLM.

Lien du tweet avec image

Besoin de générer un Markdown convivial pour LLM ? Essayez les outils de JinaAI :

Utilisez JinaAI pour extraire n’importe quel site Web et le convertir en format Markdown adapté à LLM.

Il suffit d’ajouter le préfixe suivant à l’URL pour obtenir une version conviviale de LLM :

Vous voulez obtenir des données Twitter ?

Essayez l’outil twitter-scraper-finetune de ai16zdao :

Avec une seule commande, vous pouvez extraire les données de n’importe quel compte Twitter public.

(Veuillez consulter mes tweets précédents pour connaître les méthodes d’opération spécifiques)

Lien du tweet avec image

Recommandation de la source de données : elfa ai (actuellement en phase de test fermée, veuillez envoyer un message privé à tethrees pour obtenir l’accès)

Leur API fournit :

Le tweet le plus suivi

Sélection intelligente des fans

La dernière mention de $

Vérification de la réputation du compte (pour filtrer les spams)

Très adapté pour les données d’entraînement AI de haute qualité!

Pour résumer le document : Essayez NotebookLM de Google.

Téléchargez n’importe quel fichier PDF/TXT → laissez-le générer des exemples d’échantillons de données pour votre entraînement.

Idéal pour créer des suggestions de haute qualité à partir de documents avec peu d’échantillons!

Conseils de stockage :

Si vous utilisez CognitiveCore de virtuals io, vous pouvez télécharger directement le fichier généré.

Si vous exécutez Eliza d’ai16zdao, vous pouvez stocker les données directement dans un stockage vectoriel.

Conseil professionnel: Des données bien organisées sont plus importantes qu’une architecture flashy!

“Lien vers l’article”\u003c/url\u003e

Voir l'original

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Commentaire

0/400

Aucun commentaire