Blockify überarbeitet Unternehmens-RAG: Mit IdeaBlock statt Chunking, komprimiert um das 40-Fache, reduziert Token um das 3-Fache

ChainNewsAbmedia

企業-AI-Datenoptimierungs-Neuwerkzeug Blockify wurde am 9. Mai von akshay_pachaar kuratiert und beworben. Dabei wird behauptet, dass es im RAG-(Retrieval-Augmented Generation)-Prozess Unternehmensdaten um 40-fach komprimieren, den Token-Verbrauch bei Abfragen um 3-fach senken und die Treffergenauigkeit der Vektorsuche um 2,3-fach erhöhen kann. Die offizielle GitHub-Erklärung von Blockify lautet: Das Produkt wird von Iternal Technologies herausgegeben, nutzt mit dem „IdeaBlock“-Schema strukturierte Wissenseinheiten anstelle des traditionellen chunking und hält die Wissensdatenbank durch De-Duplication und Zusammenführung schlank, kohärent und verwaltbar.

Kernkonzept: IdeaBlock ersetzt traditionelles chunking

Technisches Design von Blockify:

Traditioneller Ansatz: Lange Dokumente in feste Chunk-Größen schneiden, Vektor-Einbettungen erstellen, bei der Suche top-k abrufen

Ansatz von Blockify: Rohinhalte in IdeaBlock umwandeln – XML-strukturierte Wissenseinheiten

Jeder IdeaBlock enthält: eigene Frage, vertrauenswürdige Antwort, Tags, Entitäten, Schlüsselwörter

Ähnliche IdeaBlocks werden automatisch de-dupliciert und zusammengeführt, sodass die Wissensdatenbank nicht mit dem Inhaltswachstum „aufbläht“

Das Problem von traditionellem chunking ist, dass dieselbe Information in mehreren Chunks wiederholt auftauchen kann, was Suchredundanz und Token-Verschwendung verursacht; IdeaBlock erhöht die Informationsdichte, indem es doppelte Inhalte per De-Duplication entfernt – und derselbe Inhalt wird mit weniger Speicherplatz ausgedrückt.

Konkrete Vorteile: Komprimierung um 40-fach, Token um 3-fach reduzieren, Genauigkeit um 2,3-fach steigern

Von Blockify veröffentlichte konkrete Kennzahlen:

Datenkomprimierung: Die Unternehmensdatenbank wird auf etwa 2,5% der ursprünglichen Größe reduziert (40-fach komprimiert), wobei mehr als 99% der Informationen erhalten bleiben

Token pro Abfrage: von etwa 303 (traditionelle Chunks) auf etwa 98 (IdeaBlock) – 3,09-fach Effizienz

Genauigkeit der Vektorsuche: Steigerung um 2,29-fach

Gesamtverbesserung der Trefferquote: etwa 78-fach (kombinierte Wirkung aus De-Duplication und Verbesserungen bei der Suche)

Kosteneinsparungsrechnung: 100 Millionen Abfragen/Jahr, Einsparung bei Token-Kosten von rund 738.000 US-Dollar

Die 78-fach verbesserte Gesamtgenauigkeit ist ein zusammengesetzter Effekt: De-Duplication reduziert Rauschen, Inhalte im IdeaBlock-Strukturformat sind vektorsuche-freundlicher, und die Anzahl der Token pro Antwort sinkt zugleich, wodurch auch der Spielraum für Modellfehler kleiner wird.

Integrationsbereich: LlamaIndex, LangChain, Milvus, Cloudflare und weitere gängige Frameworks

Bereits integrierte Entwickler-Tools und Infrastruktur von Blockify:

RAG-Frameworks: LlamaIndex, LangChain

Wissensmanagement: Obsidian

Vektordatenbanken: Milvus, Elastic, Supabase

Edge-Computing: Cloudflare

Low-Code-Integration: n8n (über Workflow-Templates)

Die Integrationsstrategie von Blockify ist: „Bestehende RAG-Frameworks nicht ersetzen, sondern als vorgelagerte Datenoptimierungs-Schicht fungieren“. Entwickler können in bestehenden LlamaIndex- oder LangChain-Prozessen den chunking-Schritt durch Blockify ersetzen; der übrige Ablauf bleibt unverändert.

Konkrete, später verfolgbar Ereignisse: Wachstum der Blockify-GitHub-Sternzahlen und die Community-Akzeptanz, ob Iternal Technologies für die Idee der IdeaBlock-Struktur ein Patent beantragt oder technische Details offengelegt (aktuell wird „patented ingestion“ beworben), sowie ob gängige RAG-Frameworks ähnliche De-Duplication-Logik als Standardfunktion integrieren.

Dieser Artikel Blockify rewritet Enterprise-RAG: IdeaBlock statt chunking, 40-fach komprimieren, Token um 3-fach reduzieren erschien zuerst in der Ketten-News ABMedia.

Disclaimer: The information on this page may come from third-party sources and is for reference only. It does not represent the views or opinions of Gate and does not constitute any financial, investment, or legal advice. Virtual asset trading involves high risk. Please do not rely solely on the information on this page when making decisions. For details, see the Disclaimer.
Kommentieren
0/400
Keine Kommentare