El división QVAC de Tether anunció el 17 de marzo de 2026 el lanzamiento del primer marco de ajuste fino LoRA multiplataforma del mundo para modelos BitNet de Microsoft (LLMs de 1-bit), permitiendo entrenamiento e inferencia de IA con miles de millones de parámetros en GPUs de consumo y teléfonos inteligentes.
El marco, integrado en QVAC Fabric, reduce los requisitos de memoria y cálculo lo suficiente para ajustar modelos de hasta 13 mil millones de parámetros en dispositivos como el iPhone 16, Galaxy S25 y Pixel 9, con modelos de 125 millones de parámetros entrenables en aproximadamente 10 minutos en hardware móvil.
El lanzamiento marca un paso importante en la estrategia de Tether, que pasa de ser un emisor de stablecoins a un proveedor de infraestructura más amplio, desafiando el modelo centralizado de desarrollo de IA dominado por proveedores de la nube y hardware especializado de NVIDIA.
El marco QVAC Fabric permite ajuste fino LoRA (Low-Rank Adaptation) y aceleración de inferencia en hardware heterogéneo de consumo, incluyendo:
GPU de escritorio: AMD, Intel y NVIDIA
Ecosistema Apple: Chips Apple Silicon M y GPUs Bionic móviles
GPUs móviles: Adreno (Samsung), Mali y otros
Esta compatibilidad amplia elimina la necesidad previa de sistemas NVIDIA de nivel empresarial o infraestructura en la nube, que han concentrado el desarrollo de IA en organizaciones con presupuestos de hardware especializados.
El equipo de ingeniería de Tether demostró ajuste fino exitoso en teléfonos inteligentes de gama alta con los siguientes resultados:
Modelos de 125M de parámetros: ajuste fino en un Samsung Galaxy S25 (GPU Adreno) en aproximadamente 10 minutos para un conjunto de datos biomédicos de ~300 documentos (~18k tokens)
Modelos de 1B de parámetros: ajuste fino del mismo conjunto de datos biomédicos en 1 hora 18 minutos en Samsung S25 y 1 hora 45 minutos en iPhone 16
Capacidad máxima: modelos de hasta 13 mil millones de parámetros ajustados con éxito en iPhone 16, llevando las capacidades de los dispositivos edge mucho más allá de las demostraciones típicas de menos de 3 mil millones de parámetros
La inferencia BitNet en GPUs móviles muestra una aceleración significativa en comparación con las baselines de CPU:
Mejora de velocidad: rendimiento de GPU entre 2 y 11 veces más rápido que CPU en los dispositivos probados
Implicación práctica: las GPUs móviles ahora pueden soportar cargas de trabajo que anteriormente requerían hardware especializado costoso o centros de datos
Las pruebas demuestran ahorros de memoria significativos en comparación con modelos convencionales:
BitNet-1B (TQ1_0): utiliza hasta un 77.8% menos de VRAM que Gemma-3-1B (de 16 bits)
vs. Qwen3-0.6B: 65.6% menos VRAM que la versión de 16 bits
Estas reducciones aplican tanto a cargas de trabajo de inferencia como de ajuste fino LoRA, creando espacio de memoria útil para modelos más grandes y flujos de trabajo de personalización en hardware previamente considerado insuficiente.
El marco permite ajustar modelos el doble de grandes en dispositivos edge en comparación con modelos Q4 no-BitNet, demostrando la superioridad en eficiencia de memoria de la arquitectura BitNet.
El CEO de Tether, Paolo Ardoino, enmarcó el lanzamiento dentro de una visión más amplia de IA accesible: “La inteligencia será un factor clave en el futuro de la sociedad. Cuando entrenar grandes modelos de lenguaje depende de infraestructura centralizada, la innovación se estanca, el ecosistema se vuelve frágil y el equilibrio social está en riesgo. Al permitir entrenamiento significativo de modelos grandes en hardware de consumo, incluidos teléfonos inteligentes, QVAC de Tether demuestra que la IA avanzada puede ser descentralizada, inclusiva y empoderar a todos.”
Las ganancias en eficiencia hacen posible el aprendizaje federado, permitiendo entrenar y compartir actualizaciones ajustadas en dispositivos distribuidos, manteniendo los datos sensibles del usuario en local. Esto reduce la dependencia de infraestructura centralizada y fomenta la mejora colaborativa de modelos.
Al reducir la dependencia de proveedores en la nube, el marco permite a los usuarios mantener datos sensibles en sus dispositivos durante el ajuste fino, abordando preocupaciones de privacidad relacionadas con la transmisión de datos a servidores centralizados.
El lanzamiento de Tether desafía directamente el modelo centralizado de desarrollo de IA dominado por hyperscalers y proveedores en la nube. Al habilitar trabajo de IA significativo en hardware de consumo, la compañía se posiciona como un actor de infraestructura en la pila de IA en el edge, independiente de las jurisdicciones tradicionales de la nube.
El marco, incluyendo el documento técnico, adaptadores, benchmarks y binarios multiplataforma, está disponible en Hugging Face. Este enfoque de código abierto busca establecer a QVAC como una vía predeterminada para desarrolladores independientes y pequeños laboratorios que quieran desplegar IA en hardware de consumo, construyendo relevancia cultural y técnica fuera de los marcos regulatorios tradicionales.
El lanzamiento continúa la expansión de Tether más allá de la emisión de stablecoins hacia infraestructura digital crítica, tras iniciativas previas como el conjunto de datos Genesis I de 41 mil millones de tokens y el AI Workbench local. La compañía ha señalado su inversión continua en infraestructura de IA descentralizada en las próximas semanas, meses y años.
La documentación técnica completa, incluyendo benchmarks de rendimiento, detalles de implementación y binarios multiplataforma, está disponible en el blog de Hugging Face: “Ajuste fino LoRA BitNet b1.58 en LLMs heterogéneos en GPUs edge mediante QVAC Fabric.”
Tether describe su misión como avanzar en la libertad, transparencia e innovación a través de la tecnología, permitiendo el intercambio directo de información entre pares sin intermediarios innecesarios. La compañía busca reemplazar los modelos centralizados con infraestructura descentralizada diseñada para privacidad, eficiencia y resiliencia.
El marco QVAC Fabric BitNet LoRA soporta GPUs de consumo de AMD, Intel y NVIDIA; el ecosistema de Apple incluyendo chips Silicon M y GPUs Bionic móviles; y GPUs móviles como Adreno (Samsung), Mali y otros. Esto permite ajuste fino de IA en laptops, desktops y teléfonos inteligentes de gama alta sin hardware empresarial especializado.
Según las pruebas de Tether, la inferencia en GPU en dispositivos móviles de gama alta es entre 2 y 11 veces más rápida que en CPU. El uso de memoria disminuye hasta un 77.8% en comparación con modelos convencionales, permitiendo ejecutar modelos más grandes dentro de las mismas limitaciones de hardware.
Ajustar un modelo de 13 mil millones de parámetros en un teléfono inteligente representa un cambio respecto a las demostraciones típicas de IA en el dispositivo, que generalmente involucran modelos de menos de 3 mil millones o trasladan cargas más pesadas a la nube. Esta capacidad sugiere un futuro donde la personalización avanzada y la adaptación a dominios específicos puedan ocurrir localmente, sin enviar datos de usuario a servidores centralizados.