La arquitectura de interconexión en IA: NVLink, CXL y alternativas emergentes

Ilustración de servidores conectados por enlaces NVLink, CXL y UALink en un entorno de centro de datos de inteligencia artificial

Introducción

En los últimos años, los modelos de inteligencia artificial (IA) han escalado en tamaño (decenas o cientos de miles de millones de parámetros) y complejidad (transformers, agentes, razonamiento simbólico combinado, etc.). Este crecimiento demanda infraestructuras con un elevado ancho de banda, baja latencia y coherencia de memoria entre elementos de cómputo (GPU, TPU, aceleradores personalizados, CPU). En este contexto, la arquitectura de interconexión —es decir, cómo se comunican entre sí los distintos componentes del sistema de cómputo— se vuelve un elemento crítico para el rendimiento global.

Mientras que tradicionalmente se ha confiado en PCIe para conectar procesadores, dispositivos y aceleradores, las exigencias de la IA moderna han llevado a la adopción de tecnologías especializadas como NVLink (propietaria de NVIDIA) y CXL (Compute Express Link, estándar industrial). Además, están surgiendo nuevas propuestas como UALink o propuestas híbridas que prometen ofrecer flexibilidad, escalabilidad y rendimiento para futuras generaciones de sistemas IA.

Contexto histórico y fundamentos técnicos

1. El papel de la interconexión en sistemas de IA

Para comprender la importancia de la interconexión, conviene ver los retos clave que enfrentan las infraestructuras IA:

  • Movimiento de datos masivo entre dispositivos. Durante el entrenamiento de modelos distribuidos, los gradientes, los parámetros y las activaciones deben transferirse entre GPUs (o nodos) con eficiencia.
  • Coherencia y acceso compartido a la memoria. Muchos diseños modernos buscan que los accelerators y la CPU compartan un espacio de memoria coherente —evitando copias, migraciones o inconsistencias—, lo cual eleva la complejidad del bus de interconexión.
  • Escalamiento vertical vs horizontal. Algunas arquitecturas favorecen agrupar múltiples aceleradores dentro de un mismo nodo (scale-up), otras favorecen conectar nodos entre sí (scale-out). La interconexión debe servir en ambos escenarios.
  • Latencia y eficiencia energética. A velocidades muy altas, el overhead de sincronización, buffers y protocolo puede matar el beneficio de mayor ancho de banda. Además, mover bits con cuidado es clave para sistemas con restricciones de energía.

En la práctica, las plataformas modernas combinan múltiples dominios: interconexión entre chips dentro del nodo, entre aceleradores en el nodo y entre nodos (red de interconexión), además de memoria compartida/distribuida.

2. Breve repaso: PCI Express como base

PCIe (Peripheral Component Interconnect Express) ha sido la base sobre la cual muchos estándares modernos extienden su capa física y eléctrica. Proporciona mecanismos de configuración y transporte de datos entre host y dispositivos, con evoluciones constantes (PCIe Gen 1 a 7, con mejoras en codificación, flits, señales, etc.).

– CXL, por ejemplo, reutiliza la capa física de PCIe, extendiéndola con protocolos adicionales de coherencia y memoria.
– Pero PCIe por sí solo no satisface los requerimientos de latencia ultra baja, optimizaciones para colectivas entre aceleradores, o operaciones atómicas eficientes para modelos distribuidos de gran escala.

Por esto nacen los interconectores especializados como NVLink, NVSwitch, y otras propuestas emergentes.

NVLink: el estándar propietario de NVIDIA

Arquitectura y capacidades

Esquema de topología NVLink con NVSwitch mostrando conexión entre varias GPUs en un clúster de IA

NVLink es la interconexión de alta velocidad desarrollada por NVIDIA para comunicación entre GPUs (y entre GPU y CPU cuando se integran en arquitectura heterogénea).

Algunos puntos clave:

  • NVLink ofrece comunicación punto a punto de varias líneas (“lanes”) agrupadas en enlaces de alta velocidad.
  • Soporta topologías de malla, no centrales, permitiendo que múltiples GPU se conecten entre sí con latencia menor.
  • La versión más reciente (NVLink de quinta generación) se orienta al escalamiento vertical (scale-up) para dominios de GPU conectados directamente mediante NVSwitch (un conmutador interno que conecta múltiples enlaces NVLink).
  • En arquitecturas como la combinación entre CPU NVIDIA (Grace) y GPU (Hopper), aparece NVLink‑C2C (Chip‑to‑Chip), un interconector coherente de alto rendimiento (~900 GB/s bidireccional) que permite la coherencia de memoria entre CPU y GPU.
  • NVSwitch permite conectar varios dispositivos en dominios extensos, e incluso construir redes internas en racks para pools de GPU con alta capacidad de comunicación entre ellas.

Gracias a estas características, NVLink está optimizado para:

  • Operaciones colectivas (all‑reduce, broadcast, etc.) entre múltiples GPUs
  • Acceso compartido a memoria, optimización de transferencia de activaciones y gradientes
  • Baja latencia, alta eficiencia energética en comunicaciones dentro del nodo

Ventajas y limitaciones

Ventajas:

  1. Alto ancho de banda por enlace: NVLink puede superar con creces lo que PCIe estándar ofrece entre GPU y GPU.
  2. Topología de malla y escalabilidad interna: permite un dominio interconectado estrechamente de GPUs.
  3. Coherencia y memoria compartida (parte del stack de software NVIDIA como CUDA, NCCL, NVSHMEM).
  4. Integración optimizada con el ecosistema NVIDIA: librerías, drivers y soporte de hardware están alineados para aprovechar NVLink eficientemente.

Limitaciones:

  1. Propietario / cerrado: fuera del ecosistema NVIDIA, su adopción es limitada.
  2. Escalado entre nodos: NVLink es ideal dentro de nodos o racks, pero para conectar muchos servidores entre sí (scale-out) hay que complementarlo con redes como InfiniBand, Ethernet u otras capas de interconexión.
  3. Costos y complejidad: la implementación de hardware (NVSwitch, rutas, cables, conmutadores) tiene costos elevados a medida que se escala el número de GPUs.
  4. Dependencia del ecosistema de software: su rendimiento depende de que las librerías (por ejemplo, NCCL) estén optimizadas para usar NVLink.

Con los avances recientes, NVIDIA ha lanzado además NVLink Fusion, una iniciativa para permitir que arquitecturas no puramente NVIDIA (por ejemplo CPUs o aceleradores personalizados) puedan integrarse con los dominios NVLink en diseños de rack-scale. Esto busca abrir el ecosistema y hacer más flexible la interconexión en soluciones IA mixtas.

CXL (Compute Express Link): el estándar abierto para interconexión y memoria

Origen, diseño y versiones

Diagrama de CXL mostrando coherencia de memoria entre CPU, memoria y aceleradores para IA

CXL (Compute Express Link) es un estándar abierto promovido por muchas empresas del sector (procesadores, memoria, aceleradores) para permitir interconexión coherente entre CPU, memoria, dispositivos y aceleradores.

Algunos aspectos técnicos relevantes:

  • CXL redefine la capa de protocolo sobre la capa física de PCIe. En otras palabras, toma la interfaz eléctrica de PCIe y añade protocolos adicionales para coherencia y memoria.
  • Integra tres subprotocolos multiplexados en un mismo enlace:
    1. CXL.io: para operaciones tradicionales tipo PCIe (configuración, interrupciones, DMA)
    2. CXL.cache: permite que los dispositivos accedan coherentemente a memoria de la CPU, con operaciones de caché coherente
    3. CXL.mem: permite que la CPU acceda a memoria local de dispositivos (por ejemplo memoria de aceleradores) de forma coherente
  • La evolución de CXL ha introducido nuevas características:
    • CXL 2.0 añadió soporte para switches, expansión de dispositivos y pooling de memoria.
    • CXL 3.0 agrega acceso peer-to-peer (entre dispositivos sin pasar por la CPU), topologías de múltiples niveles de conmutación (multi-tiered switching) y mejoras para computación desagregada (disaggregated computing).
    • En versiones futuras se planean mejoras en escalabilidad, rendimiento y latencia.

Ventajas y papel en infraestructuras IA

CXL es muy prometedor para arquitecturas de IA modernas por varias razones:

  1. Estandarización y apertura: al ser un estándar con respaldo de la industria, promueve interoperabilidad entre distintos fabricantes (CPUs, aceleradores, memoria)
  2. Memoria compartida y coherencia: permite que la CPU y los aceleradores compartan datos con coherencia, minimizando copias, migraciones o sincronización pesada.
  3. Pooling y desagregación de memoria: CXL habilita la agrupación de memoria compartida (memory pooling), lo que permite que múltiples hosts accedan a un banco común de memoria, mejorando la utilización de recursos. Por ejemplo, el estándar CXL no define un modelo de pooling específico, pero trabajos recientes como Octopus proponen topologías escalables de pooling a bajo costo.
  4. Flexibilidad de uso en diferentes escenarios: se puede usar para conectar CPU con memoria, CPU con acelerador, dispositivo a dispositivo y otros casos diversificados.
  5. Facilita arquitecturas desagregadas (disaggregated architectures): donde los recursos (memoria, aceleradores) no están estrictamente emparejados a hosts, sino que pueden repartirse según demanda.

Desafíos y limitaciones

A pesar de su potencial, CXL enfrenta varios retos:

  • Latencia frente a interconectores propietarios: aunque CXL es más eficiente que PCIe tradicional, aún no iguala la latencia ultrabaja de enlaces especializados como NVLink para comunicaciones GPU‑GPU internas.
  • Complejidad en implementación de switches: el diseño de conmutadores con coherencia distribuida, arbitraje y retención de estado es complejo.
  • Escalado intra-nodo vs inter-nodo: CXL es muy fuerte dentro de un nodo (o rack) con pooling de memoria, pero para escalar a clústeres extensos muchas veces debe combinarse con redes dedicadas.
  • Adopción en aceleradores de alto rendimiento: algunos fabricantes de aceleradores siguen favoreciendo sus propios interconectores especializados para maximizar rendimiento.
  • Controversias sobre su idoneidad para IA: algunos analistas afirman que CXL “está muerto en la era de IA” si no se optimiza agresivamente, pues no proporciona por sí solo la latencia y ancho de banda que los sistemas de IA extremos requieren.

Sin embargo, otros expertos defienden que CXL seguirá siendo esencial como capa de memoria compartida, ampliación de capacidad y desagregación.

Alternativas emergentes y complementarias

Para satisfacer las demandas crecientes de la IA, más allá de NVLink y CXL hay nuevas propuestas y tecnologías que pueden complementar o competir en ciertos dominios:

UALink (Ultra Accelerator Link)

UALink es una iniciativa reciente diseñada específicamente para interconexión entre aceleradores en sistemas de IA.

Algunas características destacadas:

  • UALink 1.0 define una velocidad de 200 Gbps (basado en PHY de Ultra Ethernet P802.3dj) para conectar aceleradores.
  • Permite que los aceleradores estén conectados dentro de un “AI pod” hasta con 1024 aceleradores mediante switches UALink (ULS), cada puerto asignado a un identificador único.
  • Utiliza protocolos estándar como Infinity Fabric (de AMD) para mantener coherencia entre aceleradores dentro del dominio.
  • En su diseño, UALink aspira a cubrir el dominio de interconexión de aceleradores con escalabilidad, permitiendo un sistema coherente de altas prestaciones y latencia limitada.

Como ventaja, UALink promete ser más abierto que soluciones propietarias cerradas, con una orientación directa a sistemas IA intensivos en aceleradores. Sin embargo, su adopción y madurez están todavía en fases iniciales.

Diseños híbridos y capas mixtas: CXL + Ethernet, NVLink + CXL

Una tendencia que surge es combinar distintas tecnologías para balancear sus ventajas: por ejemplo, usar NVLink (o UALink) para comunicación intensa entre aceleradores dentro de un nodo/rack, y usar CXL para pooling de memoria o interconexión de nivel medio, y redes de alta velocidad (Ethernet, InfiniBand) para comunicación entre racks.

Un ejemplo reciente es Panmnesia, que propone arquitectura híbrida CXL + UALink/NVLink para compartir memoria de nodo a nodo y simultáneamente disponer de comunicación directa de alta velocidad entre aceleradores.

Otro estudio académico, DFabric, sugiere una infraestructura de dos niveles: un fabric CXL intra-rack para eficiencia local, combinado con pooling de NICs (interfaces de red) para conectar múltiples racks eficientemente.

Estas estrategias permiten aprovechar lo mejor de cada mundo: alta coherencia y flexibilidad de CXL, más la latencia y eficiencia de enlaces especializados entre aceleradores.

Otras propuestas: Gen-Z, CCIX, OpenCAPI

Aunque menos relevantes en IA de alto rendimiento puro, hay otros estándares de interconexión que pueden ser aplicables en ciertos escenarios:

  • Gen-Z: diseñado para memoria abierta, baja latencia y alta escalabilidad, con enfoque en sistemas desagregados.
  • CCIX / OpenCAPI: estándares coherentes que emergieron como alternativas de interconexión para dispositivos aceleradores o memoria coherente.
  • CAPI (Coherent Accelerator Processor Interface): desarrollado por IBM para conectar aceleradores coherentes sobre PCIe.

Sin embargo, muchas de estas propuestas no han logrado penetrar fuertemente en el mercado IA competitivo frente a NVLink y CXL.

UB‑Mesh (Huawei) — una propuesta agresiva

Recientemente, Huawei anunció UB‑Mesh, un protocolo de interconexión para data centers que pretende unificar varias capas (PCIe, CXL, NVLink, TCP/IP) bajo una arquitectura de malla con alta eficiencia, baja latencia y gran escalabilidad.

UB‑Mesh se postula como “una red unificada que abarcaría todo el centro de datos como un SuperNodo”, con soportes ópticos internos, baja latencia por salto, y bandas de terabits por chip. Si bien es ambicioso y aún en fase emergente, podría representar una visión integradora a futuro.

Comparativa técnica: NVLink vs CXL vs UALink

Para tener claridad sobre sus aplicaciones, conviene comparar estas tecnologías en distintos criterios:

CriterioNVLinkCXLUALink / propuestas emergentes
Orientación principalComunicación entre aceleradores (GPU‑GPU), coherencia dentro del dominio NVIDIAConectividad coherente entre CPU, memoria y aceleradores; pooling de memoriaInterconexión específica entre aceleradores con enfoque en escalabilidad IA
Ancho de banda / latenciaMuy alto; latencia optimizada para comunicaciones intensas dentro del nodoMenor que NVLink para tráfico de colectivas, pero competitivo en acceso a memoria compartidaDiseñado para un buen balance entre latencia y escalabilidad entre aceleradores
Coherencia de memoriaSí, en dominios definidos (constack NVIDIA)Totalmente enfocada en protocolos coherentes (cache, mem)Depende del diseño (por ejemplo, UALink usa Infinity Fabric para coherencia)
Escalabilidad intra-nodoExcelente, especialmente con NVSwitch, mallas internasBuena, con switches CXL, pero retos en diseñoDiseñada para escalabilidad entre aceleradores con switches UALink
Escalabilidad inter-nodo / entre racksNecesita complementarse con redes como InfiniBand, EthernetPuede usarse para pooling global, pero complementado por redes externasNormalmente complementada por redes externas o extensiones futuras
Ecosistema y adopciónMuy madura en el ecosistema NVIDIAAmplio respaldo de la industriaInicial, en etapas emergentes
Flexibilidad / aperturaPropietario (NVIDIA)Estándar abierto, soportado por múltiples empresasOrientado a apertura en IA, diseño reciente
Casos de uso idealesDominios GPU densos en un nodo o rackMemoria compartida, extensiones de capacidad, poolingIntercomunicación escalable entre aceleradores de gran escala

Así, no es correcto pensar en “uno que reemplace a otro” —más bien, se trata de estrategias combinadas dependiendo de la escala, topología y requerimientos de la carga de trabajo.

Escenarios de uso en IA

Veamos cómo estas tecnologías se emplean en distintos escenarios reales o futuros.

Entrenamiento distribuido intensivo (scale-up)

  • En una máquina con 8 a 64 GPUs, una red NVLink bien diseñada (usando NVSwitch) permite que todas las GPUs compartan memoria virtual y comuniquen gradientes con latencia reducida.
  • La memoria de entrenamiento puede repartirse entre GPUs, eliminando overheads de transferencia y sincronización.
  • CXL puede jugar un rol de respaldo permitiendo expansión de memoria para parámetros que no caben directamente en la memoria de los GPUs, así como ofrecer “spillover” de memoria compartida.

Inferencia de modelos grandes con contexto extendido

  • Modelos de generación de texto con contextos extensos requieren que los datos del contexto (llaves, valores) sean accesibles a múltiples GPUs en tiempo real. NVLink permite un acceso eficiente a esos datos compartidos.
  • En escenarios donde el modelo o sus caches exceden la memoria física de las GPUs, CXL podría suministrar memoria adicional con coherencia, permitiendo que el acelerador acceda a una extensión de memoria casi dramática.
  • Investigaciones recientes como CXL‑NDP muestran que se puede mejorar el rendimiento efectivo de memoria CXL integrando computación cercano a los datos (near-data processing) para descomprimir, compresión dinámica, etc.

Infraestructura de IA en la nube / centros de datos (scale-out)

  • En un entorno de múltiples racks, la interconexión entre racks usa redes de alta velocidad (Ethernet, InfiniBand, etc.).
  • Dentro de cada rack, se pueden establecer dominios NVLink + switches internos, mientras que CXL puede conectarse a pools de memoria compartida entre nodos del rack.
  • Tecnologías híbridas como DFabric o Panmnesia ayudan a coordinar estos niveles, usando CXL para el dominio local y redes externas para comunicación entre racks.

Aceleradores heterogéneos y arquitecturas mixtas

  • En futuras arquitecturas, es probable que existan múltiples tipos de aceleradores (GPU, TPU, ASIC dedicados, FPGAs) conviviendo con CPUs de distinta naturaleza.
  • Gracias a NVLink Fusion, NVIDIA está permitiendo que aceleradores o CPUs personalizados se integren al dominio NVLink, permitiendo que no todo tenga que ser GPU puro.
  • En estos casos, CXL sirve como capa común de coherencia y memoria compartida general, mientras que enlaces especializados (UALink, NVLink) optimizan comunicación entre aceleradores específicos.

Desafíos, riesgos y consideraciones

Cualquier diseño avanzado de interconexión para IA debe considerar los retos técnicos y de adopción:

  1. Consistencia de protocolo y coherencia distribuida
    Mantener coherencia entre múltiples caches en múltiples nodos/conmutadores es complejo. Los switches deben gestionar el estado de caché, retransmisiones, invalidaciones, etc., sin incurrir en latencia excesiva.
  2. Congestión y calidad de servicio
    En escenarios de carga intensiva (many-to-many), los enlaces pueden saturarse. El diseño del switching, la priorización de tráfico (por ejemplo, gradientes frente a tráfico de fondo) y el enrutamiento son críticos.
  3. Distribución térmica y de energía
    Los enlaces de alta velocidad consumen energía y generan calor. En racks densos, la disipación térmica y el diseño de rutas físicas (cables, conectores) influyen fuertemente.
  4. Diseño de conmutadores escalables
    Los switches (NVSwitch, UALink switches, conmutadores CXL) deben ser escalables, tener baja latencia interna y capacidad para manejar grandes cantidades de puertos y topologías jerárquicas.
  5. Balance entre especialización y flexibilidad
    Las soluciones propietarias (NVLink) ofrecen rendimiento máximo, mientras que los estándares abiertos (CXL) ofrecen interoperabilidad. Diseñar hardware que aproveche ambos sin perder eficiencia es un reto.
  6. Software y librerías optimizadas
    Ninguna interconexión es útil si el stack de software (bibliotecas de comunicación, marcos de entrenamiento, runtime) no explota sus capacidades (coherencia, operaciones colectivas, rutas optimizadas).
  7. Adopción y ecosistema
    La adopción de nuevas propuestas como UALink o UB‑Mesh dependerá de cuán rápido se integren en hardware, software y herramientas de IA existentes.

Tendencias futuras y escenarios posibles

Mirando hacia adelante (2026‑2030), algunas tendencias y posibles evoluciones:

  • Interconexión unificada: propuestas como UB‑Mesh apuntan a un único protocolo que unifique comunicaciones intra-nodo, entre nodos y redes externas. Si logran madurez, podrían reducir la complejidad de capas múltiples.
  • Interconexión óptica / co‑packaged optics (CPO): a medida que las distancias y densidades crecen, la óptica integrada dentro de chips o módulos será crucial para reducir latencia y consumo.
  • Procesamiento cercano a los datos (Near-data compute, NDP): integrar lógica de compresión, filtros o transformaciones en las interfaces de memoria (como en CXL‑NDP) para reducir el volumen de datos movidos físicamente.
  • Enfoque en pools de memoria masiva: arquitecturas donde la memoria se convierte en un recurso compartido entre muchos nodos virtuosos, con escalabilidad dinámica basada en la demanda. Por ejemplo, propuestas como Octopus exploran cómo construir pools escalables de memoria CXL a costo reducido.
  • Mayor integración heterogénea: dominios NVLink podrían albergar no solo GPUs, sino también ASICs personalizados para inferencia, lógica de razonamiento simbólico o procesadores neuromórficos, todo interconectado con coherencia.
  • Inteligencia distribuida del enrutamiento: uso de redes definidas por software, inteligencia en conmutadores para optimizar rutas de comunicación en tiempo real según cargas de entrenamiento o inferencia.
  • Adopción acelerada de estándares abiertos: en el mediano plazo, es probable que los estándares como CXL y UALink ganen más tracción, impulsados por la demanda de interoperabilidad entre proveedores de hardware.

Conclusión

La arquitectura de interconexión en IA es uno de los ámbitos más estratégicos y competitivos del ecosistema tecnológico. No basta con diseñar poderosas unidades de cómputo; sin una comunicación eficiente, coherente y escalable entre ellas, el rendimiento global queda severamente limitado.

  • NVLink sigue siendo la opción dominante en dominios GPU densos con altas exigencias de rendimiento, sobre todo dentro del ecosistema NVIDIA.
  • CXL ofrece una promesa más genérica, interoperable y alineada con arquitecturas de memoria compartida y desagregada, aunque con desafíos en latencia y diseño de switches de alto rendimiento.
  • Alternativas emergentes como UALink o propuestas híbridas permiten llenar vacíos de escalabilidad entre aceleradores sin depender de un solo proveedor.

La tendencia más probable no es que un estándar único lo domine todo, sino que los sistemas IA del futuro empleen capas múltiples de interconexión: enlaces especializados para comunicación intensa entre aceleradores, capas coherentes para memoria compartida y redes externas para interconexión a gran escala.

Preguntas frecuentes sobre la arquitectura de interconexión en IA: NVLink, CXL y tecnologías emergentes

¿Qué es NVLink y por qué es importante en IA?
R: NVLink es un interconector de alta velocidad desarrollado por NVIDIA para comunicación directa entre aceleradores (GPU‑GPU) con baja latencia, memoria compartida y optimizado para operaciones colectivas en IA.

¿Cómo se compara CXL con NVLink para infraestructuras IA?
R: NVLink ofrece mayor rendimiento en comunicaciones intensas entre aceleradores, mientras que CXL destaca por su carácter abierto, coherencia de memoria y capacidad para pooling y expansión de memoria entre CPU y dispositivos.

¿Qué es UALink y para qué se usa?
R: UALink (Ultra Accelerator Link) es una nueva propuesta de interconexión diseñada específicamente para conectar aceleradores con alta eficiencia, imponiéndose como una alternativa escalable en sistemas IA.

¿Será NVLink reemplazado por CXL en el futuro?
R: No necesariamente. Lo más probable es que exista una integración híbrida: NVLink (o enlaces especializados) para comunicación crítica entre aceleradores, junto con CXL para memoria compartida, desagregada y flexibilidad en el sistema.

¿Qué rol jugará UB‑Mesh en el futuro de la interconexión IA?
R: UB‑Mesh es una propuesta reciente de Huawei para unificar múltiples protocolos (PCIe, NVLink, CXL, TCP/IP) bajo un solo esquema de malla de alta eficiencia. Si se adopta masivamente, podría simplificar drásticamente la arquitectura de comunicaciones en infraestructuras IA.

¿Te gustó este artículo? Compártelo en tus redes 👇
Editora nacida y formada en Córdoba, Argentina. Experta en generar contenido relevante para emprendedores y pymes del sector tecnológico local. Fanática del mate mientras redacta guías sobre WordPress y automatización.