- Carlos Martínez Rojas
- 296 Vistas
Introducción
En el mundo del cómputo acelerado (IA, supercómputo, simulaciones científicas, renderizado extremo), un reto recurrente es el intercambio eficiente de datos entre la CPU (unidad central de procesamiento) y la GPU (unidad de procesamiento gráfico). Tradicionalmente, ese intercambio se realiza usando PCIe (Peripheral Component Interconnect Express), que ofrece un canal de datos bastante veloz, pero que puede convertirse en cuello de botella conforme los modelos y volúmenes de datos crecen.
Aquí es donde entra NVLink, una tecnología propietaria de NVIDIA diseñada para ofrecer una interconexión de alta velocidad entre GPU y CPU (y también entre múltiples GPUs) con menor latencia, mayor ancho de banda y capacidades de coherencia de memoria. En este artículo repasaremos cómo funciona NVLink, sus generaciones, los principios técnicos clave, casos de uso destacados, sus ventajas frente a PCIe, y por qué es crítica la integración GPU‑CPU hoy en día.
Contexto histórico y motivación
El problema del “data movement” en cómputo acelerado
- Las GPUs son excelsas para cargas de trabajo altamente paralelas (por ejemplo, entrenamiento de redes neuronales, simulaciones físicas, trazado de rayos). Pero, suelen tener una memoria local (VRAM / HBM) con capacidad limitada.
- Muchos algoritmos requieren mover datos entre la memoria principal del sistema (accesible por la CPU) y la memoria de la GPU. Ese movimiento por PCIe puede ser costoso en tiempo.
- En sistemas multi-GPU, también hay necesidad de que las GPUs compartan datos entre sí de forma rápida (sin depender de la CPU como intermediaria).
Para reducir ese costo en la transferencia de datos, se necesitan interconexiones de alta eficiencia: menos latencia, más ancho de banda y, idealmente, coherencia de caché (que diferentes unidades vean datos consistentes).
Origen de NVLink
- NVIDIA presentó NVLink por primera vez alrededor de 2014 como una forma de superar las limitaciones de PCIe para conectividad entre GPUs y entre GPU y CPU.
- La innovación clave: en lugar de una topología “centralizada” (como un hub o puente), NVLink define enlaces punto a punto, en una malla, lo que permite que cada componente (GPU o CPU) esté conectado a varios otros directamente.
- Con cada generación, NVIDIA ha aumentado las tasas de señalización, el número de enlaces por chip, y ha incorporado mejoras como modulación PAM‑4, reducción de líneas por enlace, y mejor eficiencia energética.
- Más recientemente, NVIDIA ha comenzado a licenciar puertos NVLink de memoria para que otros fabricantes (CPU y aceleradores) los integren, lo cual amplía su rol más allá de ecosistemas cerrados.
- Además, con la llegada del Grace CPU y la combinación “Grace + Hopper” en un solo chip (el superchip “Grace Hopper”), NVLink se convierte en una pieza central de la arquitectura integrada CPU‑GPU.
Así, NVLink evoluciona de un simple “puente entre GPUs” hacia un tejido de alta velocidad para unir CPU y GPU en arquitecturas convergentes.
Principios técnicos: cómo funciona internamente NVLink

Arquitectura general: enlaces punto a punto y malla
- NVLink no usa un bus compartido como PCIe convencional, sino múltiples enlaces punto a punto. Cada enlace está compuesto por “líneas diferenciales” de señalización de alta velocidad.
- En lugar de pasar todo por un nodo central, los dispositivos (GPUs, CPUs o switches NVSwitch) están conectados en una topología de malla o red interna, permitiendo múltiples rutas entre pares y escalabilidad eficiente.
- En arquitecturas de datacenter, hay chips especiales llamados NVSwitch que actúan como conmutadores de alta velocidad para interconectar decenas de GPUs.
Enlaces y generaciones NVLink
El ancho de banda y eficiencia de NVLink ha escalado con cada generación. Veamos un resumen:
| Generación | Señalización / líneas por enlace | Ancho de banda bidireccional por enlace | Nº de enlaces por chip | Ancho de banda total estimado (GPU) | Observaciones |
|---|---|---|---|---|---|
| NVLink 1.0 | ~20 Gbit/s por línea, 8 líneas por enlace | ~40 GB/s | 4 enlaces | ~160 GB/s | Usado en GPUs P100, y en conexiones con CPU Power8 |
| NVLink 2.0 | ~25 Gbit/s por línea, 8 líneas por enlace | ~50 GB/s | 6 enlaces | ~300 GB/s | V100 GPU y conexiones con Power9 CPUs |
| NVLink 3.0 | Usa modulación PAM‑4; 4 líneas por enlace | ~50 GB/s | 12 enlaces | ~600 GB/s | GPU A100, conexiones con Grace CPU superchip |
| NVLink 4.0 | Señalización a 100 Gb/s con PAM‑4 y 2 líneas por enlace | ~50 GB/s | 18 enlaces | ~900 GB/s | GPU H100 (Hopper) y arquitecturas más modernas |
Además:
- NVLink puede “agrupar” múltiples enlaces para crear puertos más grandes (es decir, unir enlaces para mayor ancho de banda agregado).
- En las nuevas versiones, el número de líneas por enlace ha disminuido (por ejemplo, de 8 a 4 o 2) al mejorar la señalización, lo que reduce complejidad física.
- Los enlaces son bidireccionales: pueden transportar datos en ambas direcciones simultáneamente.
Coherencia de caché y acceso a memoria compartida
Uno de los puntos más poderosos de NVLink (especialmente en su uso entre CPU y GPU) es la capacidad de coherencia de caché:
- NVLink puede soportar que diferentes unidades (CPU, GPU) mantengan una vista coherente de memoria, de modo que una modificación hecha en el lado de la GPU se refleje automáticamente en el lado de la CPU sin necesidad de copias explícitas.
- En sistemas como el superchip Grace Hopper (que combina CPU Grace y GPU Hopper), NVLink‑C2C (chip‑to‑chip) permite que CPU y GPU compartan tablas de páginas y acceso a memoria unificada.
- Gracias a esto, se puede reducir drásticamente el “overhead” de gestión de memoria (mover datos, sincronización manual) y simplificar el modelo de programación.
Integración con switches y escalabilidad
Para escalar a muchos GPUs:
- Se usan chips NVSwitch que actúan como conmutadores internos, permitiendo conexiones full‑mesh entre muchos GPUs en un sistema (por ejemplo, sistemas DGX).
- En configuraciones de muchos nodos, NVLink puede usarse dentro del nodo para alta velocidad, mientras que tecnologías de interconexión de nivel superior (InfiniBand, Ethernet, etc.) manejan la interconexión entre nodos.
Integración GPU‑CPU: por qué importa
Hasta aquí, hemos hablado en general de NVLink y su arquitectura. Ahora exploremos por qué su integración entre GPU y CPU es tan estratégica.
Eliminando el PCIe como cuello de botella
- PCIe, aunque veloz y versátil, está llegando a sus límites: su latencia y ancho de banda pueden penalizar sistemas con cargas de trabajo intensivas en datos.
- NVLink, al ofrecer órdenes de magnitud más ancho de banda y menor latencia, permite que la GPU tenga un acceso más fluido a datos en memoria principal o en otras GPUs, sin depender de transferencias explícitas constantes.
Acceso directo y coherente a memoria del CPU
- En arquitecturas NVLink que permiten coherencia, la GPU puede leer/escribir directamente en regiones de memoria principal del sistema como si fuera memoria local. De esta forma, datos no necesitan “copiarse” hacia/desde la VRAM constantemente. Esto reduce la sobrecarga y mejora la eficiencia del sistema.
- Por ejemplo, en el estudio Harnessing Integrated CPU-GPU System Memory for HPC, se analizó el comportamiento del sistema integrado Grace Hopper con coherencia de memoria entre CPU y GPU, encontrando beneficios significativos de rendimiento con poco esfuerzo de adaptación de código.
Posibilitar arquitecturas convergentes y unificadas
- En lugar de ver CPU y GPU como subsistemas aislados con memoria propia, NVLink permite tratarlos como un tejido convergente en el que recursos de memoria y cómputo pueden combinarse y compartirse más estrechamente.
- Esto es particularmente importante para IA de gran escala donde las fronteras entre CPU y GPU deben volverse difusas para optimizar el flujo de datos.
- En el contexto del diseño de superchips o arquitecturas heterogéneas (como Grace + Hopper), NVLink es un pilar de la integración física y lógica del sistema.
Casos de uso destacados
- Entrenamiento de modelos grandes (Deep Learning): cuando un modelo y sus datos exceden la capacidad de memoria de una única GPU, NVLink permite estrategias de “swapping” o migración parcial entre GPU y memoria de sistema con menos penalidad. Por ejemplo, la técnica Large Model Support (LMS) aprovecha conexiones GPU‑CPU de alta velocidad para mover tensores entre memoria de CPU y GPU.
- Simulación científica y HPC: muchas aplicaciones requieren colaboración entre CPU y GPU para etapas diferentes del pipeline; tener acceso rápido y coherente a la memoria compartida mejora el paralelismo y la eficiencia.
- Sistemas heterogéneos y arquitecturas de supercómputo: NVLink permite unir múltiples GPUs y CPUs en una red interna de alta velocidad, reduciendo la latencia de comunicación dentro del nodo.
Comparativa con PCIe y otros enlaces
| Característica | PCIe (actual) | NVLink |
|---|---|---|
| Topología | Bus jerárquico / switched | Punto a punto en malla |
| Latencia | relativamente alta | mucho más baja |
| Ancho de banda | limitado, especialmente en transferencias entre GPU‑GPU | muy alto (varios cientos de GB/s) |
| Coherencia de caché | generalmente no soportada (requiere gestión manual) | puede soportarla entre CPU/GPU |
| Escalabilidad multi-GPU | cada transferencia puede saturar el bus PCIe | con NVSwitch o enlaces múltiples, escalabilidad eficiente |
| Overhead de copia de datos | alto | reducido o prácticamente eliminado si memoria compartida |

Retos, límites y aspectos prácticos
Aunque NVLink ofrece ventajas importantes, no es una panacea. Aquí algunos puntos a tener en cuenta:
Compatibilidad y disponibilidad
- NVLink es una tecnología propietaria de NVIDIA, por lo que solo GPUs y CPUs compatibles (o arquitecturas que integren puertos NVLink) pueden aprovecharlo.
- En el mercado de consumo, soporte de NVLink ha sido reducido: algunas generaciones más recientes de GeForce ya no soportan NVLink Bridges.
- La adopción de NVLink en CPUs de terceros (no NVIDIA) depende de licencias y diseño de hardware. Como vimos, NVIDIA ha comenzado a licenciar puertos NVLink para otros fabricantes.
Uso de recursos y topología óptima
- No basta con conectar con NVLink: la topología (qué GPU/CPU se conecta con qué enlace) debe diseñarse para minimizar congestión y maximizar rutas eficientes.
- Si una conexión permanece infrautilizada o una ruta se convierte en cuello de botella, el rendimiento global puede resentirse.
Overhead de protocolo y eficiencia real
- Aunque los enlaces tienen grandes tasas teóricas, siempre existe overhead de protocolo, control, bits de paridad, corrección de errores, etc.
- En escenarios de uso mixto (acceso frecuente, tráfico disperso), no todo el ancho de banda útil llega al nivel de aplicación.
Seguridad e interferencias por congestión
- Recientemente se han explorado ataques de canal lateral o encubiertos que explotan la congestión o contención en interconexiones de múltiples GPUs (como NVLink) para inferir información o perturbar rendimiento.
- Por lo tanto, en entornos compartidos (multiusuario, nube), es relevante considerar medidas de aislamiento y control de tráfico.
Dependencia del ecosistema de software
- Para sacar provecho de las capacidades de coherencia y acceso compartido de memoria, el software (drivers, runtime, librerías, frameworks) debe estar diseñado para ello. No basta con que el hardware soporte NVLink; la pila de software debe aprovecharla.
- En algunos casos, puede requerirse adaptación de código para usar vistas unificadas de memoria, migración de páginas, optimización de acceso, etc.
Escenarios futuros y proyecciones
Arquitecturas cada vez más convergentes
- Con chips tipo Grace + Hopper, o futuras generaciones que integren CPU y GPU en un solo die (o dies conectados por NVLink‑C2C), la frontera entre CPU y GPU tenderá a desdibujarse.
- El uso de memoria unificada con coherencia de caché a nivel de hardware será clave para simplificar el desarrollo de software y acelerar los flujos de datos.
Integración de NVLink con otros aceleradores
- Puertos NVLink de memoria ya están siendo licenciados a fabricantes externos de CPU o aceleradores (como anunciamos). Esto abre la posibilidad de arquitecturas heterogéneas más flexibles y no limitadas exclusivamente al ecosistema NVIDIA.
- Así, aceleradores especializados (IA, procesadores vectoriales, ASICs) podrían interactuar de forma más directa con GPUs mediante tejido NVLink.
Evolución de las generaciones NVLink y sustitutos
- Las futuras generaciones (por ejemplo, UALink mencionado en algunas fuentes) podrían elevar aún más la señalización de línea y el agrupamiento de enlaces para alcanzar tasas incluso superiores.
- En paralelo, otras tecnologías emergentes de interconexión (como coherencia de memoria distribuida, redes ópticas de chip, interposición a nivel de empaque) podrían competirse o complementar a NVLink en ciertos nichos.
Conclusión
NVLink representa un paso decisivo en la evolución del cómputo acelerado, pasando de una visión de CPU y GPU como subsistemas separados (con costosas transferencias de datos) a una visión integrada de un tejido convergente de cómputo y memoria.
En sistemas modernos, la capacidad de mover datos rápidamente entre CPU y GPU —con coherencia, baja latencia y alto ancho de banda— es cada vez más crítica para explotar todo el potencial de algoritmos intensivos (IA, simulaciones, cómputo heterogéneo). NVLink es uno de los pilares que hace viable esa convergencia a escala.
Por supuesto, su eficacia depende de que el software lo aproveche, que la topología esté bien diseñada, y que el entorno de hardware proporcione compatibilidad. Pero en arquitecturas modernas como Grace Hopper y con licencias de puertos NVLink para terceros, el futuro apunta a que esa frontera se diluya cada vez más.
Preguntas Frecuentes sobre NVLink y por qué importa en la integración GPU‑CPU
1. ¿Qué es NVLink y para qué sirve?
NVLink es una tecnología de interconexión desarrollada por NVIDIA que permite transferencias de datos ultra rápidas entre GPUs y CPUs, superando las limitaciones del bus PCIe tradicional.
2. ¿NVLink reemplaza a PCIe?
No lo reemplaza totalmente, pero lo complementa al ofrecer mayor ancho de banda y menor latencia en escenarios donde se requiere comunicación intensiva entre GPU y CPU o entre múltiples GPUs.
3. ¿Qué ventajas tiene NVLink para la inteligencia artificial?
Permite entrenamiento más eficiente de modelos grandes al facilitar el acceso compartido a la memoria entre CPU y GPU, reduciendo los cuellos de botella en el movimiento de datos.
4. ¿Qué dispositivos o arquitecturas usan NVLink?
GPUs como la NVIDIA A100, H100 y las plataformas Grace Hopper usan NVLink para conectar múltiples GPUs entre sí y con CPUs NVIDIA Grace con memoria compartida.

