Технологии📅 Май 2025

NVLink vs PCIe 5.0: пропускная способность и стоимость

Выбор между NVLink (SXM форм-фактор) и PCIe 5.0 для GPU-сервера — одно из ключевых технических решений. Разберём цифры и сценарии использования.

Технические характеристики

Параметр	NVLink H100 SXM5	PCIe H100	Разница
Bandwidth GPU↔GPU	900 GB/s	—	—
Bandwidth GPU↔CPU	128 GB/s	128 GB/s	=
NVLink hops/peer GPU	1 hop	—	—
Multi-GPU scaling	>90%	60-70%	+20-30%

Когда NVLink критически важен

LLM Training: AllReduce операции между GPU используют NVLink напрямую. При 8× H100 на PCIe — NCCL не может полностью использовать пропускную способность
Mixture of Experts (MoE): современные архитектуры (Mixtral 8x7B) требуют интенсивного меж-GPU обмена
Multi-node Training: NVLink + InfiniBand = минимальный bottleneck

Когда PCIe достаточен

Inference одной модели: данные идут CPU→GPU→CPU, NVLink не используется
Stable Diffusion: batch processing, не требует меж-GPU communication
Computer Vision: CNN, YOLO — memory-bound, не compute-bound
Бюджетный Inference: SDY-421GU-TNXR (4× L40S PCIe) — отличное соотношение цена/performance

Бенчмарк: LLM Training Throughput (TF32, tokens/sec/GPU)

Llama 3 70B, 8× H100 NVLink: ~3800 tokens/sec
Llama 3 70B, 8× H100 PCIe: ~2800 tokens/sec
Разница: +36% при NVLink

Вывод

NVLink SXM5 оправдан для Training и крупных MoE моделей. Для Inference и CV — PCIe серверы (SDY-421GU-TNXR, SDY-4208-I4) обеспечивают лучший ROI при значительно меньшей стоимости.