NVLink vs PCIe 5.0: пропускная способность и стоимость

Выбор между NVLink (SXM форм-фактор) и PCIe 5.0 для GPU-сервера — одно из ключевых технических решений. Разберём цифры и сценарии использования.

Технические характеристики

ПараметрNVLink H100 SXM5PCIe H100Разница
Bandwidth GPU↔GPU900 GB/s
Bandwidth GPU↔CPU128 GB/s128 GB/s=
NVLink hops/peer GPU1 hop
Multi-GPU scaling>90%60-70%+20-30%

Когда NVLink критически важен

  • LLM Training: AllReduce операции между GPU используют NVLink напрямую. При 8× H100 на PCIe — NCCL не может полностью использовать пропускную способность
  • Mixture of Experts (MoE): современные архитектуры (Mixtral 8x7B) требуют интенсивного меж-GPU обмена
  • Multi-node Training: NVLink + InfiniBand = минимальный bottleneck

Когда PCIe достаточен

  • Inference одной модели: данные идут CPU→GPU→CPU, NVLink не используется
  • Stable Diffusion: batch processing, не требует меж-GPU communication
  • Computer Vision: CNN, YOLO — memory-bound, не compute-bound
  • Бюджетный Inference: SDY-421GU-TNXR (4× L40S PCIe) — отличное соотношение цена/performance

Бенчмарк: LLM Training Throughput (TF32, tokens/sec/GPU)

  • Llama 3 70B, 8× H100 NVLink: ~3800 tokens/sec
  • Llama 3 70B, 8× H100 PCIe: ~2800 tokens/sec
  • Разница: +36% при NVLink

Вывод

NVLink SXM5 оправдан для Training и крупных MoE моделей. Для Inference и CV — PCIe серверы (SDY-421GU-TNXR, SDY-4208-I4) обеспечивают лучший ROI при значительно меньшей стоимости.