NVLink vs PCIe 5.0: пропускная способность и стоимость
Выбор между NVLink (SXM форм-фактор) и PCIe 5.0 для GPU-сервера — одно из ключевых технических решений. Разберём цифры и сценарии использования.
Технические характеристики
| Параметр | NVLink H100 SXM5 | PCIe H100 | Разница |
|---|---|---|---|
| Bandwidth GPU↔GPU | 900 GB/s | — | — |
| Bandwidth GPU↔CPU | 128 GB/s | 128 GB/s | = |
| NVLink hops/peer GPU | 1 hop | — | — |
| Multi-GPU scaling | >90% | 60-70% | +20-30% |
Когда NVLink критически важен
- LLM Training: AllReduce операции между GPU используют NVLink напрямую. При 8× H100 на PCIe — NCCL не может полностью использовать пропускную способность
- Mixture of Experts (MoE): современные архитектуры (Mixtral 8x7B) требуют интенсивного меж-GPU обмена
- Multi-node Training: NVLink + InfiniBand = минимальный bottleneck
Когда PCIe достаточен
- Inference одной модели: данные идут CPU→GPU→CPU, NVLink не используется
- Stable Diffusion: batch processing, не требует меж-GPU communication
- Computer Vision: CNN, YOLO — memory-bound, не compute-bound
- Бюджетный Inference: SDY-421GU-TNXR (4× L40S PCIe) — отличное соотношение цена/performance
Бенчмарк: LLM Training Throughput (TF32, tokens/sec/GPU)
- Llama 3 70B, 8× H100 NVLink: ~3800 tokens/sec
- Llama 3 70B, 8× H100 PCIe: ~2800 tokens/sec
- Разница: +36% при NVLink
Вывод
NVLink SXM5 оправдан для Training и крупных MoE моделей. Для Inference и CV — PCIe серверы (SDY-421GU-TNXR, SDY-4208-I4) обеспечивают лучший ROI при значительно меньшей стоимости.