Как выбрать GPU-сервер для AI: 5 ключевых критериев

Выбор GPU-сервера для AI — критически важное решение, влияющее на производительность, стоимость и масштабируемость. Разберём 5 ключевых критериев, которые помогут сделать правильный выбор.

1. Количество и модель GPU

Для Training LLM от 7B до 70B параметров минимальная конфигурация — 4× H100 или 8× A100. Для Inference достаточно 1-2 GPU на модель 13B (FP16) или 1 GPU на модель 7B.

  • Training 7B: 4× A100 40GB или 1× H100 80GB
  • Training 70B: 8× H100 (межсерверное соединение)
  • Training 700B+: 32-64× H100 в кластере
  • Inference 7B: 1× RTX 4090 или L40S
  • Inference 70B: 2-4× H100

2. Объём GPU-памяти

Каждая модель требует память для:

  • Весов модели (FP16 = 2 bytes на параметр)
  • Активаций и градиентов
  • KV-cache (для Inference)

Правило: модель 70B FP16 = 140GB минимум. H200 141GB вмещает её целиком. Для Training нужна память и на градиенты — используйте mixed precision и gradient checkpointing.

3. Интерконнект: NVLink vs PCIe

Для Training в одном сервере NVLink критически важен: 900GB/s (H100 SXM5) vs 128GB/s (PCIe 5.0 x16). Разница в 7x напрямую влияет на скорость multi-GPU training.

  • NVLink (SXM): Training, распределённые вычисления, multi-GPU Inference
  • PCIe: Inference одной модели, небольшие LLM, экономичный сегмент

4. Охлаждение

TDP GPU H100 = 700W, H200 = 700W, L40S = 300W. При 8 GPU в 4U сервере — до 5600W тепловыделения. Варианты:

  • Воздушное: бюджетно до 4× GPU, требует мощную СКВ в ЦОД
  • Жидкостное direct-to-chip: оптимально для 4-8× H100, PUE <1.1
  • Rear-door CDU: установка в существующую инфраструктуру

5. Бюджет и ROI

Оценка стоимости владения (3 года):

  • 8× H100 SXM5 сервер: ~$400,000-600,000
  • Электроэнергия (0.10 $/kWh): ~$60,000/год
  • Охлаждение: ~$15,000/год

ROI зависит от использования: Internal AI = 6-18 мес; AI-as-a-Service = 12-24 мес.

Рекомендации по сценариям

  • AI Startup (Pre-seed): 1× DGX H100, Colab Enterprise, облако
  • R&D отдел: 4× H100 SXM5 сервер, воздушное охлаждение
  • Production LLM Service: 8× H200, жидкостное охлаждение, кластер
  • Enterprise AI: кастомный кластер 32-128× H100