Гайд📅 Май 2025

Как выбрать GPU-сервер для AI: 5 ключевых критериев

Выбор GPU-сервера для AI — критически важное решение, влияющее на производительность, стоимость и масштабируемость. Разберём 5 ключевых критериев, которые помогут сделать правильный выбор.

1. Количество и модель GPU

Для Training LLM от 7B до 70B параметров минимальная конфигурация — 4× H100 или 8× A100. Для Inference достаточно 1-2 GPU на модель 13B (FP16) или 1 GPU на модель 7B.

Training 7B: 4× A100 40GB или 1× H100 80GB
Training 70B: 8× H100 (межсерверное соединение)
Training 700B+: 32-64× H100 в кластере
Inference 7B: 1× RTX 4090 или L40S
Inference 70B: 2-4× H100

2. Объём GPU-памяти

Каждая модель требует память для:

Весов модели (FP16 = 2 bytes на параметр)
Активаций и градиентов
KV-cache (для Inference)

Правило: модель 70B FP16 = 140GB минимум. H200 141GB вмещает её целиком. Для Training нужна память и на градиенты — используйте mixed precision и gradient checkpointing.

3. Интерконнект: NVLink vs PCIe

Для Training в одном сервере NVLink критически важен: 900GB/s (H100 SXM5) vs 128GB/s (PCIe 5.0 x16). Разница в 7x напрямую влияет на скорость multi-GPU training.

NVLink (SXM): Training, распределённые вычисления, multi-GPU Inference
PCIe: Inference одной модели, небольшие LLM, экономичный сегмент

4. Охлаждение

TDP GPU H100 = 700W, H200 = 700W, L40S = 300W. При 8 GPU в 4U сервере — до 5600W тепловыделения. Варианты:

Воздушное: бюджетно до 4× GPU, требует мощную СКВ в ЦОД
Жидкостное direct-to-chip: оптимально для 4-8× H100, PUE <1.1
Rear-door CDU: установка в существующую инфраструктуру

5. Бюджет и ROI

Оценка стоимости владения (3 года):

8× H100 SXM5 сервер: ~$400,000-600,000
Электроэнергия (0.10 $/kWh): ~$60,000/год
Охлаждение: ~$15,000/год

ROI зависит от использования: Internal AI = 6-18 мес; AI-as-a-Service = 12-24 мес.