Как выбрать GPU-сервер для AI: 5 ключевых критериев
Выбор GPU-сервера для AI — критически важное решение, влияющее на производительность, стоимость и масштабируемость. Разберём 5 ключевых критериев, которые помогут сделать правильный выбор.
1. Количество и модель GPU
Для Training LLM от 7B до 70B параметров минимальная конфигурация — 4× H100 или 8× A100. Для Inference достаточно 1-2 GPU на модель 13B (FP16) или 1 GPU на модель 7B.
- Training 7B: 4× A100 40GB или 1× H100 80GB
- Training 70B: 8× H100 (межсерверное соединение)
- Training 700B+: 32-64× H100 в кластере
- Inference 7B: 1× RTX 4090 или L40S
- Inference 70B: 2-4× H100
2. Объём GPU-памяти
Каждая модель требует память для:
- Весов модели (FP16 = 2 bytes на параметр)
- Активаций и градиентов
- KV-cache (для Inference)
Правило: модель 70B FP16 = 140GB минимум. H200 141GB вмещает её целиком. Для Training нужна память и на градиенты — используйте mixed precision и gradient checkpointing.
3. Интерконнект: NVLink vs PCIe
Для Training в одном сервере NVLink критически важен: 900GB/s (H100 SXM5) vs 128GB/s (PCIe 5.0 x16). Разница в 7x напрямую влияет на скорость multi-GPU training.
- NVLink (SXM): Training, распределённые вычисления, multi-GPU Inference
- PCIe: Inference одной модели, небольшие LLM, экономичный сегмент
4. Охлаждение
TDP GPU H100 = 700W, H200 = 700W, L40S = 300W. При 8 GPU в 4U сервере — до 5600W тепловыделения. Варианты:
- Воздушное: бюджетно до 4× GPU, требует мощную СКВ в ЦОД
- Жидкостное direct-to-chip: оптимально для 4-8× H100, PUE <1.1
- Rear-door CDU: установка в существующую инфраструктуру
5. Бюджет и ROI
Оценка стоимости владения (3 года):
- 8× H100 SXM5 сервер: ~$400,000-600,000
- Электроэнергия (0.10 $/kWh): ~$60,000/год
- Охлаждение: ~$15,000/год
ROI зависит от использования: Internal AI = 6-18 мес; AI-as-a-Service = 12-24 мес.
Рекомендации по сценариям
- AI Startup (Pre-seed): 1× DGX H100, Colab Enterprise, облако
- R&D отдел: 4× H100 SXM5 сервер, воздушное охлаждение
- Production LLM Service: 8× H200, жидкостное охлаждение, кластер
- Enterprise AI: кастомный кластер 32-128× H100