AI Training📅 Май 2025

Аппаратное обеспечение для обучения LLM: от 7B до 700B параметров

Обучение больших языковых моделей (LLM) требует значительных вычислительных ресурсов. В этой статье — практический расчёт необходимого оборудования для моделей от 7B до 700B параметров.

Формула расчёта вычислительных затрат

Для approximate training compute используется公式:

FLOPs ≈ 6 × N × D

где N = число параметров, D = количество обработанных токенов (training tokens).

Для Chinchilla-optimal scaling: D ≈ 20 × N

Расчёт по размеру модели

Модель	Параметры	Training Tokens	GPU × H100	Время (8×H100)
Llama 3 8B	8B	15T	8× H100	~4 часа
Llama 3 70B	70B	15T	64× H100	~84 часа
Mistral 8x22B	39B	8T	32× H100	~36 часов
GPT-4 (эстимация)	~1.8T	~13T	~800× H100	~90 дней

Оптимальные серверы для LLM Training

7B-13B: Sanduoyun SDY-4208-I4 (4× L40S или A100) — от $50,000
30B-70B: Sanduoyun SDY-5126-TNRT (8× H100 SXM5) — от $350,000
100B+: Кластер SDY-5126-TNRT × 4-16 узлов — от $1.5M

Сеть и межсерверное соединение

Для multi-node training необходима высокоскоростная сеть:

InfiniBand HDR (400-800Gb/s): оптимально, NVLink-like latency
RoCE v2: компромисс стоимости и производительности
100GbE: минимально для 8-16 узлов

Хранилище для Dataset

Common Crawl (~45TB сжатый), FineWeb (~15TB). Требования:

Пропускная способность: >10GB/s для Data Loading
All-flash NVMe: Sanduoyun SDY-S4124GS (PCIe 5.0)
Checkpoint saving: Ceph/Alluxio distributed storage