Аппаратное обеспечение для обучения LLM: от 7B до 700B параметров
Обучение больших языковых моделей (LLM) требует значительных вычислительных ресурсов. В этой статье — практический расчёт необходимого оборудования для моделей от 7B до 700B параметров.
Формула расчёта вычислительных затрат
Для approximate training compute используется公式:
FLOPs ≈ 6 × N × D
где N = число параметров, D = количество обработанных токенов (training tokens).
Для Chinchilla-optimal scaling: D ≈ 20 × N
Расчёт по размеру модели
| Модель | Параметры | Training Tokens | GPU × H100 | Время (8×H100) |
|---|---|---|---|---|
| Llama 3 8B | 8B | 15T | 8× H100 | ~4 часа |
| Llama 3 70B | 70B | 15T | 64× H100 | ~84 часа |
| Mistral 8x22B | 39B | 8T | 32× H100 | ~36 часов |
| GPT-4 (эстимация) | ~1.8T | ~13T | ~800× H100 | ~90 дней |
Оптимальные серверы для LLM Training
- 7B-13B: Sanduoyun SDY-4208-I4 (4× L40S или A100) — от $50,000
- 30B-70B: Sanduoyun SDY-5126-TNRT (8× H100 SXM5) — от $350,000
- 100B+: Кластер SDY-5126-TNRT × 4-16 узлов — от $1.5M
Сеть и межсерверное соединение
Для multi-node training необходима высокоскоростная сеть:
- InfiniBand HDR (400-800Gb/s): оптимально, NVLink-like latency
- RoCE v2: компромисс стоимости и производительности
- 100GbE: минимально для 8-16 узлов
Хранилище для Dataset
Common Crawl (~45TB сжатый), FineWeb (~15TB). Требования:
- Пропускная способность: >10GB/s для Data Loading
- All-flash NVMe: Sanduoyun SDY-S4124GS (PCIe 5.0)
- Checkpoint saving: Ceph/Alluxio distributed storage