Аппаратное обеспечение для обучения LLM: от 7B до 700B параметров

Обучение больших языковых моделей (LLM) требует значительных вычислительных ресурсов. В этой статье — практический расчёт необходимого оборудования для моделей от 7B до 700B параметров.

Формула расчёта вычислительных затрат

Для approximate training compute используется公式:

FLOPs ≈ 6 × N × D

где N = число параметров, D = количество обработанных токенов (training tokens).

Для Chinchilla-optimal scaling: D ≈ 20 × N

Расчёт по размеру модели

МодельПараметрыTraining TokensGPU × H100Время (8×H100)
Llama 3 8B8B15T8× H100~4 часа
Llama 3 70B70B15T64× H100~84 часа
Mistral 8x22B39B8T32× H100~36 часов
GPT-4 (эстимация)~1.8T~13T~800× H100~90 дней

Оптимальные серверы для LLM Training

  • 7B-13B: Sanduoyun SDY-4208-I4 (4× L40S или A100) — от $50,000
  • 30B-70B: Sanduoyun SDY-5126-TNRT (8× H100 SXM5) — от $350,000
  • 100B+: Кластер SDY-5126-TNRT × 4-16 узлов — от $1.5M

Сеть и межсерверное соединение

Для multi-node training необходима высокоскоростная сеть:

  • InfiniBand HDR (400-800Gb/s): оптимально, NVLink-like latency
  • RoCE v2: компромисс стоимости и производительности
  • 100GbE: минимально для 8-16 узлов

Хранилище для Dataset

Common Crawl (~45TB сжатый), FineWeb (~15TB). Требования:

  • Пропускная способность: >10GB/s для Data Loading
  • All-flash NVMe: Sanduoyun SDY-S4124GS (PCIe 5.0)
  • Checkpoint saving: Ceph/Alluxio distributed storage