NVIDIA представила новый ускоритель. Но есть нюанс
Для энтузиастов это отличный анонсЭтот ускоритель предназначен для повышения производительности в вычислительных центрах данных, особенно при работе с большими языковыми моделями (LLM).
По данным NVIDIA, ускоритель GB200 NVL2 обеспечивает пятикратное увеличение скорости вывода информации для модели Llama 3 по сравнению с предшественником H100.
При поиске в базе векторов скорость увеличивается в девять раз, а общая производительность обработки данных превосходит обычные процессоры в 18 раз.
GB200 NVL2 поддерживает до 960 ГБ оперативной памяти LPDDR5X с пропускной способностью до 1024 ГБ/с и до 384 ГБ видеопамяти с пропускной способностью до 16 ТБ/с.
Производительность ускорителя включает показатели: FP4 (тензорные ядра) достигает 40 PFLOPS, FP8/FP6 (тензорные ядра) – 20 PFLOPS, INT8 (тензорные ядра) – 20 POPS, FP16/BF16 (тензорные ядра) – 10 PFLOPS, TF32 (тензорные ядра) – 5 PFLOPS, FP32 – 180 TFLOPS, FP64/FP64 (тензорные ядра) – 90 TFLOPS.
Одной из ключевых функций новинки является технология кэширования ключевого значения (KV), которая улучшает скорость вывода информации за счет сохранения контекста и истории запросов.
Использование высокоскоростных межсоединений NVLink-C2C между базовым и графическим процессорами обеспечивает в семь раз более высокую скорость передачи данных по сравнению с PCIe.