Версия для печати

NVIDIA на конференции GTC 2017 представила новый специализированный ускоритель вычислений Tesla V100 на базе новой архитектуры Volta. Новый продукт будет выпущен в двух вариантах — на отдельной плате с возможностью коммутации через скоростной интерфейс NVLink и с шиной PCI-Express для установки в рабочие станции. Подобные устройства найдут применение в высокопроизводительных системах, суперкомпьютерах, системах искусственного интеллекта и глубокого обучения.

Основной Tesla V100 стал процессор GV100, который является вершиной инженерной мысли NVIDIA. На разработку чипа было потрачено около 3 миллиардов долларов. Его структура идентична устройству GPU прошлых поколений. Он состоит из шести кластеров GPC по 14 мультипроцессорных массива SM, организованных по две в одном блоке TPC.

Внутри каждого мультипроцессора четыре массива обработки данных. Есть отдельные ядра CUDA для вычислений FP32 и FP64. При 80 SM у процессора его общий потенциал — 5120 ядра FP32 в сочетании с 2560 ядрами для FP64-вычислений. И новые ядра для FP64 могут работать в более простом режиме обработки 32/16 или даже 8-разрядных операций. Текстурных блоков TMU у нового процессора 320. На блок-схеме вы можете видеть совершенно новые блоки Tensor core. Они выполняют специализированные математические операции, связанные с нейронные сетями и глубинным обучением. Их по 8 на SM и 640 на весь GPU.

Заявлено, что Tesla V100 будет на 50% быстрее Tesla P100. Он обеспечит до 15 TFLOP/s в режиме FP32 и до 7,5 TFLOP/s в вычислениях FP64. Для сравнения: у Tesla P100 это 10,6 TFLOP/s и 5,3 TFLOP/s. Тензорные ядра обеспечивают эффективную производительность на уровне 120 TFLOP/s для выполнения специализированных задач обучения нейронных сетей. Новая архитектура GV100 имеет серьезный уклон в сторону специализированных вычислений и нейронных сетей. Потребительская графика для игровых устройств не требует столь сложной структуры. Поэтому мы не увидим каких-то обычных устройств для массового потребителя на таком чипе, как это было и в нынешнем поколении. А вот упрощенная версия GV100 без тензорных ядер и отдельных ядер под FP64 может стать основной для GPU под обычные видеокарты.

Новый чип Volta оснащается скоростной стековой памятью HBM2 с пропускной способностью 1 ТБ/с, которая обеспечивается 4096-битной шиной при частоте модулей памяти 1 ГГц. Объем памяти 16 ГБ. Появление потребительских решений с HBM2 тоже под вопросом. Мы так и не увидели таких вариантов в нынешнем поколении Pascal. Вероятно, не будет их и на базе Volta. Скорее всего, для массовых решений производитель ограничиться GDDR5X и памятью GDDR6, которая должна появиться в ближайшее время. Производство HBM2 требует размещения стеков памяти на одной подложке с GPU, что связано с высокими затратами. Сам чип будет производиться по новому 12-нм техпроцессу. Вместе с модулями памяти все устройство насчитывает 21,1 миллиарда транзисторов, а общая площадь составит 815 мм².

Анонс Tesla V100 ознаменует постепенный переход на новое поколение и в других областях. Пока речь идет исключительно о специализированном устройстве с серьезной оптимизацией под нейронные сети. О простых графических ускорителях пока рано говорить, но какие-то новые GeForce GTX точно будут представлены уже в этом году.

По материалам TechPowerUp