Компания NVIDIA начала год с анонса нового поколения видеокарт GeForce RTX 50-й серии на архитектуре Blackwell. Старшие модели GeForce RTX 5090 и GeForce RTX 5080 уже поступили в продажу, сегодня к ним присоединится GeForce RTX 5070 Ti, а в марте на рынок выйдет GeForce RTX 5070. Данное поколение уже вызвало определенные споры. С одной стороны — много новых революционных технологий, DLSS 4 с улучшенным масштабированием и генерацией до четырех кадров; с другой стороны — высокое энергопотребление, высокие цены и небольшое преимущество в обычных играх с растеризацией. Действительно, новая серия GeForce оказалось прорывной не во всем. Закон Мура сейчас серьезно замедлился, эволюция за счет освоения новых техпроцессов уже не работает, невозможно постоянно наращивать количество транзисторов и получать быстрые холодные видеокарты. И хотя инженеры NVIDIA постарались достичь лучшей энергоэффективности в новом поколении, главное преимущество архитектуры NVIDIA Blackwell в оптимизациях для нейронных нагрузок и тех перспективах, что она открывает для дальнейшего развития графики в играх.

Главные особенности архитектуры NVIDIA Blackwell

  • Новые функции в SM и вычислительных ядрах для нейронных шейдеров, в том числе удвоение пропускной способности целочисленных вычислений за такт
  • Новые функции Max-Q для лучшей энергоэффективности и более тонкого управления питанием разных блоков GPU
  • Новые ядра RT 4-го поколения для трассировки лучей и нейронного рендеринга
  • Новые тензорные ядра 5-го поколения с повышенной производительностью и поддержкой новых типов вычислений FP4
  • Новая технология DLSS 4 с многокадровой генерацией
  • Нейронные шейдеры — новый тип шейдеров, который открывает новую эру графических инноваций
  • AI Management Processor — дополнительный сопроцессор для управления задачами ИИ
  • Новая скоростная память GDDR7 с высокой пропускной способностью
  • Технология RTX Mega Geometry направленная на увеличение геометрии в сценах с трассировкой лучей

Все видеокарты получили обновленные блоки кодирования/декодирования видео. Улучшен механизм управления Boost. Также новое поколение поддерживает интерфейс PCI Express 5.0. Обо всем этом мы расскажем ниже.

На данный момент анонсировано четыре видеокарты — GeForce RTX 5090, RTX 5080, RTX 5070 Ti и RTX 5070.

Архитектура NVIDIA Blackwell и GPU GB202

Новая архитектура получила название в честь американского математика Дэвида Гарольда Блэквелла, известного работами в области математической статистики. Рассмотрим основные архитектурные изменения на примере старшего графического процессора GB202, который лег в основу флагмана GeForce RTX 5090. Это очень большой и сложный чип, который насчитывает 92 миллиарда транзисторов. Изготовляется он на заводах TSMC по техпроцессу 4N, который является специальной оптимизированной версией технологии 5 нм. На этом же техпроцессе выпускалось и прошлое поколение GPU Ada Lovelace для GeForce RTX 40. При этом плотность транзисторов у нового GPU составляет 122,9 миллиона на кв. мм, а у предшественника 125,3 миллиона на кв. мм.

Общая структура GB202 напоминает прошлый чип AD102. Это 12 кластеров GPC, один из которых у GeForce RTX 5090 деактивирован. Традиционно процессор идет с частично отключенными блоками, что позволяет использовать кристаллы с небольшими дефектами и повышает общий процент пригодных к использованию чипов. На уровне глобального управления потоками кроме GigaThread Engine появился AI Management Processor. Также у графического процессора есть Optical Flow Engine, который внедрили в прошлом поколении.

Кластер GPC является основным высокоуровневым блоком во всех графических процессорах NVIDIA. Внутри одного кластера 8 блоков TPC и разделенный на два раздела движок растеризации по 8 блоков ROP в каждом. Каждый TPC содержит два мультипроцессора SM с основными вычислительными ядрами и PolyMorph Engine.

SM является главным компонентом архитектуры, играя основную роль в параллельной обработке. Каждый SM содержит 128 ядер CUDA, которые организованы в четыре группы со своими текстурными блоками, тензорными блоками и регистрами, плюс кэш L1 и планировщик с диспетчером потоков у каждой из 4 групп. Каждый SM содержит новое мощное ядро RT для операций трассировки.

Ядра CUDA стали более универсальными. Они могут работать как в режиме FP32, так и в INT32 в рамках одного тактового цикла. В прошлом поколении лишь половина ядер могла работать в INT32. Благодаря этому пропускная способность в режиме INT32 выросла вдвое. Современные GPU комбинируют разные типы нагрузок, и эта универсальность является ответом на востребованность разных типов вычислений.

Полная конфигурация GB202 насчитывает 192 SM, 24576 ядра CUDA, 192 ядра RT, 768 тензорных блока и 768 текстурных блока, плюс кэш L2 объемом в 128 МБ. Но для GeForce RTX 5090 идет вариант со 170 активными SM, что дает 21760 ядер CUDA, 680 тензорных ядер, 170 ядер RT и 680 текстурных ядер. И это почти на 33% больше количества вычислительных блоков у GeForce RTX 4090. Но обе видеокарты сохранили 176 ROP. Каждый SM по-прежнему оснащен 128 КБ кэш-памяти L1, а общий кэш L2 у RTX 5090 96 МБ вместо 72 МБ у RTX 4090.

Процессор GB202 получил 16 32-битных контроллера памяти, что обеспечивает передачу данных по общей шине разрядностью 512 бит. Это же позволило оснастить GeForce RTX 5090 рекордным объем видеопамяти в 32 ГБ. Все новые видеокарты перешли на память GDDR7. Это новый стандарт памяти с технологией импульсно-амплитудной модуляции PAM3 с тремя уровнями сигнала, что позволяет кодировать 1,5 бита за такт. В памяти GDDR6X использовался метод PAM4, но повышение частоты упиралось в шум и дополнительные сложности в передаче сигнала. GDDR7 является компромиссным вариантом благодаря переработанной архитектуре тактирования и улучшенной подготовке ввода-вывода, плюс лучшая энергоэффективность. В итоге модули памяти GDDR7 у GeForce RTX 5090 обеспечивают скорость передачи сигнала 28000 Гбит/с при общей пропускной способности видеокарты 1792 ГБ/с. Для GeForce RTX 5080 используется еще более быстрая память 30000 Гбит/с, но в сочетании с шиной 256 бит.

Графические процессоры Blackwell получили улучшенные энергосберегающие механизмы и более гибкое управление Boost-частотами. При этом заявленное значение Boost Clock на 100 МГц ниже, чем у старого флагмана — 2407 МГц. Общая мощность видеокарты выросла до рекордных 575 Вт.

Для наглядности все данные по характеристикам GeForce RTX 5090 приведены вместе с параметрами старых флагманских моделей в одной таблице.

Характеристики GeForce RTX 5090

 

GeForce RTX 5090

GeForce RTX 4090

GeForce RTX 3090 Ti

GeForce RTX 3090

GeForce RTX 2080 Ti

Архитектура

Blackwell

Ada Lovelace

Ampere

Ampere

Turing

Ядро

GB202

AD102

GA102

GA102

TU102

Техпроцесс, нм

TSMC 4N (5 нм)

TSMC 4N (5 нм)

Samsung 8N

Samsung 8N

TSMC 12FFN

Количество транзисторов, млн. шт

92200

76300

28300

28300

18600

Площадь ядра, кв. мм

750

(761,56)

609

628

628

754

GPC

11

11

7

8

6

TPC

85

64

41

41

36

SM

170

128

84

82

68

CUDA-ядра

21760

16384

10752

10496

4352

Тензорные ядра

680 (5-е поколение)

512 (4-е поколение)

336 (3-е поколение)

328 (3-е поколение)

 544 (2-е поколение)

Ядра RT

170 (4-е поколение)

128 (3-е поколение)

84 (2-е поколение)

82 (2-е поколение)

 68 (1-е поколение)

Текстурные блоки TMU

680

512

336

328

272

Блоки растеризации ROP

176

176

112

112

88

FP32 FLOPS

104,8

82,6

40

35,6

13,4

Tensor TOPS FP16

838

(3352 FP4)

661

(1321 FP8)

320

285

108

RT FLOPS

317,5

191

84

69,5

69,5

L2 кэш

96 МБ

72 МБ

6 МБ

6 МБ

5,5 MB

Частота ядра (Base Clock), МГц

2017

2235

1560

1395

1350

Частота ядра (Boost Clock), МГц

2407

2520

1860

1695

1695

Шина памяти, бит

512

384

384

384

384

Тип памяти

GDDR7

GDDR6X

GDDR6X

GDDR6X

GDDR6

Частота памяти (Data rate)

28000 Гбит/с

21000 Гбит/с

21000 Гбит/с

19500 Гбит/с

14000 Гбит/с

Объём памяти, ГБ

32

24

24

24

11

ПСП памяти

1792 ГБ/с

1008 ГБ/с

1008 ГБ/с

936 ГБ/с

616 ГБ/с

Интерфейс

PCI-E 5.0

PCI-E 4.0

PCI-E 4.0

PCI-E 4.0

PCI-E 4.0

Мощность TDP, Вт

575

450

450

350

250

При беглом взгляде самые серьезные изменения заметны в подсистеме памяти. Но внутри вычислительных блоков тоже присутствуют есть важные изменения.

Тензорные ядра 5-го поколения

Blackwell использует тензорные ядра 5-го поколения. Впервые эти аппаратные блоки появились в специализированных ускорителях вычислений Volta в 2017 году, а второе поколение было внедрено в видеокарты Turing (GeForce RTX 20), где также впервые появились и ядра для ускорения рейтрейсинга. Первые тензорные ядра были рассчитаны на операции умножения матриц в формате FP16. Но по мере совершенствования и развития машинного обучения совершенствовались и эти блоки, получая поддержку новых востребованных форматов для ускорения общего потока вычислений. В Blackwell добавлена поддержка операций FP4 и FP6, а также новый FP8 Transformer Engine второго поколения, аналогичный тому, что используется в GPU для центров обработки данных. Новые форматы позволяют использовать более низкий уровень квантования, уменьшая размеры моделей ИИ и повышая скорость расчетов. И благодаря внедрению FP4 компания NVIDIA заявляет о совокупной пиковой производительности в операциях ИИ до 3352 TOPS (триллион операций в секунду). Для сравнения, GeForce RTX 4090 в FP8 обеспечивает 1321 TOPS. При работе в формате FP16 пиковые показатели этих же видеокарт 838 и 661 TOPS соответственно.

RT-ядра 4-го поколения

Blackwell использует ядра RT 4-го поколения, которые стали еще мощнее и получили некоторые новые функции. Они содержат вычислительные блоки для ускорения основного алгоритма Bounding Volume Hierarchy (BVH), Ray-Triangle Intersection для просчета пересечения луча с треугольником и ограничивающим прямоугольником. Также RT получил Opacity Micromap Engine для оптимизации просчета геометрии и работы новой технологии RTX Mega Geometry. Плюс Triangle Cluster Compression Engine для оптимизации работы с геометрией и Linear Swept Spheres для ускорения трассировки для тонкой геометрии, например, для шерсти и волос.

RTX Mega Geometry

Технология RTX Mega Geometry является одним из важных нововведений, она позволяет выполнять сложную трассировку современным движкам с большим уровнем детализации, например, для Unreal Engine 5 с Nanite. Это оптимизирует обработку сложных сцен и позволит повысить качество теней, отражений и непрямого освещения. Современные движки используют кластерную систему загрузки для изменения LOD, что требует частого изменения сетки геометрии при просчете иерархии BVH для трассировки. В режиме реального времени при сложной геометрии это создает невероятно высокую нагрузку. Mega Geometry оптимизирует процесс, работая с кластерами треугольников в качестве первоначальных примитивов, а потом использует эти данные для построения конечной более детальной структуры BVH. Также GPU лучше управляет всем процессом, минимизируя обращения к CPU.

Специально для сверхсложных сцен предлагается вариант Mega Geometry со структурами Partitioned Top Level Acceleration Structure, где оптимизация базируется на факте того, что большинство объектов в сцене статичны от одного кадра к другому. Это позволяет работать со статичными и динамичными секторами кадра.

Также Mega Geometry позволяет реализовать и другие механизмы ускорения трассировки для геометрических методов — например, ускорение обработки поверхностей с иерархическим разбиением (Subdivision Surfaces).

Mega Geometry состоит из новых расширений API RTX, определенных оптимизаций в ядрах RT Blackwell и на уровне драйвера. Новые функции и структуры PTLAS поддерживаются в наборе инструкций DirectX 12 (DXR), Vulkan и OptiX 9.0. А новые тензорные ядра специально проектированы для Mega Geometry.

Shader Execution Reordering

В архитектуре Blackwell улучшены механизмы Shader Execution Reordering (SER), что впервые внедрены в Ada Lovelace. SER 2.0 улучшает распределение вычислительных потоков для максимальной загрузки GPU в приложениях с разным типом нагрузок, включая более эффективное распределение задач для тензорных ядер. Упоминается, что новая логика SER работает в два раза эффективнее.

AI Management Processor

Выше мы упоминали о внедрении AI Management Processor (AMP). Это программируемых планировщик для более эффективного управления разным типом нагрузок в масштабах всего GPU. Аппаратно он реализован в виде отдельного сопроцессора RISC-V, обеспечивая более быстрое планирование контекстов графического процессора с меньшей задержкой, чем предыдущие методы. AMP берет на себя часть задач планирования, которые ранее выполнялись на CPU. Такое разрешение GPU управлять собственной очередью задач может привести к меньшей задержке из-за снижения количества двусторонних коммуникаций между графическим процессором и центральным процессором. Это улучшает многозадачность при работе нескольких приложений, а и в играх может обеспечить более плавную частоту кадров.

Улучшенный кодировщик NVENC и вывод видео

Серьезные изменения в блоках кодирования/декодирования видео. Все прошлые GeForce поддерживали стандарт кодирования цвета 4:2:0. Blackwell поддерживает цветовую субдискретизацию 4:2:2, что ранее было доступно лишь в профессиональных решениях. Вместо хранения цвета в виде значений красного, зеленого и синего (RGB), цвет сохраняется как яркость (Y), синяя разница цветности (U) и красная разница цветности (V). Формат кодирования YUV 4:4:4 требует большой пропускной способности, а файлы занимают больший объем. Формат используется в профессиональной среде, в том числе он распространен в профессиональных камерах. Такое кодирование полезно для контента HDR и для сохранения мелких деталей на видео.

Обновлены блоки NVENC для аппаратного кодирования видео обновлены до 9-го поколение. Кроме нового цветового формата они также предложат улучшение качества работы с AV1 и HEVC на 5%, поддержку нового режима AV1 Ultra High Quality (UHQ). Аппаратные декодеры NVENC обновлены до 6-го поколения, предлагая полную поддержку H.264 и HEVC 4:2:2 и повышение скорости работы с H.264. При этом GeForce RTX 5090 насчитывает три кодера и два декодера, ускоряя обработку видео.

Разница в скорости экспорта видео может быть до четырёх раз, если сравнивать с GeForce RTX 3090, который имеет один кодировщик.

 

GeForce RTX 5090

GeForce RTX 4090

GeForce RTX 3090

Аппаратный кодировщик видео 

3 x NVENC (9th Gen)

2 x NVENC (8th Gen)

1 x NVENC (7th Gen)

Аппаратный декодер видео 

2 x NVDEC (6th Gen)

1 x NVDEC (5th Gen

1 x NVDEC (5th Gen)

Видеокарты оснащены DisplayPort 2.1b с пропускной способность до 80 Гбит/с и поддержкой режима передачи UHBR 20 (сверхвысокая скорость данных 20 Гбит/с на линию). DisplayPort 2.1b UHBR 20 позволяет запускать дисплеи с высоким разрешением, используя максимально возможные частоты обновления: 8K (7680x4320) @ 165 Гц (требуется DSC) и 4K (3840x2160) @ 480 Гц (требуется DSC). Для высоких скоростей соединения требуется сертифицированный кабель DP80LL.

Управление питание и улучшения Max-Q

Архитектура Blackwell получила важные улучшения в наборе технологий Max-Q, включая изменения в механизмах управлением питания и переключением частот. Плюс энергоэффективный режим работы памяти GDDR7, быстрая отзывчивость при переходе в режим сна и технология DLSS 4, которая «экономит» ресурсы чипа, генерируя дополнительные кадры.

Это первое столь серьезное изменения в архитектуре NVIDIA за 10 лет. Новая система управления питанием позволяет раздельно регулировать напряжения в разных сегментах чипа и отключать их в моменты небольшого простоя, экономя энергию. Это снижает общее энергопотребление чипа в режиме ожидания и при невысокой изменчивой нагрузке. И это крайне важно для мобильных GPU, особенно при работе от аккумулятора.

Чип быстрее переключается в состояние с низким потреблением энергии. Blackwell в 10 раз быстрее входит в состояние глубокого сна чем Ada, что позволяет значительно экономить энергию в состоянии сна с самым низким энергопотреблением, обеспечивая дополнительную экономии энергии.

Ускорен механизм переключения частот. Теперь частоты GPU переключаются в 1000 раз быстрее, чем в прошлых поколениях. Благодаря этому Blackwell быстрее реагирует на изменчивые динамические нагрузки, повышая или понижая таковую частоту. Это позволяет лучше раскрыть весь потенциал GPU в рамках заданного лимита мощности и быстрее переходить в энергосберегающие режимы при низкой нагрузке.


Страница 1 из 3

Другие материалы в этой категории: « Трассировка лучей в Xuan-Yuan Sword VII
Другие материалы в этой категории: « Трассировка лучей в Xuan-Yuan Sword VII

О проекте

Информационный портал Nvplay.ru посвящен электронным технологиям и компьютерной индустрии с акцентом на продукции NVIDIA. В центре нашего внимания видеокарты и компьютерные комплектующие, игры и игровые устройства, сопутствующее программное обеспечение и новые технологии.

Правила сайта NVPLAY.RU

Контакты

Сотрудничество, размещение рекламы и общие вопросы:

  • Email Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Для пресс-релизов и новостей:

  • Email Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Мы в соцсетях

Следите за нами в социальных сетях