Жизненный цикл графических ускорителей Pascal оказался довольно долгим. И у старших GeForce GTX за два года так и не появилось достойных конкурентов с стороны AMD. NVIDIA не спешила обновлять модельный ряд даже после запуска новой архитектуры Volta для специализированных ускорителей вычислений. Единственным игровым продуктом в этом семействе стала видеокарта TITAN V. Полноценный старт нового семейства GeForce на совершенно новой архитектуре Turing состоялся лишь этой осенью. На данный момент представлено три модели — GeForce RTX 2080 Ti, GeForce RTX 2080 и GeForce RTX 2070, вскоре будут представлены и другие решения. Все эти видеокарты мы рассмотрим в отдельных обзорах с практическими тестами в играх. В данном материале поговорим о технических и архитектурных нюансах.

GPU Turing и характеристики GeForce RTX

Архитектура Turing принесла серьезные изменения и ряд инноваций, расширяющих возможности компьютерной графики. Само название видеокарт NVIDIA впервые за долгие годы было изменено с GeForce GTX на GeForce RTX, чтобы подчеркнуть поддержку технологии трассировки лучей NVIDIA RTX в новом поколении. Кроме трассировки, которая у всех на слуху, новые GPU получили важные улучшения и для станлдартного рендеринга. Расширены возможности применения технологий глубокого обучения. А референсные видеокарты Founders Esition вышли на новый инженерный уровень, получив более качественное охлаждение.

Каждая из трех представленных видеокарт использует свой GPU. Это нестандартный подход. Обычно в старшем сегменте мы видим по две-три модели на базе одного GPU, где меняется лишь конфигурация активных вычислительных блоков. И особняком стоит флагманская видеокарта с самым сложным чипом. В этот раз им является процессор TU102. Он имеет знакомую кластерную структуру. Все блоки организованы в шесть крупных кластеров GTC. В рамках кластера вычислительные боки сгруппированы в шесть текстурно-процессорных кластеров TPC, каждый по два мультипроцессора SM. Непосредственно SM насчитывает 64 минимальных вычислительных единицы — ядра CUDA. При 72 SM старший процессор насчитывает 4608 ядер CUDA и 288 текстурных блоков ROP.

Однако топовая видеокарта GeForce RTX 2080 Ti оснащается урезанным TU102, где отключено четыре SM. Поэтому карта оперирует 4352 ядрами CUDA при 272 текстурных блоках. Также в ее активе 544 тензорных ядра и 68 ядра RT для трассировки лучей. Аналогичная ситуация была с GeForce GTX 1080 Ti, где GPU GP102 тоже работал в неполной конфигурации. Полноценная версия TU102 стала основной для профессионального ускорителя Quadro RTX 6000 и для TITAN RTX. Если сравнивать GeForce RTX 2080 Ti с GeForce GTX 1080 Ti, то мы имеем 4352 вместо 3584 потоковых процессоров, то есть прирост вычислительной мощности в любом случае будет внушительный. Процессор TU102 работает с памятью через 12 контроллеров разрядностью по 32 бита, т.е. общая разрядность шины 384 бит. GeForce RTX 2080 Ti работает на 352-битной шине с памятью GDDR6 объемом 11 ГБ. В сравнении со старым поколением заметно вырост объем кэша L2. У GeForce RTX 2080 Ti кэш L2 5632 КБ, а полная версия GPU оперирует 6 МБ. У GeForce GTX 1080 Ti кэш меньше 3 МБ.

TU102

Процессор изготовляется по новому 12-нм техпроцессу. Кристалл TU102 довольно крупный. Его площадь 754 мм², что на 60% крупнее кристалла GP102. При этом новый чип насчитывает 18,6 млрд. транзисторов против 12 млрд. у старого топового процессора.

Следующим в иерархии является процессор TU104, который задействован в GeForce RTX 2080. Он сохранил шесть кластеров GPC, но в конфигурации по четыре TPC на кластер. Обычно кластерная структура для старших GPU неизменна, но в новом семействе возможны разные комбинации. При 48 SM процессор TU104 насчитывает 3072 ядер CUDA и 192 текстурных блока. Однако и тут не обошлось без упрощений, для GeForce RTX 2080 отключено два SM, поэтому активно 2944 ядра CUDA и 184 ROP, плюс 368 тензорных ядра и 46 RT-core. Процессор сообщается с памятью GDDR6 по 256-битной шине. Объем памяти 8 ГБ, что на уровне GeForce GTX 1080. Кэш L2 4 МБ, что выше чем у GP102 (GeForce GTX 1080 Ti).

TU104

По характеристикам GeForce RTX 2080 напоминает промежуточный вариант между GeForce GTX 1080 и GeForce GTX 1080 Ti, но по уровню быстродействия соперничает со старшей видеокартой Pascal. Процессор TU104 насчитывает 13,2 млрд. транзисторов при площади кристалла 545 мм². Это более сложный и более крупный чип на фоне GP102. И в такой ситуации NVIDIA все равно смогла достичь более низкого энергопотребления GeForce RTX 2080 в сравнении с GeForce GTX 1080 Ti (225 Вт против 250 Вт).

GeForce RTX 2070 использует процессор TU106. Этот GPU напоминает половинку от старшего чипа — три кластера и 36 SM. Общий потенциал процессора таков: 2304 ядра CUDA, 144 ROP, 288 тензорных ядер и 36 ядер RT. GeForce RTX 2070 обходится без всяких упрощений и задействует все вычислительные блоки. Шина памяти 256 бит, объем 8 ГБ, тип памяти GDDR6. Объем кэш-памяти L2 равен 4 МБ, как и у старшего TU104.

TU106

TU106 насчитывает 10,8 млрд транзисторов, площадь кристалла 445 мм². Заявленный TDP 175-185 Вт. Согласно цифровому индексу GeForce RTX 2070 можно позиционировать как преемника для GeForce GTX 1070. Но в каждом поколении всегда есть определенный рывок для решений одного уровня, поэтому GeForce RTX 2070 на самом деле является конкурентом для GeForce GTX 1080.

Отдельно поговорим о частотах. В характеристиках видеокарт NVIDIA указывается базовое значение частоты GPU, что отвечает минимально возможной частоте при максимальной нагрузке, плюс среднее значение Boost Clock. Если сравнивать GeForce RTX с предшественниками по базовому значению, то есть небольшое снижение, но реальные частоты Boost примерно на одном уровне. И у новых видеокарт заявлено по две частотные конфигурации. NVIDIA определяет минимальные частоты для видеокарт производства партнеров и более высокие частоты для своих продуктов линейки Founders Edition. Самые простые GeForce RTX 2080 Ti работают при базовой частоте 1350 МГц и Boost Clock 1545 МГц, а GeForce RTX 2080 Ti Founders Edition при частотах 1350/1635 МГц. Для GeForce RTX 2080 это сочетание частот 1515/1710 МГц и 1515/1800 МГц, для GeForce RTX 2070 это 1410/1620 МГц и 1410/1710 МГц. Более высокие частоты Founders Edition являются ключевым фактором, которым можно оправдать повышенный ценник таких видеокарт. Что касается памяти, то у всех GeForce RTX используются модули GDDR6, которые работают с пропускной способностью, эквивалентной значению 14000 МГц.

Разница в частотах обуславливает и различные данные в заявленном TDP. Для GeForce RTX 2080 Ti это 250 Вт или 260 Вт для Founders Edition, у GeForce RTX 2080 это 215 Вт или 225 Вт. Младшая видеокарта флагманской тройки работает при 175 Вт на обычных частотах и при 185 Вт с повышенными частотами.

 

GeForce RTX 2080 Ti

GeForce RTX 2080

GeForce RTX 2070

GeForce GTX 1080 Ti

GeForce GTX 1080

Архитектура

Turing

Turing

Turing

Pascal

Pascal

Ядро

TU102

TU104

TU106

GP102

GP104

Количество транзисторов, млн. шт

18600

13600

10800

12000

7200

Техпроцесс, нм

12

12

12

16

16

Площадь ядра, кв. мм

754

545

445

471

314

Количество потоковых процессоров CUDA

4352

2944

2304

3584

2560

Количество тензорных ядер

544

368

288

-

-

Количество ядер RT

68

46

36

-

-

Количество текстурных блоков ROP

272

184

144

224

160

Количество блоков рендеринга

88

64

64

88

64

Частота ядра (Base/Boost), МГц

1350-1545

1515-1710

1410-1620

1480-1582

1607-1733

Частота ядра Founders Edition, МГц

1350-1635

1515-1800

1410-1710

1480-1582

1607-1733

Шина памяти, бит

352

256

256

352

256

Тип памяти

GDDR6

GDDR6

GDDR6

GDDR5X

GDDR5X

Эффективная частота памяти, МГц

14000

14000

14000

11016

10000

Объём памяти, ГБ

11

8

8

11

8

Интерфейс

PCI-E 3.0

PCI-E 3.0

PCI-E 3.0

PCI-E 3.0

PCI-E 3.0

Мощность TDP, Вт

250/260

215/225

175/185

250

180

Официальная стоимость

MSRP $999,

Founders $1199

MSRP $699,

Founders $799

MSRP $499,

Founders $599

 

 

Архитектура Turing

Теперь поговорим о SM более детально. Их структура едина для всех GPU Turing, включая будущие бюджетные решения. Сравним блок-схему нового и старого SM.

Общая организация схожа. Внутри SM блоки сгруппированы в четыре массива обработки данных со своим диспетчером задач и планировщиком. В каждом таком массиве по 16 блоков FPU для вычислений в стандартном формате FP32, а всего их 64. Также SM может одновременно выполнять операции INT32, обладая идентичным количеством блоков для целочисленных вычислений. Появились тензорные ядра для специальных операций при выполнении задач глубокого обучения – по 8 на один SM. Плюс одно полноценное RT-ядро для операций с трассировкой лучей. Есть четыре текстурных блока. В SM Pascal всего 128 потоковых ядер для вычислений FP32 и 8 текстурных блоков при таком же объеме кэш-памяти L1. Можно говорить, что сохранялась определенная архитектурная преемственность с прошлым поколением. Но при этом в Turing сделан акцент на новые типы операций и появились совершенно новые функциональные блоки.

Сделан серьезный акцент на целочисленных вычислениях. Согласно анализу NVIDIA в игровых приложениях на такие вычисления сейчас приходится около 36% всех операций. Также они востребованы в специализированных вычислениях

В Turing используется комбинированный кэш L1 для всех типов данных. Общая реорганизация работы с этой памятью снизила задержки при обращении и повысило пропускную способность, что повышает производительность в рамках SM. Также увеличен объем кэш-памяти L3, что уже отмечалось выше.

Дополняет это быстрая память GDDR6. Решения GeForce RTX являются первыми, которые поддерживают такие модули. Это потребовало специальной разводки линий для минизации шумов. Применение новой памяти стало возможным благодаря тесному сотрудничеству непосрдественно с производителями памяти. GDDR6 обеспечивает значительный рост пропускной способности до 14 Гбит/с. Также энергоэффективность новой памяти на 20% выше памяти прошлого поколения.

Важную роль играет сжатие данных в памяти. Turing использует эффективные алгоритмы сжатия цветовых данных архитектуры Pascal, но с определенной оптимизацией, плюс возросшая пропускная способность памяти. Все вместе это повышает общую эффективность пропускной способности памяти на 50%, если сравнивать потенциал GeForce RTX 2080 Ti и GeForce GTX 1080 Ti. Также сжатие позволяет эффективнее работать с доступным объемом. Поэтому в новом поколении топовые решения пока ограничились 11 и 8 ГБ. Как показывает практика, для игр такого объема вполне хватает даже в режиме 4K.

NVIDIA заявляет, что общие архитектурные изменения позволяют достичь до 50% роста производительности в обработке шейдеров. Это достигается как за счет аппаратных улучшений, ускорения подсистемы памяти, так и за счет новых шейдерных технологий.

Turing получил поддержку новых шейдеров для оптимизации и ускорения производительности. Технология Mesh Shading предлагает свой гибкий конвейер со специальным типом шейдером, для оптимизации работы с геометрией группы объектов и управления LOD.

Mesh Shading будет эффективен в сценах с насыщенной геометрией, где много сложных объектов. Внедрение такого конвейера возможно через NVAPI на уровне DirectX 12 и Vulkan.

Также ускорить производительность позволяет технология Variable Rate Shading (VRS). Данный метод позволяет гибко управлять качеством обработки в тайлах 4x4 пикселя. Например, можно снизить качество обработки для смазанных фрагментов кадра в гоночной игре, когда изображение сильно размывается по периферии из-за эффекта скорости.

Если без VSR каждый пиксель будет закрашиваться отдельно, то с VSR можно работать с сегментами изображения, закрашивая их один раз на 4 пикселя или один раз на 8 пикселей. При этом возможно использование комбинированных выборок.

На базе VRS реализовано три специализированных алгоритма:

  • Content Adaptive Shading — снижает качество обработки для зон со слабым изменением цвета;
  • Motion Adaptive Shading — вариативное качество для движущихся объектов;
  • Foveated Rendering — снижение качества для зон вне зоны фокусировки зрения.

Эти технологии требуют определенной программной интеграции. Однако уже есть реальный пример их реализации. Недавно вышло обновление для Wolfenstein II: The New Colossus, http://nvplay.ru/games/wolfenstein-2-the-new-colossus-vpechatleniya-i-testirovanie-proizvoditelnosti которое добавило в игру NVIDIA Adaptive Shading (Content Adaptive Shading). Позволяет гибко регулировать качество шейдинга для отдельных блоков пикселей. В случае Adaptive Shading учитывается пространственная и временная согласованность. Это касается статических элементов изображения, которые остаются неизменными на протяжении определенного времени, например, стен или каких-то однотонных элементов окружения. В нижнем примере это статичные элементы панели вокруг анимированных индикаторов, экранов и кнопок.

На выходе получаем рост производительности на несколько процентов без потери в качестве изображения.

Еще одна технология для ускорения производительности — Texture Space Shading (TSS). Данные при закраске пикселей хранятся в виде текселей, которые могут повторно вызываться. Это позволяет разделить процесс выборки видимых семплов и выборки для заполняемых семплов, гибко управляя этим процессом.

Одинаковые тексели могут вызываться для разных запросов в рамках одного кадра или могут использоваться в следующем кадре. Все это дает гибкие возможности разработчику. Например, можно снизить скорость затенения для сред с низкой частотой обновления (туман). Также этот метод весьма эффективен для рендеринга виртуальной реальности VR.

Тензорные ядра и технологии глубокого обучения

В Turing используются улучшенные тензорные ядра, впервые появившиеся в GPU Volta GV100. Они выполняют операции формата INT8, INT4 и FP16 при работе с массивами матричных данных в задачах глубокого обучения (Deep Learning). Эти ядра значительно ускоряет процесс тренировки нейронной сети и инференс. Процессор TU102 всего насчитывает 576 тензорных ядер: восемь на SM и два на массив обработки данных в SM. Каждое ядро может выполнять до 64 операций с плавающей запятой. Восемь тензорных ядер в SM выполняют в общей сложности 512 операций FP16, умножая и накапливая операции за такт, или 1024 общих операций FP32 за такт. Новый прецизионный режим INT8 работает с удвоенной скоростью 2048 целых операций за такт.

Изначально технологии нейронных сетей и глубокого обучения применялись в узкоспециализированных сферах и высокопроизводительных системах. Теперь эти технологии приходят в нашу повседневность. Тут есть перспективы в развитии лучшего искусственного интеллекта, качественного голосового управления, улучшенной анимации, системы античитов и непосредственно в области визуальных улучшений.

NVIDIA активно развивает данное направление. На базе глубокого обучения реализованы технологии для повышения разрешения изображений с улучшением детализации, качественное замедление видео без «рваных» кадров и много других интересных для рядового пользователя вещей.

NVIDIA NGX Neural Services позволяет интегрировать «интеллектуальные» возможности непосредственно для улучшения графики в играх. На GPU Turing доступен новый метод сглаживания Deep Learning Super-Sampling (DLSS). Это разновидность Temporal Anti-Aliasing (TAA), где технология глубокого обучения задействована для более быстрой и качественно выборки. DLSS работает быстрее и не имеет привычных артефактов TAA в виде «дрожания» или смазывания изображения.

DLSS лучше сглаживает края объектов при более четкой картинке. При этом производительность возрастает, и графики от NVIDIA порою демонстрирует неплохой рост fps. Причина в том, что интеллектуальный метод DLSS не требует обработки полного кадра, он воссоздает изображение при меньшем количестве входных данных. Отчасти это можно сравнить с масштабированием большего изображения из меньшего, но это весьма условная аналогия. Также надо отметить, что у DLSS будут разные варианты с разным качеством и, как следствие, разным влиянием на производительностью. Качественные режимы DLSS будут давать картинку, сопоставимую с SuperSampling при максимальной выборке.

Сглаживание должно быть интегрировано в новые версии движков Unreal Engine и Unity. Поддержка DLSS уже заявлена для многих игр, среди которых PUBG, ARK: Survival Evolved, Hitman 2 и другие. Первой живой демонстрацией DLSS должна была стать игры Final Fantasy XV, но, к сожалению, издатель прикрыл работы над техническим развитием проекта. Поэтому на данный момент доступна лишь обновленная версия бенчмарка Final Fantasy X: Windows Edition и несколько технических демо. Реальных игр с DLSS пока нет.


Страница 1 из 2

Другие материалы в этой категории: « Обзор GeForce Now. Как играть без видеокарты
Другие материалы в этой категории: « Обзор GeForce Now. Как играть без видеокарты

О проекте

Информационный портал Nvplay.ru посвящен электронным технологиям и компьютерной индустрии с акцентом на продукции NVIDIA. В центре нашего внимания видеокарты и компьютерные комплектующие, игры и игровые устройства, сопутствующее программное обеспечение и новые технологии.

Правила сайта NVPLAY.RU

Контакты

Сотрудничество, размещение рекламы и общие вопросы:

  • Email Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Для пресс-релизов и новостей:

  • Email Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Мы в соцсетях

Следите за нами в социальных сетях