Версия для печати

 


Состоявшийся недавно анонс NVIDIA GeForce GTX 1080 открывает эру Pascal. Новая архитектура предлагает ряд усовершенствований и поддержку новых технологий. А GeForce GTX 1080 является самым прогрессивным продуктом компании в игровом сегменте. О технических особенностях нового графического ускорителя и возможностях архитектуры Pascal мы поговорим в данной статье.

Компания NVIDIA выделяет пять основных преимуществ Pascal:

  • архитектура GPU нового поколения
  • 16-нм процесс FinFET
  • передовая память GDDR5X
  • «высокое мастерство» (сочетание высоких частот и низкого энергопотребления)
  • потрясающие игровые технологии.

Все эти аспекты будут раскрыты в данном материале. Результаты практического знакомства с тестированием производительности будут представлены в одной из последующих статей.

GPU GP104 и GeForce GTX 1080

В течении последних лет производители GPU развивали свои решения в рамках 28-нм техпроцесса, поскольку переход на более тонкое производство в значительной мере затянулся, да и сам прогресс в этой области замедлился. Регулярная смена техпроцесса позволяла наращивать транзисторный бюджет новых процессоров, удерживая энергопотребление в разумных пределах. Новые условия выдвинули новые требования, и компания NVIDIA отлично ответила на этот вызов. Нынешняя серия видеокарт на архитектуре Maxwell предложила лучшее сочетание производительности и энергоэффективности за счет архитектурных улучшений. Pascal продолжает это эволюционное движение, а новый техпроцесс 16-нм FinFET обеспечивает еще лучшую экономичность. GeForce GTX 1080 является первой видеокартой, чей GPU произведен в рамках нового технологического процесса.

Сам процессор носит кодовое имя GP104. Как следует из его номера, он является преемником GM204. Ранее компания NVIDIA представила ускоритель вычислений Tesla P100 на базе более сложного процессора GP100. Но данный продукт рассчитан для применения в суперкомпьютерах и в сфере графики пока не применятся. Поэтому если говорить об обычных графических картах, то GeForce GTX 1080 действительно является пионером Pascal, а GP104 — первый чип новой архитектуры для массового рынка.

Взглянем на схему GPU GP104.

Общая организация GPU напоминает старый GM204, который является основной для GeForce GTX 980 и GeForce GTX 970. В процессоре четыре кластера GPC. Регулируя количество этих кластеров, производитель легко масштабирует производительность разных решений. У GP100 шесть кластеров. Более слабый GP106, который может стать основной для GeForce GTX 1060 или GeForce GTX 1050, получит два кластера, как современный GM206. Внутри кластера вычислительные блоки сгруппированы в пять мультипроцессоров SM вместо четырех аналогичных мультипроцессоров у нынешних Maxwell. То есть при аналогичном количестве кластеров новые GPU будут оперировать большим количеством вычислительных блоков.

Каждый SM связан с движком обработки геометрии PolyMorph Engine, такая связка теперь носит название TPC. PolyMorph Engine получили серьезные нововведения, которые ускоряют VR-рендеринг, о чем подробнее будет расписано ниже. Мультипроцессор кардинальных изменений не получил, его структура повторяет мультипроцессоры Maxwell. Вычислительные блоки сгруппированы в четыре массива обработки данных со своей управляющей логикой. Основной вычислительной единицей является потоковый процессор CUDA. Всего в активе SM насчитывается 128 таких CUDA cores. Они работают в связке с 8 текстурными блоками. Есть выделенный текстурный кэш и внутренний кэш L2 объемом 95 КБ (аналогично Maxwell). В итоге один кластер GPC насчитывает 640 потоковых процессоров и 40 текстурных блоков вместо 512 CUDA cores и 32 TMU в кластере Maxwell.

Полная версия GPU GP104 насчитывает уже 2560 CUDA cores и 160 TMU. Для сравнения нужно сказать, что GeForce GTX 980 на GM204 имеет в активе 2048 CUDA cores и 128 TMU, а GeForce GTX 980 Ti может похвастать 2816 ядрами и 96 текстурными блоками.

У процессора GP104 общий кэш L2 объемом 2 МБ и 64 связанных с ним боков ROP, что аналогично характеристикам GM204. Была изменена подсистема памяти. При общей разрядности шины в 256 бит внутри ядра восемь раздельных 32-битных контроллеров вместо привычного сочетания четырех 64-битных контроллеров. Процессор получил поддержку памяти нового стандарта GDDR5X. У GeForce GTX 1080 такие микросхемы работают со скоростью передачи данных в 10 Gbps, т.е. эффективное значение частоты 10 ГГц. Высокие частоты новой памяти требуют особого подхода к разводке линий на плате и структуре самого GPU для минимизации длины проводников и предотвращению электронных помех. Все это реализовано в новых видеокартах Pascal. Была оптимизирована и изменена компоновка самого GPU, что видно на небольшом фото в левой части нижнего слайда. Реальная компановка отличается от симметричной схемы, приведенной выше, в то время как Maxwell GM204 в кремнии строго повторял свою упорядоченную структуру с блок-схемы.

При росте физической и эффективной частоты новая память GDDR5X работает на пониженном напряжении 1,35 В, что делает ее более экономичной. Также в Pascal улучшено сжатие данных в буфере кадра, что повышает эффективность работы с 256-битной шиной. В итоге мы имеем видеокарту GeForce GTX 1080, которая производительнее GeForce GTX 980 Ti и GeForce GTX Titan X с 384-битным интерфейсом памяти.

Оптимизация структуры ядра и новый техпроцесс позволили значительно поднять рабочие частоты GPU. Согласно заявлениям производителя Maxwell при простом переходе на 16-нм не мог бы обеспечить тех частот, которые возможны на Pascal. Для GeForce GTX 1080 базовое значение частоты установлено на уровне 1607 МГц при Boost Clock 1733 МГц. Вторая величина отражает среднюю частоту в Boost-режиме.

Размеры кристалла у GP104 меньше, чем у GM204, но транзисторов больше на 38%. Энергопотребление нового флагмана ближе к предшественнику GeForce GTX 980. Для GeForce GTX 1080 заявлен уровень TDP в 180 Вт, что на фоне нынешнего лидера GeForce GTX 980 Ti с 250 Вт выглядит весьма скромным значением.

 

GeForce GTX 1080

GeForce GTX 980 Ti

GeForce GTX 980

Архитектура

Pascal

Maxwell

Maxwell

Кодовое имя GPU

GP104

GM200

GM204

Количество транзисторов, млн.

7200

8000

5200

Техпроцесс, нм

16

28

28

Площадь ядра, кв. мм

314

601

398

Количество потоковых процессоров

2560

2816

2048

Количество текстурных блоков

160

176

128

Количество блоков ROP

64

96

64

Частота ядра, МГц

1607-1733

1000–1075

1126-1216

Шина памяти, бит

256

384

256

Тип памяти

GDDR5X

GDDR5

GDDR5

Эффективная частота памяти, МГц

10010

7010

7010

Объём памяти, Мбайт

8192

6144

4096

Интерфейс

PCI-E 3.0

PCI-E 3.0

PCI-E 3.0

Уровень TDP, Вт

180

250

165

Улучшения архитектуры и высокие частоты обеспечивают преимущество GeForce GTX 1080 над GeForce GTX 980 примерно в 1,7 раз по оценке NVIDIA. Столь весомый отрыв характерен для простых игра, а при работе с виртуальной реальностью (VR) разница чуть ли не трехкратная.

Конструкция видеокарты GeForce GTX 1080 напоминает актуальные модели Maxwell старшего сегмента. Слегка изменились очертания корпуса, охлаждение без изменений.

Детальнее об отдельных аспектах новой архитектуры и о новых технологиях ниже.

GPU Boost 3.0

В Pascal реализована новая версия GPU Boost. Эта технология позволяет ускорять видеокарту относительно базового значения, которое является гарантированным для любых режимов нагрузки. Если при этом GPU не превышает установленные ограничения по максимальной температуре и мощности, то его частота может повышаться на какое-то определенное значение. Для нерефенсных Maxwell с хорошим охлаждением типичной является ситуация, когда в играх итоговая частота всегда превышает даже официальный Boost Clock. Попутно с изменением частоты регулируется напряжение, но общее значение смещения частоты относительно напряжения фиксированное. В GPU Boost 3.0 это значение может меняться, что позволит при каких-то напряжениях получать больший выигрыш от Boost, чем это позволял бы старый алгоритм.


Memory Compression

Подробнее нужно остановиться на сжатии данных в памяти. GPU поддерживает несколько алгоритмов, которые используются для сжатия разных типов данных. Ключевым является delta color compression. При его применении во время обработки тайла из блока пикселей не кодируется цвет каждого пикселя, вычисляется общее значение цвета тайла и дельта изменения цвета для каждого пикселя. В итоге это позволяет оперировать меньшими объемами данных, что повышает эффективность в работе с видеобуфером и внутренним кэшем.

Сжатие цвета реализовано и в Maxwell, но в Pascal оно работает лучше. Также реализованы новые алгоритмы компрессии 4:1 и 8:1.

В качестве наглядного примера приводится несколько слайдов. Первый кадр из игры Project CARS демонстрирует ту картинку, которые мы видим на экране.

Ниже приведены слайды, где розовым цветом отмечены текстуры, к которым применено сжатие. Вверху Maxwell, ниже Pascal.

Pascal удалось реализовать компрессию данных для большего числа поверхностей. Но общая эффективность всегда зависит от изображения в каждом конкретном случае, сжатие не везде может использоваться.

Согласно данным NVIDIA такое сжатие обеспечивает лучшее использование пропускной способности памяти в диапазоне от 11% до 28%, если 256-битный GeForce GTX 1080 сравнивать с GeForce GTX 980. При этом попутно мы имеем увеличение частоты памяти с 7012 МГц до 10010 МГц у новой видеокарты. В итоге все это обеспечивает рост эффективности ПСП примерно на 70%.

Async Compute

Решения на базе Maxwell и Pascal обладают полной поддержкой DirectX 12. Некоторой проблемой существующих видеокарт стало отсутствие аппаратной поддержки асинхронных вычислений Async Compute. Такие вычисления предполагают улучшенную поддержку комбинированных графических и неграфических вычислений. Например, одновременно с графическими расчетами GPU может заниматься физическими. Async Compute может использоваться для постобработки изображения и для реализации новых функций при рендеринге виртуальной реальности VR. Pascal поддерживает Async Compute и лучше использует свои аппаратные ресурсы.

В Maxwell при параллельном выполнении разных задач требовалось ожидание до окончания каждого процесса. Если один из процессов требует дольше времени на выполнение, то больше времени уходит и на всю задачу. Часть вычислительных блоков в какой-то момент может простаивать. Pascal использует динамическую балансировку нагрузки (Dynamic load balancing). Если какой-то процесс выполнен раньше, то GPU подключает освободившиеся блоки к выполнению другой задачи. В результате не возникает простоев отдельных потоковых процессоров и все вычислительные ресурсы используются максимально эффективно.

Тут важное значение имеет быстрое переключение между задачи. Pascal может прерывать задачи на разных уровнях, вызывая прерывание на уровне обработки потоков, пикселей и отдельных инструкций. При получения сигнала прерывания на уровне обработки отдельных инструкций сохраняются данные регистров для последующего возвращения в предыдущей задаче.

В архитектуре Kepler и Maxwell поддерживалось прерывание на уровне потоков, что делало их менее гибкими в распределении аппаратных ресурсов. Высокая гибкость и быстрое переключение важно для VR-рендеринга. В частности, для коррекции изображения в зависимости от положения головы используется Asynchronous Time Warp. Для корректной работы этой техники нужно упреждение и срабатывание переключения строго перед выводом кадра на экран устройства. Многоуровневое прерывание выполняемой задачи позволяет точнее спрогнозировать время переключения. Сама эта техника важна для устранения «дрожания» объектов при изменении положения головы наблюдателя в очках виртуальной реальности.

Мультипроецирование Simultaneous Multi-Projection

У архитектура Pascal есть и другие преимущества для работы с VR. Обновленные PolyMorph Engine имеют специальный блок Simultaneous Multi-Projection, который отвечает за аппаратный просчет разных проекций при обработке одного потока данных. Это позволяет одновременно формировать геометрию для разных проекций, не просчитывая их заново.

Сама технология мультипроецирования это небольшая революция, которая позволяет формировать корректно верное изображения с правильной перспективной на любых экранах — от мультимониторных конфигураций до изогнутых дисплеев.

К примеру, вы используете три монитора для большего эффекта погружения. Вряд ли вы размещаете их в одной плоскости, боковые дисплеи зачастую повернуты под углом, чтобы обеспечить широкий обзор вокруг наблюдателя. Но обычная видеокарта отрисовывает изображения для одной плоскости, т.е. по бокам вы получаете некорректную перспективу и неправильные пропорции объектов. Правильное изображение позволяет получить Simultaneous Multi-Projection, создавая разные проекции. Ниже схематично показана разница при обычной режиме и с мультипроецированием.

Pascal может обрабатывать проекции для одного или двух центров перспективы (до 16 проекций на один центр). Это важно для технологий, где надо формировать одновременно два изображения, например, для стерео-картинки. В таком режиме нужно вывести отдельное изображение для своего глаза. Используя технику Single Pass Stereo процессор один раз обрабатывает вершины, используя смещение для каждой проекции. Это позволяет заметно ускорить производительность в таком режиме.

Single Pass Stereo сочетается с другими технологиями при работе в VR. В очках виртуальной реальности каждый глаз видит отдельное изображение через специальную линзу, которая искажает картинку. Специальное преобразование изображения инвертирует эти искажения. Изначально обычный GPU рендерит простую плоскую проекцию, а после всех преобразования часть пикселей по краям кадра просто отбрасываются. В итоге выполняется лишняя работа, что увеличивает нагрузку. Maxwell поддерживает технологию Multi-res Shading, которая позволяет регулировать разрешение разных секций кадра, уменьшая его на периферии, и это уже неплохо экономит ресурсы. Pascal использует новую методику Lens Matched Shading. Изображение проецируется на изогнутую поверхность, которая состоит из четырех плоскостей, симулирующих изогнутую поверхность линзы. А итоговая проекция близка к той, что будет отображаться в VR-устройстве, лишние пиксели по бокам не отрисовываются.

Ниже изображена обычная проекция (слева) и конечное изображение (справа). По центру изображение, которое формируется при помощи Lens Matched Shading. Если обычная видеокарта вынуждена обрабатывать изображение в 2,1 мегапикселей, чтобы получить на выходе 1,1 мегапикселя, то Pascal сразу отрисовывает картинку 1,4 мегапикселя. В итоге мы имеем значительное ускорение при выполнении одной и той же задачи.

NVIDIA VRWorks

Описанные технологии являются частью платформы NVIDIA VRWorks, которая объединяет и другие возможности для работы с виртуальной реальностью. В VRWorks входят все средства разработки со специальными API и библиотеками, для реализации новых наработок в конечном программном продукте. Кроме технологий, оптимизирующих графический рендеринг, компания работает над системой взаимодействия с виртуальной средой и механизмом расчета реалистичного звука.

В рамках этих начинаний была представлена технология VRWorks Audio, которая обеспечивает точную локализацию и воссоздание эффектов отраженного звука от объектов окружающей среды. Все это благодаря революционному подходу, когда звук представляется в виде лучей, при помощи которых симулируется распространение звуковых волн в окружающем пространстве. Базой для VRWorks Audio стал движок OptiX и метод трассировки лучей. Возможности технологии продемонстрированы в видеоролике.

Достоверная реакция на действия пользователя обеспечит еще больший эффект погружения. Для этого разработан механизм VR Touch, который реализует взаимодействие при соприкосновении с виртуальными объектами в зависимости от их свойств. Для этого отслеживается положение ручных контроллеров и применяются разные физические эффекты для виртуальной среды. Достоверное поведение динамичных сред или разрушаемость могут быть реализованы при помощи эффектов PhysX.

Для лучшей производительности в VR-режиме на GeForce GTX 1080 можно использовать VR SLI. При таком SLI каждая видеокарта независимо обрабатывает изображение для каждого глаза. Это дает небольшое преимущество в производительности относительно обычного режима SLI, когда видеокарты обрабатывают четные и нечетные кадры.

Обновление SLI

На этом улучшения SLI не заканчиваются. Видеокарты Pascal могут использовать двойной мостик, который соединяет их сразу по двум интерфейсам SLI. Ранее наличие двух интерфейсов было мотивировано необходимостью подключения видеокарт друг к другу при 3-Way и 4-Way SLI.

Двойные мостики SLI HB позволят увеличить общую пропускную способность, что обеспечит некоторые преимущества в тяжелых режимах. Совместимость со старыми мостиками сохраняется. NVIDIA рекомендует SLI HB для разрешений выше 2560x1440 или при частоте монитора выше 60 Гц.

GeForce GTX 1080 обладает еще одним преимуществом: сам интерфейс SLI работает на увеличенной частоте 650 МГц вместо 400 МГц у старых моделей. И полная совместимость с ускоренным режимом тоже обеспечивается только при новых мостиках.

DirectX 12 позволяет использовать новые алгоритмы совместной работы нескольких GPU. Это Multi Display Adapter (MDA) и два варианта Linked Display Adapter (LDA). Implicit LDA отвечает алгоритму SLI, обеспечивая широкую поддержку приложений на уровне видеодрайвера. Explicit LDA и MDA дают больше возможностей контроля приложению, при этом качественная реализация таких конфигураций будет зависеть от разработчиков самого приложения. В MDA даже возможны конфигурации из разных GPU, в том числе сочетание интегрированной и дискретной графики. В обычном SLI пользователи ограничены использованием лишь двух видеокарт GeForce GTX 1080, зато такая связка работает максимально эффективно. Сочетание большего количества экземпляров возможно в других режимах.

Энтузиасты смогут снять ограничение на две видеокарты в SLI по запросу через официальный сайт с предоставлением специального идентификатора своего GPU. Неоднозначный подход.

Fast Sync

Компания NVIDA давно занимается вопросами повышения качества изображения при выводе его непосредственно на дисплей, экспериментируя с разными режимами синхронизации. При сверхвысоком fps на обычном мониторе 60 Гц иногда могут наблюдаться разрывы кадров. Вертикальная синхронизация согласует выводимые кадры с частотой обновления монитора, но приводит к небольшим задержкам и резкому снижению производительности, если видеокарта не в состоянии обеспечить стабильные 60 fps. Технология NVIDIA G-Sync обеспечивает максимальную согласованность с монитором благодаря специальному аппаратному модулю в самом мониторе. Если же проблема в производительности, то поможет адаптивная синхронизация, которая отключается при снижении fps.

Но есть еще динамичные игры, где важную роль играет быстрая отзывчивость на действия игрока. С популяризацией киберспорта данный вопрос стал еще острее. Высокая частота обеспечивает нужную отзывчивость, но как нейтрализовать возможные артефакты из-за разрыва кадров? Теперь это возможно благодаря технологии Fast Sync. В Pascal реализован специальный тройной буфер с контролирующей логикой, которая выводит на монитор полностью отрендеренный кадр из буфера.

Такой режим будет поддерживаться только новыми видеокартами. Включить его можно через Панель управления NVIDIA, задав режим Fast Sync вместо обычной вертикальной синхронизации.

В итоге вы сможете комфортно играть хоть при 200 fps при минимальной латентности. Исследование разных режимов от NVIDIA показывают незначительно увеличение времени вывода кадра относительно выключенной вертикальной синхронизации, но выигрыш в сравнении с включенной синхронизацией намного больше.

Поддержка HDR

Еще одна инновация Pascal связана с поддержкой HDR. Это новый стандарт с цветовым охватом 75% от видимого спектра против 33% у RGB, кодирование цвета 10/12 бит. GeForce GTX 1080 станет первой видеокартой, которая поддерживает игры и видеофильмы такого стандарта с возможностью вывода картинки на соответствующие дисплеи.

Тут надо отметить, что данный стандарт пока получит распространение среди телевизоров, широкое производство HDR-мониторов планируется в следующем году. GeForce GTX 1080 поддерживает аппаратное декодирование и кодирование видео HDR с возможностью стриминга на консоль SHIELD.

NVIDIA работает с разработчиками игр для продвижения этого стандарта. В ближайшем будущем его поддержку получат ряд игр, среди которых Rise of the Tomb Raider и сиквел Shadow Warrior.

Вывод изображения и блок обработки видео

GeForce GTX 1080 оснащается тремя портами DisplayPort, одним HDMI 2.0b и одним dual-link DVI.

Видеокарта имеет сертифицированный DisplayPort 1.2 и готова к работе по интерфейсу DisplayPort 1.3 и 1.4, поддерживая 4K и 5K при 60 Гц. При подключении через два кабеля DisplayPort можно выводить картинку 8K 60 Гц!

Улучшен аппаратный блок обработки видео. Поддерживается декодирование высококачественного видео 4K 10/12 бит, поддерживается стандарт потокового видео PlayReady 3.0. Полное описание всех новых возможностей GeForce GTX 1080 в нижней таблице.

Среди новых возможностей — Ansel с широкими возможностями для получения высококачественных скриншотов. Подробнее об этом в отдельном материале.

Итоги

Видеокарта GeForce GTX 1080 является самым прогрессивным решением на рынке. Новая архитектура Pascal и переход на 16-нм техпроцесс должны обеспечить хорошее ускорение относительно современных флагманских моделей GeForce GTX 980 Ti и GeForce GTX Titan X. Впервые применяется память нового типа GDDR5X. Архитектурные изменения должны обеспечить наиболее значительное преимущество в DirectX 12 и в VR-режиме. И хотя виртуальная реальность только начинает развиваться, но NVIDIA уже делает рывок в этой области. Аппаратная поддержка новых VR-технологий должна обеспечить серьезнейшее ускорение в производительности. А дополнительные возможности VRWorks помогут разработчикам реализовать новые впечатления от виртуального погружения благодаря объемному звуку. Еще GeForce GTX 1080 моет похвастать поддержкой видеоконтента стандарта HDR. Тем, кто играет в динамичные игры, пригодится Fast Sync. Улучшенный SLI позволит получить максимум производительности в случае использования двух видеокарт. Часть технологических преимуществ пока не найдут широкого применения. Определенный потенциал GeForce GTX 1080 раскроется только со временем. Покупая эту видеокарту, вы приобретаете технологически продвинутый продукт с большим заделом на будущее. Но и в данный момент GeForce GTX 1080 обеспечивает рекордную игровую производительность.

  • Комментарии: 1

Комментарии: