NVIDIA TensorRT-LLM существенно ускоряет работу H100 с большими языковыми моделями ИИ

Суббота, 09 Сентября 2023

1
2
3
4
5

(2 голосов)

Новости

Автор Alexander

Шрифт

Компания NVIDIA представила новый программный стек TensorRT-LLM для работы с большими языковыми моделями (LLM). Это программное обеспечение серьезно повышает производительность во всех актуальных языковых моделях искусственного интеллекта. NVIDIA тесно сотрудничает с ведущими компаниями, включая Meta, Anyscale, Cohere, Deci, Grammarly, Mistral AI, MosaicML, OctoML, Tabnine и Together AI для ускорения и оптимизации LLM.

TensorRT-LLM состоит из компилятора глубокого обучения TensorRT и включает в себя оптимизированные ядра (kernels), этапы предварительной и постобработки, примитивы связи между несколькими графическими процессорами и несколькими узлами для высокой производительности на графических процессорах NVIDIA. TensorRT-LLM позволяет разработчикам экспериментировать с новыми LLM, предлагая максимальную производительность и возможности быстрой настройки благодаря модульному API Python с открытым исходным кодом.

Использование нового стек обеспечивает значительное ускорение на GPU Hopper. Ускоритель H100 получает двукратный буст в модели GPT-J 6B, доводя преимущество над A100 до 8 раз. Аналогичный двукратный буст наблюдается при работе с языковой моделью Llama 2 70B.

TensorRT-LLM включает новый планировщик, который обеспечивает лучшую пакетную обработку данных, увеличивая пропускную способность графического процессора. Также в стек интегрирован Hopper Transformer. LLM содержит миллиарды весов и значений с плавающей запятой формата FP16 или BF16. Но во время вывода многие модели могут быть упрощены до чисел с точностью 8 или 4 бит (INT8 или INT4). В результате оптимизации и квантования идет упрощение некоторых параметров, что обеспечивает меньшие затраты времени на те же вычисления. Технология Hopper Transformer Engine обеспечивает быструю конвертацию форматов для автоматической компиляции без необходимости изменения кода модели.

TensorRT-LLM сейчас доступен в раннем доступе, полный релиз ожидается в следующем месяце. Программное обеспечение поддерживается всеми современными процессорами для центров обработки данных, а именно — A100, H100, L4, L40, L40S, HGX, Grace Hopper и т.д.

Источник: NVIDIA

Другие материалы в этой категории: « Дефицит ускорителей NVIDIA для ИИ продлится до 2025 года В сети появились фото GeForce RTX 3090 Super, которая так и не была выпущена »

Файловый архив

Интересное

Intel Core i5-12600KF против Core i9-9900K. Сравнительное тестирование в играх

Представитель среднего класса против старого флагманского процессора, сравниваем производительность в играх

Intel Core i5-12600KF против Core i9-9900K. Сравнительное тестирование в играх

Представитель среднего класса против старого флагманского процессора, сравниваем производительность в играх

Анализ технологии NVIDIA DLSS 2 в Atomic Heart

Сравниваем качество картинки и производительность в разных режимах DLSS на старых видеокартах

Анализ технологии NVIDIA DLSS 2 в Atomic Heart

Сравниваем качество картинки и производительность в разных режимах DLSS на старых видеокартах

О проекте

Информационный портал Nvplay.ru посвящен электронным технологиям и компьютерной индустрии с акцентом на продукции NVIDIA. В центре нашего внимания видеокарты и компьютерные комплектующие, игры и игровые устройства, сопутствующее программное обеспечение и новые технологии.

Правила сайта NVPLAY.RU

Контакты

Сотрудничество, размещение рекламы и общие вопросы:

Email : Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Для пресс-релизов и новостей:

Email : Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Мы в соцсетях

Следите за нами в социальных сетях