Компания NVIDIA представила новый программный стек TensorRT-LLM для работы с большими языковыми моделями (LLM). Это программное обеспечение серьезно повышает производительность во всех актуальных языковых моделях искусственного интеллекта. NVIDIA тесно сотрудничает с ведущими компаниями, включая Meta, Anyscale, Cohere, Deci, Grammarly, Mistral AI, MosaicML, OctoML, Tabnine и Together AI для ускорения и оптимизации LLM.

TensorRT-LLM состоит из компилятора глубокого обучения TensorRT и включает в себя оптимизированные ядра (kernels), этапы предварительной и постобработки, примитивы связи между несколькими графическими процессорами и несколькими узлами для высокой производительности на графических процессорах NVIDIA. TensorRT-LLM позволяет разработчикам экспериментировать с новыми LLM, предлагая максимальную производительность и возможности быстрой настройки благодаря модульному API Python с открытым исходным кодом.

Использование нового стек обеспечивает значительное ускорение на GPU Hopper. Ускоритель H100 получает двукратный буст в модели GPT-J 6B, доводя преимущество над A100 до 8 раз. Аналогичный двукратный буст наблюдается при работе с языковой моделью Llama 2 70B.

TensorRT-LLM включает новый планировщик, который обеспечивает лучшую пакетную обработку данных, увеличивая пропускную способность графического процессора. Также в стек интегрирован Hopper Transformer. LLM содержит миллиарды весов и значений с плавающей запятой формата FP16 или BF16. Но во время вывода многие модели могут быть упрощены до чисел с точностью 8 или 4 бит (INT8 или INT4). В результате оптимизации и квантования идет упрощение некоторых параметров, что обеспечивает меньшие затраты времени на те же вычисления. Технология Hopper Transformer Engine обеспечивает быструю конвертацию форматов для автоматической компиляции без необходимости изменения кода модели.

TensorRT-LLM сейчас доступен в раннем доступе, полный релиз ожидается в следующем месяце. Программное обеспечение поддерживается всеми современными процессорами для центров обработки данных, а именно — A100, H100, L4, L40, L40S, HGX, Grace Hopper и т.д.

Источник: NVIDIA

О проекте

Информационный портал Nvplay.ru посвящен электронным технологиям и компьютерной индустрии с акцентом на продукции NVIDIA. В центре нашего внимания видеокарты и компьютерные комплектующие, игры и игровые устройства, сопутствующее программное обеспечение и новые технологии.

Правила сайта NVPLAY.RU

Контакты

Сотрудничество, размещение рекламы и общие вопросы:

  • Email Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Для пресс-релизов и новостей:

  • Email Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Мы в соцсетях

Следите за нами в социальных сетях