NVIDIA смогла в два раза ускорить исполнение языковых моделей на H100 с помощью TensorRT-LLM
Компания NVIDIA официально анонсировала TensorRT-LLM — программное обеспечение с открытым исходным кодом, предназначенное для ускорения исполнения больших языковых моделей (LLM). Данная платформа будет запущена в течение ближайших нескольких недель.