『NLP学习笔记』Triton推理服务器加速模型推理_模型推理服务化框架triton保姆式教程

作者：人工智能uu | 2024-07-26 13:26:06

踩

模型推理服务化框架triton保姆式教程

Triton推理服务器加速模型推理！

文章目录

一. Triton简要介绍
二. Triton Inference Server安装与使用
三. Triton Client Libraries
- 3.1. 获取客户端库和示例(Python)
四. 实战cifar10图像分类(Pytorch)
五. 实战cifar10图像分类(Triton)
六. 参考文章

一. Triton简要介绍

NVIDIA Triton(英伟达官网)推理服务器在生产中提供快速且可扩展的 AI。开源推理服务软件 Triton Inference Server 通过使团队能够从任何框架 (TensorFlow、NVIDIA TensorRT、PyTorch、ONNX、XGBoost、Python、自定义等) 在任何基于 GPU 或 CPU 的基础设施上部署经过训练的 AI 模型，从而简化 AI 推理(云、数据中心或边缘)。

Triton如下特点：

① 支持多个框架： Triton 推理服务器支持所有主要框架，例如 TensorFlow、TensorRT、PyTorch、MXNet、Python、ONNX、RAPIDS FIL（用于 XGBoost、scikit-learn 等）、OpenVINO、自定义 C++ 等。Triton 为 AI 研究人员和数据科学家提供了为他们的项目选择正确框架的自由。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/人工智能uu/article/detail/885541