NVIDIA TensorRT和Triton助力微信加速视觉应用

btikc 2024-09-10 11:56:12 技术文章 29 ℃ 0 评论

腾讯微信是一款跨平台的通讯工具。支持通过手机网络发送语音、图片、视频和文字等。截至2021年6月，微信在全球拥有超过12亿活跃用户，是国内活跃用户最多的社交软件。

微信识物是一款主打物品识别的 AI 产品，通过相机拍摄物品，更高效、更智能地获取信息。2020 年，微信识物拓展了更多识别场景，上线了微信版的图片搜索。打开微信扫一扫，左滑切换到“识物”功能，对准想要了解的物品正面，可以获取对应的物品信息，包括物品百科、相关资讯、相关商品。

2021年1月，微信发布的微信8.0版本更新支持图片文字提取的功能。用户在聊天界面和朋友圈中长按图片就可以提取图片中文字，然后一键转发、复制或收藏。

微信识物包含检测、图像召回、信息提炼等环节，OCR主要包括识别和检测，这两种应用都有非常大的计算量，在用Pytorch进行模型的推理时，一方面延时极大，导致用户体验受损；另一方面，显存占用很大，单张NVIDIA T4 GPU上部署的模型数比较少，导致推理请求的并发数上不去，请求失败的概率太高，只能通过增加机器的方式来提高并发能力，业务部署成本较高。再次，使用的模型经常变化，而业务需要更换后的模型能够快速地加速和上线部署。

基于以上挑战，腾讯微信选择了采用NVIDIATensorRT对模型进行推理加速，并利用NVIDIA Triton推理服务器在T4 GPU上进行在线部署，在提升用户体验的同时，大幅降低了服务成本。

1、通过使用TensorRT对微信识物和OCR的模型进行加速，在都使用FP32的情况下，与Pytorch相对，延时降低50%左右。

2、在OCR的识别和检测阶段，使用TensorRT结合T4 GPU的FP16 Tensor Core，在保证精度的同时，识别的延时进一步降低了50%，检测降低了20%。

3、在微信识物的分类和检测任务中，通过使用T4 GPU的int8 Tensor Core，并结合QAT，在满足精度要求的前提下，进一步大幅提升了性能。

4、通过使用FP16和int8 低精度模式，在大幅降低推理时延的同时，大大减少了显存的占用，在FP16模式下，单模型显存占用仅占FP32模式的40%--50%，而在int8模式下，单模型显存占用仅占FP32模式的30%左右。在提高单张T4卡上部署的模型数量的同时，大幅提高了单GPU的推理请求并发能力。

5、 Triton的dynamic batch和多实例等特性，帮助微信将在满足延时要求的同时，提高了系统整体的并发能力，将系统失败降低了81%。

6、 TensorRT可以对模型进行快速的加速，Triton则可以对加速后的模型进行快速的部署，满足了业务对修改后的模型进行快速部署的需求，同时也大大减少了工程人员的工作量。

通过使用TensorRT对微信识物和OCR的模型进行加速，在降低单次推理延时50%以上的同时，节约了多达64%的显存。结合Triton的dynamic batch和多实例的功能，OCR的整体延时降低了46%，系统失败率降低了81%。大大提高了用户的体验，并且服务器的数量减少了多达78%，极大降低了服务的成本。

网站首页 > 技术文章正文

NVIDIA TensorRT和Triton助力微信加速视觉应用

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

NVIDIA TensorRT和Triton助力微信加速视觉应用

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: