网站首页 > 技术文章 正文
位来 发自 凹非寺
量子位 报道 | 公众号 QbitAI
自从 “Attention is All You Need” 在2017年提出以来,Transformer已成为 NLP 领域中非常热门的深度学习网络架构。但是在推理部署阶段,其计算性能往往难以满足在线业务对于低延迟和高吞吐的要求。
在英伟达开源的FasterTransformer 1.0版本中,针对BERT中的 Transformer Encoder进行了优化和加速,经过高度优化之后,降低了用户使用transformer编码的时延。
在解决了Encoder性能问题之后,英伟达将重点放到了同样重要的Transformer Decoder推理上。
因此,英伟达推出了FasterTransformer 2.0版本,提供针对解码器进行高度优化的transformer layer。同时,还提供了优化过后的整个翻译流程,满足想要在翻译场景中大幅降低时延的用户们。
那么,FasterTransformer 2.0背后的优化原理是什么?如何针对decoder和decoding进行优化?
4月9日,英伟达x量子位将举办一场线上公开课,英伟达GPU计算专家、FasterTransformer 2.0 开发者之一的薛博阳老师将为大家详细讲解,欢迎大家报名,与薛老师一起探讨和交流。
课程安排
主题:FasterTransformer 2.0 的原理与应用
时间:2020年4月9日(周四),20:00-21:30
环节:讲解+问答
课程内容:
- FasterTransformer 2.0 新增加功能介绍
- 如何针对decoder和decoding进行优化
- 如何使用decoder和decoding
- Decoder和decoding能够带来什么样的加速效果
嘉宾介绍
薛博阳,NVIDIA GPU 计算专家,拥有多年GPU开发经验和深度学习开发经验。曾参与计算机视觉、游戏人工智能等项目开发。FasterTransformer 2.0 开发者之一,目前主要负责 FasterTransformer 2.0 的进一步的优化。
报名方式
点击链接注册(https://info.nvidia.com/312648-reg.html),直播前将给您注册使用的邮箱发送直播链接,后续将发送直播回放、PPT资料。
也欢迎大家加入直播交流群,添加量子位小助手(qbitbot12),并备注“英伟达”即可。
— 完 —
量子位 QbitAI · 头条号签约作者
关注我们,第一时间获知前沿科技动态
猜你喜欢
- 2024-09-24 熬了一晚上,我从零实现了Transformer模型,把代码讲给你听
- 2024-09-24 通过7个版本的attention的变形,搞懂transformer多头注意力机制
- 2024-09-24 Transformer靠数据堆?无数据怎么办?LUT说「冇问题」|AAAI 2021
- 2024-09-24 ACL 2019 | 将带推敲解码器的增量Transformer用于文档级知识对话
- 2024-09-24 如何突破Decoder性能瓶颈?揭秘FasterTransformer的原理与应用
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)