网站首页 > 技术文章 正文
专栏推荐
RNN
ht = tαnh(Wih*Xt+bih+whh*ht-1+bhh)
在pytorch中我们使用nn.RNN()就可以创建出RNN神经网络,它有如下参数:
input_size表示输入xt的特征维度
hidden_size表示输出ht的特征维度,或者理解为隐藏层的神经元数
num_layers表示RNN网络的层数,默认是1层
nonlinearity表示非线性激活函数的选择,默认tanh,当然也可以选择relu
bias表示是否使用偏置,默认是Ture,使用
batch_first这个参数是决定网络输入的维度顺序,默认是(seq,batch,feature)输入,seq表示序列长度,batch表示批量,feature表示特征维度,我们也可以将其修改为(batch,seq,feature),只用将这个参数设置为True
dropout个参数接受一个0~1的数值,这个dropout层会在除了最后一层之外的其他输出层加上
bidirectional默认的False,如果我们要是使用双向循环网络的话,那么我们就可以设置这个参数是True
以上就是使用nn.RNN()的一些使用参数
当我们创建好一个RNN网络之后,我们要出入到神经网络数据,神经网络会接收一个序列输入xt,还有一个记忆输入h0,这个记忆输入的维度是(lαyers * direction, batch, hidde),其中layers表示RNN的层数,direction表示RNN的方向,如果双向就是2,如果单向那么就是1,batch表示批量,hidden表示输出维度,还有一点隐藏网络记忆输出的维度也是(lαyers * direction, batch, hidden)
RNN的输出维度是(seq,batch, hidden * diredion),
建立输入维度是20,输出维度是50,两层层的单项RNN网络
Rnn=nn.RNN(input_size=20,hidden_size=50,num_layers=2)
输入20,可以简单的理解为一个RNN模块的输入层的神经元数是20
输出50,可以简单的理解为一个RNN模块的输出层的神经元数是50,也可以理解为隐藏层为50个神经元
Wih为(50*20)
Whh为(50*50)
当我们创建这样的神经网络的时候,我们就可以往这个网络中输入数据了,但要注意维度
因为创建网络的时候,已经指定了input_size=30了,所以我们输入的feature也应该是30,假如输入的维度xt是100,32,20,这个表示序列长度是100,也就是一个样本的长度,有32个样本,然后样本中的每个词的维度是32
然后还可以指定h0的维度2 , 32 , 50。,2表示层数*方向数。32表示样本数,50表示隐藏层的维数。如果在传入网络的时候不特别注明隐藏状态问,那么初始的隐藏状态默认参数全 是 0
input = Variable(torch.randn(100,32,20))
h0 = Variable (torch. randn (2 , 32 , 50))
将数据输入到网络中
output,hn=RNN(input,h0)
此时output的维度是100,32,50,50是输出层的神经元个数
此时hn的维度是2 , 32 , 50
LSTM
LSTM中的维度是普通RNN的四倍,可以理解为wih的维度为(50x4, 20)它的隐藏状态除了h0以外,还多了一个C0它们合在一起成为网络的隐藏状态,而且它们的大小完全一样,就是 (1αyer * direction, batch, hidden),
lstm=nn.LSTM(input_size=20,hidden_size=50,num_layers=2)
创建一个lstm神经网络,它的输入层的神经元是20,输出层的神经元数是50,层数是2层
input = Variable(torch.randn(100,32,20))
out, (hn, cn) = lstm(input)
out100,32,50
hn2,32,50
cn2,32,50
GRU号LSTM相似,先它的隐藏状态参数不再是标准 RNNrr叫的 4 倍,而是 3 倍,可以理解为wih的维度为(50x3,20),而且此时网络的隐藏状态也不在是h0和c0,而只有h0.
猜你喜欢
- 2024-11-01 假期学习必备:机器学习知识体系汇总,弄懂面试横着走
- 2024-11-01 #一天一个AI知识点# 什么是LSTM? #lstm有什么用
- 2024-11-01 NLP中应用最广泛的特征抽取模型-LSTM,虽老生常谈,却不乏新意
- 2024-11-01 TensorFlow 1.9更新,侧重对tf.keras文档,GRU和LSTM实现的改进
- 2024-11-01 #一天一个AI知识点# 什么是GRU? #gru1
- 2024-11-01 人工智能基础:LSTM及其变种介绍,方便针对实际问题取舍
- 2024-11-01 别再用RNN和LSTM了!注意力模型才是王道
- 2024-11-01 深度学习——动画版RNN、LSTM和GRU计算过程
- 2024-11-01 首次大规模神经机器翻译架构分析结果出炉,LSTM 优于GRU
你 发表评论:
欢迎- 最近发表
-
- 在 Spring Boot 项目中使用 activiti
- 开箱即用-activiti流程引擎(active 流程引擎)
- 在springBoot项目中整合使用activiti
- activiti中的网关是干什么的?(activiti包含网关)
- SpringBoot集成工作流Activiti(完整源码和配套文档)
- Activiti工作流介绍及使用(activiti工作流会签)
- SpringBoot集成工作流Activiti(实际项目演示)
- activiti工作流引擎(activiti工作流引擎怎么用)
- 工作流Activiti初体验及在数据库中生成的表
- Activiti工作流浅析(activiti6.0工作流引擎深度解析)
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)