网站首页 > 技术文章正文

python编程之神经网络篇 python3神经网络

btikc 2024-12-22 14:32:23 技术文章 45 ℃ 0 评论

#头条创作挑战赛#神经网络发展到今天大致经历了2次兴起和2次衰落，1943年心理学家McCulloch(麦卡洛克)和数学家Pitts(皮茨)参考生物神经系统的工作原理，首次提出建立了MP神经元模型。

其中x1、x2、x3……xn来表示输入，w1、w2……wn表示权重，代表每个信号的重要程度，计算公式为：x1*w1+x2*w2+x3*w3+……+xn*wn，这被称为信号的加权求和，中间的f代表激活函数，它会对计算结果进行处理，只有大于阈值θ的才会被输出，否则不输出（或者输出为0）。神经元的整个计算公式如下

MP模型采用的激活函数是阶跃函数sgn（x）

1958年罗森布拉特基于MP模型提出感知机模型，最早的感知机就是由输入和输出层组成的线性分类器，输入层把信号加权求和传递给输出层，权重初始值是随机给定的，然后计算损失值就是输出结果和标签值之差，再根据损失值反向调整输入权重，重复多次直至模型可以很好拟合数据，实现有效分类，过程如图所示。

当时罗森布拉特演示使用该算法识别出简单图像，引发了全社会关注，美国军方甚至认为神经网络比“原子弹”更重要，大力投入经费研发使得神经网络的发展进入第一次高潮。但随着1969年人工智能泰斗马文·明斯基发文指出单层感知机无法完成异或问题，而多层感知机对计算机算力要求又太高，从而认为深度神经网络的研究没有意义，致使神经网络进入了第一次冰河期。异或问题如下所示，这种问题需要采用非线性方式解决，右图使用椭圆实现分类。

1970年芬兰数学家Seppo Linnainmaa提出反向传播算法，但当时没有引起人们足够的重视，1983年物理学家John Hopfield利用神经网络，在求解旅行商问题上获得了当时最好成绩，引起了轰动。但是20世纪90年代支持向量机的诞生又一次让神经网络陷入低谷，因为支持向量机可以把二维数据映射到高维从而简单完成非线性分类，并且没有增加计算复杂度，而且还支持小样本数据的回归和分类，相比较而言神经网络的可解释性较差，经常被称为黑盒子（人们很难说清楚每一个隐藏层的功能，所以使用的时候很担心）并且需要非常大量的数据，需要高性能的计算机。神经网络工作过程如下图所示。

Image Net是世界级计算机视觉领域挑战赛，比赛任务之一是对1000类图片分类。2010年冠军队使用支持向量机和手工操作相结合，错误率为28.2%，2012年多伦多大学首先使用深度神经网络使错误率降至15.3%，使用的神经网络仅由五个卷积层和三个全连接层组成，再一次把神经网络的研究推向高潮。之后每年的比赛都是神经网络的较量赛，2016年冠军团队使用了500多个卷积层，至此之后人们开始使用更多的隐藏层和神经元来解决问题。如今，据说微软使用了152层神经网络，拥有数千万级的神经元。

2011年IBM的超级计算机“沃森”打败人类选手夺得100万美元奖金。2016年谷歌的AlphaGo接连打败世界围棋冠军李世石和柯洁，它就是使用了神经网络算法。现在神经网络算法的使用已经非常广泛了，但人们依旧不知道黑盒子中的秘密，谷歌曾有一位工程师导出了AlphaGo的运行数据，想要研究一下它下围棋的秘诀，从而传授给学围棋的儿子，但研究了很久他也无法看懂隐藏层的调参过程。

下面就以建立单神经元模型求解直线方程为例来讲解。

根据我们的经验可以得到该方程应该是线性的：y=w*x+b，w为斜率，b为偏置项。

#导入要使用的第三方库
import tensorflow as tf                      #导入tensorflow库
import numpy as np                         #导入numpy库
import matplotlib.pyplot as plt        #导入绘图库

#生成数据
X=np.linspace(-1,1,100)        #使用numpy的linspace函数生成等差数列，-1到1之间的100个数    
y=2*X+1+np.random.randn(*X.shape)*0.4  #生成每个X对应的y值，y=2*x+1
#np.random.randn是生成一组服从标准正态分布的随机样本值，这里是加入噪音
plt.scatter(X,y)                      #绘制生成的数据散点图

def model(x,w,b):                   #建立模型，计算x*w+b，返回计算结果
    return tf.multiply(x,w)+b   #tf.multiply函数是把x和w对应位置的元素相乘

def loss(x,y,w,b):                            #定义损失函数，求均方差
    error=model(x,w,b)-y                #计算模型预测值和真实值的差
    squard=tf.square(error)            #求差值的平方，tf.square函数是对每一个参数求平方
    return tf.reduce_mean(squard)  #tf.reduce_mean计算参数某一维度的平均值，这里没有写维度

def grad(x,y,w,b):                              #定义梯度函数，计算x,y在w,b上的梯度
    with tf.GradientTape() as tape:     #tf.GradientTape封装了求导的计算
        loss_=loss(x,y,w,b)                    #调用损失函数计算均方差
    return tape.gradient(loss_,[w,b])  #对均方差在[w,b]上求导，返回梯度向量

w=tf.Variable(np.random.randn(),tf.float32)  #tf.Variable是声明变量，可以保存和更新参数
#构建变量w表示线性函数的斜率，初始值为随机生成的服从正态分布的数值
b=tf.Variable(0.0,tf.float32)                            #构建变量b表示线性函数的截距，初始值为0
p=8                                                                #训练的轮数，迭代次数
learn_rate=0.01                                             #学习率

for e in range(p):                                          #重复训练p次             
    for xx,yy in zip(X,y):                                  #每次从X和y中逐一取出[xx,yy]数据
        w_,b_=grad(xx,yy,w,b)                          #计算当前数据[xx,yy]在[w,b]上的梯度向量
        c_w=w_*learn_rate                               #梯度向量w*学习率=需要调整的w
        c_b=b_*learn_rate                                #梯度向量b*学习率=需要调整的b
        w.assign_sub(c_w)                                #w减去需要调整的w得到新的w
        b.assign_sub(c_b)                                 #b减去需要调整的b得到新的b
    plt.plot(X,w.numpy()*X+b.numpy())        #每一轮结束绘制一条拟合数据的直线
plt.show()

8轮迭代训练之后，模型基本稳定，画出的直线方程差异越来越小，最大化拟合了现有数据。

上一篇：不可逆加密系统中基于机器学习的图像解密技术
下一篇：人工智能在核能电池研发中的关键作用

网站首页 > 技术文章正文

python编程之神经网络篇 python3神经网络

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

python编程之神经网络篇 python3神经网络

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: