热门搜索 :
考研考公
您的当前位置:首页正文

机器学习与深度学习的发展及应用

来源:东饰资讯网
ELECTRONlCS WORLD・攘霉与琴 察 机器学习与深度学习的发展及应用 南京市第十三中学周子扬 【摘要】本文综述了机器学习常见算法的应用,以及深度学习中常见网络模型的基本原理及深度学习在计算机视觉、语言识别、信息检索、 自然语言处理等四个方面的应用。在本文的相关工作中,阐述了近七十年来机器学习的发展状况以及深度学习的产生与发展。 【关键词】机器学习;深度学习;神经网络;应用 一 背景 机器学习,是指借助算法来分析数据规律、并利用规律来预测结 果的算法,它分为监督学习、无监督学习和强化学习。深度学习是机 器学习中神经网络算法的扩展 它是机器学习的第二个阶段..深层学习 (第一阶段为浅层学习),其中深度是指神经网络的层数。因为机器学习 中的单层感知机只适用于线性可分问题,而无法处理线性不可分问题。 但深度学习中的多层感知机可以实现,它针对浅层学习的劣势一维度灾 难(特征的维度过高,或者无法有效表达特征),能够通过它的层次结构、 低层次特征中提取高层次特征,弥补浅层学习的不足。 由于机器学习的发展,机器学习自动学习数据隐含高等级特征 的能力,会随着模型的改进以及训练数据的扩充而逐步提升,这导 致深度学习也随之发展。 二 机器学习常见算法应用 1.分类 (1)决策树算法(Decision Tree,DT) DT算法可用于文章分类工作,将关键句子分为不同类别;也 可以用于人脸识别,对人的面部特征分类,例如鼻梁高低,获取特 征数据后,与数据库内数据匹配,进而识别。 (2)人工神经网络(ArtiifcialNeuralNetwork.ANN) 网易公司为了过滤互联网上的广告、谣言、暴恐等不健康内 容,利用ANN研发了反垃圾系统,过滤不良信息。 (3)支持向量机(Support Vector Machine SVM) SVM可以快速处理大量的数据,用于生物学分类问题,例如人 类等高等真核生物基因剪接位点识别问题;也可以通过构造一系列 超平面,将大规模的图片进行分类。 (4)朴素贝叶斯(Naive Bayes NB1 NB对大量的数据的分类效率稳定,常用于医院给病人分类的 系统,也用于新闻网站的新闻分类。 2.预测类 (1)k-近 ̄g(KNN1 KNN算法常用于手写数字识别领域,准确率非常高。处理数据 时,先将训练数据用矩阵储存,之后再转化为向量。然后将测试数 据输入模型,输出所写数字。 (2)逻辑回归(Logistic Regression,LR1 银行在进行信用评估时常使用LR算法,例如在客户填写信息表, 银行从表和第三方信息源处获得客户的信用信息,并将此数据作为输 入,信用值作为输出,经过LR计算确认该客户的信用等级。医学方面 也时常用到LR,根据病人的危险因素,预测病人的发病概率。 (3)GBDT GBDT算法可用于广告点击率的预估方面。和传统的LR相比, GBDT拥有多种优势,其具有多种区分性特征。而且由GBDT得到的结 果中的特征和特征组合都具有区分性,效果可以和人工预测相媲美。 三.深度学习常见网络 神经网络是深度学习中的一种算法,它也是深度学习的载体。它包 含输入层、神经元和输出层,最早的单层神经网络又叫感知机,在结 构上它由输入层、隐藏层和输出层组成,连接各层之间的是权值。 ・72・ 电子世界 假设输入为x,输出为Y’,真实值为Y,则损失函数E为 E= ∑ : (y —Yi) (1) 训练时它的权值w为随机值: W=W—n VE (2) 通过梯度来更新,公式其中表示学习率,用于修正权值的变化 幅度。 但单层神经网络有局限,它不可以处理非线性可分的问题,而 且如果增加层数,则计算量会迅速增大。后来两层神经网络被提出 用于解决非线性可分问题,为减少计算量,有人提出BP算法。其 中BP算法是一种由后向前计算梯度、更新权值的机制,它基于高 等数学中的链式法则。 深度神经网络(DNN)是指具有两层以上的神经网络,它可 以通过增加层数或者增加每层的单元数,来存储更多的参数,从而 构建更精密的模型。 它的训练是基于贪心算法的逐层训练,也就是训练好上一一层之 后再增加下一个层,把上一层的输入作为下一层的输出。通过梯度 下降方法来更新权值。 1.循环神经网络(RNN) 但DNN会随着层数的增加而记忆退化,也就是出现梯度消失或梯 度爆炸等问题,为更好的记忆参数,有人提出循环神经网络的概念。 ‘ 珊 图1 RNN展开图及LSTM结构对比 如图2所示,隐层中的神经元基于时间传递,即上一时刻的隐 层中的参数输出,作为下一时刻隐层中的输入。RNN的训练主要基 于BPTT算法,它的局限在于,长期依赖问题。当它处理那些需要 前后联系的信息的问题时,效果会变得差。比如,机器翻译里的长 句翻译,若是基于RNN构建模型来训练,翻译效果极差。 为了解决该问题,有人提出长短期记忆(LSTM)。将RNN中 的隐藏层中的神经元替换为更复杂的神经元结构一一增加_,一些门 结构,如输入门、输出门、遗忘门。 RNN的内部结构,它只包含 一个tanh的简单处理逻辑,LSTM 为解决长期记忆问题,将tanh替换,其中的遗忘层,用于决定遗忘 的信息,它读取上一时刻中的参数x 、h ,输出经过sigmoid激活函 数。输出值为0表示全部忘记,1表示全部记住。输入门决定存储的信 息,输出门表示传递给下一时刻的信息。 2.卷积神经网络fCNN1 CNN是一个多层神经网络,它解决了深层神经网络中模型复杂、 参数过多问题。它由输入层、特征提取层、特征映射层等组成。 CNN通过三种机制一一局部感受野、权值共享、时间/空间亚 采样,来保证信息的稳定性一一尺度、位移、形状不变。 特征提取层是一个卷积层,它通过卷积运算来强化特征信息, 同时降低噪音。特征映射层是个下采样层,它通过对此图像进行 子抽样,来减少信息量从而降低噪音。 卷积神经网络通过感受野和权值共享来减少参数的个数,从而 降低训练模型的训练成本。普通的神经网络是通过全局来感受外界 图像,而卷积神经网络是通过局部感受野来感受外界图像,第一层 ELECTRONICS WORLD・探索与观察 的神经元综合起来传递给高层,然后高层得到全局信息。通过这种 方式可以减少权值参数。 3.受限波尔兹曼机(RBM) RBM由可视层和隐藏层两部分组成,它是基于能量模型和波 尔兹曼网络。能量模型是一种基于状态来定义状态的能量的模型, 而波尔兹曼网络是一种随机网络,它的输入层可以计算隐层节点的 值得概率,输出层也可以。下图为受限制波尔兹曼机的结构。 隐藏层和可视层通过权值连接,而同层之间没有连接。所有的 隐藏层和可视层都满足波尔兹曼分布,所以可以通过输入可视层来 得到隐藏层,然后由隐藏层得到可视层,根据偏差来调整参数直得 到的可视层与原来的可视层一致为止,这时候的隐藏层便可以作为 可视层变换后的特征。 增加隐藏层的数量便得到深度波尔兹曼机,把靠近可视层的部分 改为有向图模型,远离可视层的部分仍为受限制波尔兹曼机时,便可 得到深度信念网络(DBN)。DBN是一种生成模型,它由多个RBM组成, 训练时通过逐层传递的方式来计算权值参数,这样便于学习权值。 3.信息检索 传统信息检索采用TF.IDF系统,但该系统针对大词汇量的问题 处理效率低下,而且语义相似性也没有考虑到。深度学习从2009年 开始应用于信息检索,DNN可以很好地表示文档的词计数特征,通 过深度自编码器将语义相似的文档存放在相近的地址,从而提高检 索效率。LLOU2014年,Shen Yelong提出的卷积深度语义模型,可以 将上下文中相同语义的单词通过卷积结构,投影到上下文特征空间 向量,把准确率从43.1%提高 ̄1J44.7%。 4.自然语言处理 传统的自然语言处理多是分离式处理问题,比如语言模型、语 义相关词,没有整体处理。传统系统有一些不足,比如浅层结构、 分类线性可分,需要人工特征预处理等。2008年R.Collobert在自 然语言处理领域开始应用DNN,错误率达到14.3%。 五,结语 机器学习是人工智能里的一个重要方向,随着机器学习中神经 网络算法的深入研究,深度学习的网络算法也日益完善,机器学习 与深度学习的应用也不断推广。本文先综述了机器学习常见算法的 应用,然后由神经网络引入深度学习,介绍了深度学习中常见网络 的原理以及应用。 由于作者见解和时间局限,关于机器学习和深度学习的研究有 待完善,因而接下来会注重更多深度学习算法的研究。 参考文献 【1】张建明,詹智财,成科扬,詹永照.深度学习的研究与发展[J/OL].江 四、深度学习的应用 1.计算机视觉 传统的机器视觉方法,主要取决于自定义的特征,然而这些特 征不能抓取高等级的边界信息。为了弥补小规模样本的不足一不能有 效表达复杂特征,计算机视觉开始转向深度学习,比如2012年A. Krizhevsky对Image Net LSVRC 2010数据集(有1000个种类的120万个 图像),用DNN来分类。在top1和top5上的错误率依次是37.5%和 17.O%,超过了传统方法。除此之外,深度学习在人脸识别中也取得 很好的识别效果,LL ̄EI2014年Sun Yi用深度隐藏身份特征(deep hidden identity feature)来表示面部特征,在LFw上测试准确度达 ̄IJ97.45%。 2.语音识别 语音识别已经发展了几十年,传统的方法是统计学方法,主 要基于隐马尔可夫一高斯混合模型(HMM.GMM)。传统方法的特 征无法涵盖语音数据的原有结构特征,因而对数据相关性的容忍度 低,而DNN替换GMM后可以弥补此不足。LP, ̄[32012年微软的语音 视频检索系统,通过深度学习方法将单词错误率(word error rate) 从27.4%降到18.5%。DNN相比于HMM.GMM有10%左右的提升, cNN相比DNN,对数据间的相关性适应能力更强。 苏大学学报(自然科学版),2015,36(02):191—2OO(2O15—01-22)[2017—08— 211.http://kns.cnki.net/kcms/detail/32.1668.n.20150122 1716.013.htm1. [2]毛勇华,桂小林,李前,贺兴时.深度学习应用技术研究D/OL】. 计算机应用研究,2016,33(11):3201—3205(2016-06—15)【2017-08-21】. http://kns.cnki.net/kcms/detail/51.1196.tp.20160615.1021.018.htm1. 【3】胡侯立魏维,胡蒙娜深度学习算法的原理及应用D】.信息技术2015(02): 175—17712017—08—211.DOI:10.13274 ̄.cnki.hdzj.2015.02.045. 【4】乔林,张雄伟,史海宁,贾冲.第4讲深度学习应用中的常见模 型【I1.军事通信技术,2016,37(01):98—10412017—08—21】.DOI:10.16464/ j.cnki.cn32—1289.2016.01.020. (上接第71页) (7)评估单元,用于根据权重向量及模糊综合评价结果向量计算食品 的安全等级。 云中心的预警模块在食品安全等级信息大于预设阈值时生成相 应的预警信息。 云中心还包括: 云计算管理中心,用于为安全评估模块根据食品信息数据对食 品进行安全评估,计算相应的食品安全等级信息动态分配云计算资 源,动态分配云计算资源包括计算服务器分配计算量、调用计算服 务器的计算资源、以及验证各个计算服务器的计算过程和结果。 本文中,设有的云计算管理中心对服务器的计算资源进行调 配,相比于将计算资源置于一个系统平台下而进行视频安全评估和 预警的传统方式,能够合理调配资源,运行效率更好,计算更快。 进一步的,本地终端还包括资源调用模块,用于调用本地的资 源进行计算并将计算结果上传至云中心。 信息采集端采集的食品源头信息数据和食品过程信息数据,可 以通过与云中心建立的通信网络,实时将食品信息数据上传至云中 心,云中心中的信息接收模块对食品信息数据进行接收,由云中心 的安全评估模块根据食品信息数据对获得食品安全等级信息以及由 云中心的预警模块生成相应的预警信息;云中心的信息储存模块进 三,总结 本文提出的基于云计算的食品数据分析系统通过信息采集端采集 食品信息数据,通过云中心搭建信息接收模块、安全评估模块、预警 模块和信息储存模块对食品信息数据进行处理储存以及生成相关的安 全等级信息和预警信息,在本地终端包括了信息查询模块用于获取相 应的所述预警信息,以及所述食品安全等级信息;云中心分别与信息 采集端和本地终端建立通信连接的技术方案,解决了现有技术由于食 品安全信息冗杂,食品安全评估以及获取食品安全等级信息的复杂而 占用资源多、效率低下、维护成本高的问题,获得了计算效率高,占 用资源少,更便于群众迅速及时获取食品安全信息的有益效果。 参考文献 行数据的储存;云中心的云计算管理中心对服务器的计算资源进行 合理的评估后调配,以实现更高效率的计算;本地终端通过与云中 心的网络连接,信息查询模块向云中心发出查询信息,从而获取相 应的预警信息,以及食品安全等级信息。 【1】刘胜达,王知强,徐淑新,王英玮,葛雷,陈本士,董玲.智慧城市食 品安全追溯系统研究[I1.智能计算机与应用,2014(01). f21李佳洁,王宁,崔艳艳,王志刚.食品追溯系统实施效力评价的国 际经验借鉴Ⅱ].食品科学,2014(08). 【3】上海市食品流通安全信息追溯系统时间表o】.中国动物检疫2013(06). f4]R0国信.福建:进口食品安全追溯系统通过验收Ⅱ】_中国包装2013(10). 【5]y-冬梅碱国首家牛肉跟踪追溯系统上岗 肉品卫生,2005(06). 『61思文・席勒.食品安全的重要举措:追溯系统的建立uJ.肉类研 究.2005(08). 电子l ̄llt ・73・ 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top