热门搜索 :
考研考公
您的当前位置:首页正文

基于卷积神经网络的金融文本情感分析

来源:东饰资讯网
经济与社会发展研究科技与应用

基于卷积神经网络的金融文本情感分析云南财经大学 罗毅夫

摘要:在金融领域中,随着大数据时代的来临,信息生产和传递速度远超以前,每天都有各大公司的新闻报导出现在媒体上,面对日常大量的文本数据,往往缺乏有效的分析手段,分析效率低,成本高。随着技术的成熟,计算机硬件算力的不断提升,如今深度学习技术已经在图片识别,自然语言处理,自动驾驶,推介系统等多个领域大放异彩。其中,自然语言处理(NPL)为金融文本情感分析提供一种解决方案,本文即基于卷积神经网络模型,对金融文本进行情感分析,输入为文本预料,通过模型学习自动得到文本的情感分类,进而为金融领域舆情研究、量化分析等工作提供参考。实验结果表明,基于1DCNN神经网络对于文本情感分析有着良好的拟合效果,且情感分类的准确性有着良好的表现。关键词:金融文本;卷积神经网络;深度学习;情感分析

一、引言包含卷积层、池化层、全连接层等。其中卷积随着互联网时代的到来,文本数据量与日层用来进行特征提取,池化层用于降低维数,俱增,其中蕴含的数据量也越来越大,金融文全连接层可用于结果预测(也可使用全卷积网本信息有关个人股票投资和公司股票价格走络进行预测)。卷积神经网络中的核心即为卷向都有着重要的影响,对金融文本信息有助于积运算,其相当于图像处理中的“滤波器运算”。了解金融市场舆情,对于普通投资者也具备一对于一个m*n的卷积核,对其中某一图像X定参考价值。传统人工判断法在如今大数据时进行卷积运算,卷积核W中每一个权值w分代已经显得力不从心,而且人工分析,多多少别和覆盖原图像X中的像素x相乘,然后求和。少带有主观情感,有失客观性,而对于机器来卷积核fliter以一定间隔在原图像上进行滑动,说,金融文本情感,不仅仅来自于简单的主观分别得到运算后的值z。每一次卷积运算完成情感判断,更来源于文中所包含的市场信心指后,图像就会缩小,为了减少边缘像素损失,标(价格,成交率,波动等),和金融专家的通常会用额外的零对边缘填充。卷积层完成运判断。本文要做的就是运用目前流行的卷积神算后,会得到一个Feature Map,接着对Feature 经网络,对6946个金融文本进行分析,取其Map进行池化。对于图片来说,有一种“静态中20%样本作为测试集,其余作为训练集,性”的属性,即在图片中某一区域有用的特征,最后观察基于1D卷积神经网络模型训练后,在另一个区域也可以表达同样或类似的信息,对于测试集情感标签判断的准确性。如一张图片中的左上角包含一架飞机,但是当二、相关技术飞机这个区域出现在另一张图中的正中间时,(一)情感分析也可以表达同样的局部信息,根据这个原理,情感分析也叫观点挖掘,观点分析,即对我们对不同位置的特征进行聚合统计,这种聚文章所表达的观点倾向进行判断,然后把这类合就叫作池化处理。一般可以做最大值池化,观点分类到积极或消极中去,大数据时代的到均值池化等,最后把结果交给全连接层做分类来,为情感分析提供了大量天然的语料库,每或回归。在下文中,我们会介绍卷积神经网络天人们在网络中留下的信息,自媒体平台更新对于文本的处理方式。的文章等都为情感分析提供了发展基础。文本三、数据处理及模型应用的情感分析主要可以分为基于语义模型和基首先,使用网络爬虫爬取在互联网上6947于机器学习、深度学习等技术。条新闻报道文本,存放在excel表格中,对每(二)循环神经网络一条新闻分别做正向和负向标注。数据清洗在循环神经网络中每一个神经元做的事机器学习、深度学习及统计决策中都是十分冗情是一样的,一个单元结构会重复使用,当杂的工作,虽然数据清洗在深度学习中是最底前时刻的输出是由记忆和当前时刻的输入层的工作,但是数据清洗却是最重要的工作,所决定的,这就是RNN神经网络的基础,一份好的数据集无论使用什么模型都可以得到St=f(U*Xt+W*St-1),Xt表示t时刻的输入,St-1:表跑出满意的效果,一个差的数据集即使用最前示t时刻的记忆,f函数为激活函数,激活函沿的学习模型可能都达不到要求,需要耗费大数是为了用来过滤信息,做非线性映射,这里量的人力物力和时间,在此不做过多赘述。将的激活函数可以为tanh也可以是其他非线性excel表中的6947条数据通过python中的xlrd函数。最后,全连接层预测还需要一个权重矩包变量读取,写入文本文件,此时文本文件中阵,即Ot=softmax(VSt),Ot为当前时刻的输出。有6947行文本,每一行文本代表一篇新闻报道。(三)卷积神经网络接着使用jieba分词工具,事先加载我们准备卷积神经网络开始应用在图像处理中,一好的金融专业词汇语料库和正负向词汇表,根般把一张图片表示成一个三维向量,分别是长据这些语料对文本文件进行分词处理。最后,宽和像素维,然后扩展到可以做相似处理的音我们使用gensim工具包,将分词后的文本训练频,文本分析中。一个完整的卷积神经网络可出词向量模型,根据数据特点和反复试验对比,词向量长度取10000维;句子长度取 1000个词,长度不足的样本用0填充,长度大于 1000 的样本取前1000个词。gensim是自然语言处理中一个常用的工具包。Gensim在诸如获取单词的词向量等任务中非常有用。最后保存模型,为下一步情感分析做好准备。在使用keras工具包创建神经网络架构前,我们还需要对数据做一些简单的处理,我们刚刚只是得到了词向量模型,用这个模型可以计算词和词之间的相关度,但是并不能对输入的文本做预测,我们还需要把文本中对应的情感标签取出来,放到模型中去训练。设置词汇表为一万个单词,取出出现词频最高的前一万词,将其转化成词向量。接着把样本集进行随机切割,分割比例为训练集80%,测试集20%。最后生成嵌入层,也就是权重矩阵,权重矩阵在本文的作用是将高维词向量转为低维。其中,Embedding训练方式可以分为静态和动态训练方式。静态(static)方式:训练过程中不再更新embeddings。实质上属于迁移学习,特别是在目标领域数据量比较小的情况下,适合采用静态训练方式。(通过设置trainable=),非静态(non-static)方式:在训练过程中对embedding进行更新和微调(fine tune),能加速收敛。(通过设置trainable=True)整体架构如下图。到此,我们的数据处理工作就结束了,接下来就是构建卷积神经网络。在经过embedding后,如果考虑使用卷积神经网络,需要对单词向量进行卷积与池化。由于文本与图片不同,不需要对词语的每个维度进行提取,因此这里采用一维卷积。全连接层对上层输出的特征表示进行融合,得到最终分类结果。计算方式如下:Ot=softmax(V[h1,h2…ht]),Ot为输出,其中V是训练得到的权重矩阵。在得到训练样本和测试样本,词嵌入层后,我们可以将数据投给keras的Conv1d方法中,经过几轮测试发现,对于卷积层,参数设置为filters=128,kernel_size=5,activation=’relu’,池化层,pool_size=35,,全连接层,activation=’softmax’,损失函数选择二分类交叉熵;优化器选择 Adam,几个重点参数设置如上所述,能够得到较好的训练精度,最后我们得到测试精度test accuracy为90%。(下转第256页)·241·

文化与生活

方便管理的角度出发实施管理,缺少对群众体验评价和反馈信息的调研,导致一些管理规则的制定与方便群众使用的初衷相违背。从服务意识上看,大多数管理人员的服务意识不足,对读者或参观者的服务工作做得不够,而行政管理层也倾向于将馆藏数量、设施设备等作为建设的重点,而忽视服务工作的提升。而究其客观原因,公共文化设施建设的后续资金投入不足,导致运营管理的人员不足经费捉襟见肘,亦极大地影响了服务质量的提升。(三)专业管理人才匮乏漳州市公共文化服务的专业人才较为缺乏,文化“软实力”较为薄弱。一方面,工作人员不足与日益增长的读者服务需求相矛盾,日常工作量较大,现有队伍不能满足工作需要。另一方面,文化管理专业人才队伍匮乏,缺乏专业的策展人、文化活动的策划执行人,导致各文化场馆的文化活动相对较少,未能吸引群众的积极参与。三、补齐公共文化设施建设短板之对策经济与社会发展研究沟通的桥梁。(二)加强文化管理专业人才队伍的建设公共文化设施的规范化运营,离不开专业人才的管理和服务。建设一支具备专业知识和服务意识的文化管理人才队伍,一是要依托高校的人才培养,特别是对接地方高校的专业建设,培养满足现代文化经营管理需要的专业人才;二是加强公共文化服务机构相关人员的培训,提高文化管理人员的专业技能和职业素养;三是建立绩效评估标准和社会评价制度,促进公共文化服务单位不断提升专业水平和服务质量。(三)增加公共文化设施建设后续资金投入在完善公共文化服务体系的过程中,后续运营资金不足成为制约公共文化服务设施建设的一个难题。解决后续资金投入问题,不仅要依靠政府的经费投入,还要借助社会公众的力量。一是保障政府专项资金的持续投入,根据当前短板突出的乡镇村一级较为薄弱的基层公共文化服务设施建设,结合政府年度财政规划专款专用,将建设资金下沉基层,确保“将钱花在刀刃上”。二是坚持文化招商与大众创业同步推进,如通过“捆绑式”招商,向出资企业开放部分公共文化设施的使用权限,实现公共文化服务建设与企业的双赢。三是争取社会公益捐赠,鼓励地方企业、社会组织或个人以“荣誉捐赠”等方式资助公共文化服务机构。(四)构建漳州基层公共文化数字资源共享平台充分利用互联网信息技术和数字媒体技术,打造“互联网+公共文化服务”,运用互联网思维,构建符合区域需求的公共文化服务体系。探索“文化+”大数据平台,呈现漳州的区域特色文化模式,实现漳州区域整体的文化数字资源有效共享,有效突破漳州区域的基工作我们可以对词向量的长度,卷积层数等参数和架构进行优化,以提高模型的泛化度,总之值得进一步探讨。参考文献层公共文化设施城乡分布不均、差异大等实际问题,以数字化的文化资源有效缩小漳州区域的城乡差别,推进漳州公共文化设施建设的整体供给体系创新发展。四、结语改革开放以来,中国的经济建设取得了举世瞩目的成就,随着物质生活的提高,人民日益增长的精神需求成为社会发展的关注点。在中央加快构建现代公共文化服务体系的指导精神下,漳州市加快了公共文化设施的建设步伐,为满足人民群众的文化需求打下了基础,也成为带动城市建设、促进城市整体发展的重要组成部分。但在漳州市公共文化设施建设的过程中,存在有效供给不足、服务质量不高、专业管理人才队伍匮乏等短板。针对漳州公共文化设施的短板,应通过公共文化服务体系的制度、人才、保障经费、科技技术等层面的提升,进一步提高公共文化服务的效能,不断满足人民群众对美好生活的向往,更好地为满足漳州人民群众的精神文化需求服务。参考文献(一)建立群众文化需求反馈机制有效的供给建立在正确理解需求的基础上,做好公共文化设施和公共文化服务体系的建设工作,要深入考查地方的社情和民情,使群众的文化需求能有效地反馈到文化管理部门。一则,要树立服务意识,重视群众的反馈和意见,从实际需求出发搞好公共文化设施的建设工作。二则,要建立群众文化需求的反馈机制,搭建群众与文化管理部门之间的桥梁,如在各公共文化服务单位的官方微博、微信等新媒体平台上开通意见反馈通道,及时收集和整理群众的需求反馈,处理群众的建设性意见。此外,还要发展文化志愿服务协助公共文化机构的“编外参与”模式,提高公众对公共文化服务的参与度,搭建公众与公共文化服务机构(上接第241页)四、结论[1]全国人民代表大会.中华人民共和国公共文化服务保障法,中华人民共和国主席令[2016]60号[EB/OL].(2016-12-25)[2019-9-31].http://www.npc.gov.cn/zgrdw/npc/xinwen/2016-12/25/content_2004880.htm.[2]中华人民共和国文化和旅游部.国家公共文化服务体系示范区(项目)创建工作领导小组关于国家公共文化服务体系示范区(项目)创建工作的通知[EB/OL].(2015-04-30)[2019-9-31].https://www.mct.gov.cn/whzx/zxgz/gjggwhfwtxsfqcjgz/201504/t20150430_796684.htm.[3]高福安,刘亮.国家公共文化服务体系建设现状与对策研究[J].现代传播,2011 (6):1-5.Region Embedding.[4] Wang, P., Xu, J., Xu, B., Liu, C., Zhang, H., Wang, F., & Hao, H. (2015). Semantic Clustering and Convolutional Neural Network for Short Text Categorization. Proceedings ACL 2015:352–357.[5] Zhang, Y., & Wallace, B. (2015). A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification.[6]陈伟,吴友政,陈文亮,张民.基于BiLSTM-CRF的关键词自动抽取[J].计算机科学,2018(S1):104-109+126.[7]谢宗彦,黎巎,周纯洁.基于CNN和SOM的评论主题发现[J].情报科学,2018(6): 30-34.商业信息来自非结构化数据,主要是文本数据,这一说法可能夸大了文本数据在商业数据中的占比,但是文本数据所蕴含的信息价值是毋庸置疑的。金融量化分析进入到高阶阶段后,将进一步探索自然语言处理方法在金融市场或金融场景上的运用。本文据此提出了一种面向金融领域文本的基于卷积神经网络的情感分类模型。通过构建3层卷积层和一层全连接层,完成情感分类,实验结果精度为90%,模型可以准确地对金融文本进行情感分类,对于金融行业舆情和市场信心研究提供了一定的参考价值。但在卷积神经网络中,还有很多参数可以进行优化,本文只是粗粒度地设置了部分参数,精度已经达到90%左右,接下来的[1]Santos, C. N. dos, & Gatti, M. (2014). Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts. In COLING-2014 (pp. 69–78).[2]Johnson, R., & Zhang, T. (2015). Effective Use of Word Order for Text Categorization with Convolutional Neural Networks. To Appear: NAACL-2015,(2011).[3] Johnson, R., & Zhang, T. (2015). Semi-supervised Convolutional Neural Networks for Text Categorization via ·256·

因篇幅问题不能全部显示,请点此查看更多更全内容

Top