1. 研究目的与意义
现如今,计算机技术已经越来越成熟,成千上万的互联网用户,无论在什么地方,什么时间都不停的产生大量的文本数据。
在大数据时代下,通过对这些数据信息收集整理,加以合理的分析,可以更加精确的把握其潜在的巨大价值;例如,企业能从这些文本数据中快速得到用户的不同意见和反馈,从而推出令人满意的产品;因此急需一种高效的文本情感分类技术,并用算法进行自动实现,文本情感分类技术作为信息检索与数据挖掘的技术,是文本分类中的一个重要分支,它可以将浅层的字面上的文本信息结合上下文信息、词与词之间的联系等作为情感分类的关键。
从而对大量的杂乱的文本信息进行分类。
2. 课题关键问题和重难点
因为文本表达这一形式在人类社会中的无处不在,很多数据挖掘的应用场景中都需要对文本进行正确的分类。
本文结合深度学习的相关知识,将在图像处理方面有卓越表现的卷积神经网络迁移到文本分类上。
本文难点:(1)通过对基于词典的文本分类器学习,将其成功应用文本情感分类中,根据算法的不同特点,加深对于文本分类器的理解。
3. 国内外研究现状(文献综述)
现如今,计算机技术已经越来越成熟,成千上万的互联网用户,无论在什么地方,什么时间都不停的产生大量的什么时间都不停的产生大量的文本数据,而自动文本分类是文本数据管理、价值挖掘的最重要的部分。
国内自动文本分类技术的起步略晚于国外,大致始于20世纪80代初。
以侯汉清[1]教授对自动文本技术的概括性报告为开端。
4. 研究方案
传统基于情感词典分类,无法从句意上真正的去理解句子,忽略了上下文的关系。
而基于卷积神经网络的文本情感分类器,即先使用模型对词向量进行训练,得到语义词向量,再使用卷积神经网络对语义词向量进行特征选择和分类。
来自2014年 Kim.Y 提出的TextCNN,其优势在于网络结构简单,在模型网络结构如此简单的情况下,通过引入已经训练好的词向量依旧有很不错的效果,在多项数据数据集上超越benchmark。
5. 工作计划
第1周:确定选题,完成申请表;第2周:查阅资料,熟悉任务书要求;第3周:查阅资料,准备撰写开题报告;第4周:搜集、查阅相关文献资料,确定总体研究计划;第5周:搭建研发环境,准备实验数据;第6周:实验文本检索;实验关键词统计分类;第7周:论证设计方案;完成开题报告初稿;第8周:完善开题报告;完成开题,英文翻译;第9周:系统开发:完成预处理;第10周:系统开发:完成分词、统计;检查与完善英文翻译;第11周:系统开发:完成特征选择;第12周:系统开发:完成功分类器评估;完成中期检查;第13周:结合导师意见,完善系统,测试系统成果;第14周:参考研究过程资料,撰写论文,完成论文初稿;完成软硬件验收;第15周:对论文进行修饰和完善,完成论文二稿;完成论文查重;第16周:完成论文定稿,制作PPT,完成答辩。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。