1. 研究目的与意义
近年来,互联网信息的爆炸式增长使得自然语言处理占据着至关重要的位置,无论是学术界还是工业界,对海量文本及数据的处理都颇为感兴趣。
文本情感分析作为自然语言处理的一部分,其发展不仅在自然语言处理领域有重大的影响,更是在政治、经济、社会科学等受人们主观观点影响较大的领域有着深远的影响。
文本情感分析是指对包含用户表示的观点、喜好、情感等的主观性文本进行检测、分析以及挖掘,伴随着互联网的发展,人们在网上对产品、新闻、话题、实事事件等方面的内容都开始发表自己主观的观点及看法,分析大家的看法观点中的情感成为了中外学者近年来的研究热点。
2. 课题关键问题和重难点
本课题的关键内容有:数据预处理①转码将文件转化为Unicode码②生成词汇表读取训练文件并提取其中所有的单词,统计它们出现的次数③借助词汇表把文本转化为词向量将词汇表中的每个单词对应一个编号,并将文本数据转化为词向量④统一长度设定一个固定长度,将大于该长度的文本裁剪,将小于该长度的文本填充模型编写①使用embedding构建次嵌入矩阵利用数据处理中得到的词向量构建出词嵌入矩阵②使用长短时记忆网络(LSTM)作为循环神经网络的基本单元③对embedding和LSTM进行随机失活(dropout)此举为了提高模型泛化能力并减少参数④建立深度为2的深度循环神经网络提高模型拟合能力⑤给出二分类概率模型训练验证模型把对词汇表进行操作的几个方法提取出来配置模型运行模型进行情感分析有以下难点:①文字非结构化,有长有短,很难适合经典的机器学习分类模型②特征不容易提取。
文字可能是谈论这个主题的,也可能是谈论人物、商品或事件的。
人工提取特征耗费的精力太大,效果也不好③词与词之间有联系,把这部分信息纳入模型中也不容易④中文文本分词比英文更复杂
3. 国内外研究现状(文献综述)
随着Intermet的飞速发展,庞大的Web资源日益演变为人们获得知识与信息的重要来源。
与此同时,由于Web资源的迅速膨胀以及Web信息的分散性与随意性,用户很难通过便捷的方式快速准确地从Web上获取所需的信,每天必须花上大量的时间与精力到各个网站上去浏览并挑出有效的信息。
因此,如何快速有效地对Web信息进行分类和索引以提供面向用户的快速检索访问成为一项重要的研究课题。
4. 研究方案
本课题主要是利用RNN(循环神经网络),训练出一个文本情感分类器,其主要功能是对于给出的一段中文或英文文本进行情感分析并加以分类。
总体方案是利用循环神经网络,训练出一个基于 IMDB 数据集的情感分类器。
首先对给出的文本数据进行预处理,然后设计一个RNN模型,将处理过的数据逐条存入训练组中。
5. 工作计划
第1周:确定选题,完成申请表;第2周:查阅资料,熟悉任务书要求;第3周:查阅资料,准备撰写开题报告;第4周:搜集、查阅相关文献资料,确定总体研究计划;第5周:搭建研发环境,准备实验数据;第6周:实验设计方案A:使用循环神经网络的情感分类器;实验设计方案B:多种神经网络结合的情感分类器;第7周:论证设计方案;完成开题报告初稿;第8周:完善开题报告;完成开题;第9周:系统开发:开始对英文文本进行情感分类;第10周:系统开发:完成对英文文本进行情感分类 ;检查与完善英文翻译;第11周:系统开发:开始对中文文本进行情感分类;第12周:系统开发:完成对中文文本进行情感分类;完成中期检查;第13周:结合导师意见,完善系统,测试系统成果;第14周:参考研究过程资料,撰写论文,完成论文初稿;完成软硬件验收;第15周:对论文进行修饰和完善,完成论文二稿;完成论文查重;第16周:完成论文定稿,制作PPT,完成答辩。
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。