引文文本内容中学科术语的自动抽取研究开题报告

 2023-09-01 09:47:35

1. 研究目的与意义

文献综述与调研报告:(阐述课题研究的现状及发展趋势,本课题研究的意义和价值、参考文献)

引文文本内容中学科术语的自动抽取研究

摘要:随着信息爆炸时代的到来,依赖于人工的术语抽取方法已不再方便,因而对于术语的自动抽取成为研究的热点问题。当前的术语抽取方法主要是有三大类,分别是基于规则的方法、基于统计的方法以及规则和统计相结合的方法。本文利用规则和统计相结合的方法,以2018年情报学报中发表的所有文献的引文文本作为研究对象,首先利用分词工具对引文文本进行分词、标注等处理,处理之后的数据,再利用Apriori算法提取频繁项集,以作为候选术语,再对候选术语进行C-value值的计算,以此对候选术语进行过滤,最终获得术语集合。实验结果显示,其准确率、召回率和F1平均值都取得了较好的结果。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和问题

研究内容:

1、先熟悉、总结前人研究的术语抽取方法

2、对于改进之后的C-Value方法,基于前人的研究在基础之上,细化利用Apriori算法进行术语抽取实验

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 设计方案和技术路线

1研究方法

1、文献研究法:利用图书馆、网络等资源搜集相关文献资料,阅读并分析各类文献,了解研究现状;

2、实验法:利用抽取方法对引文数据的术语抽取进行实验,获取准确率、召回率等抽取标准的数据。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究的条件和基础

1、课题完成者是信息管理与信息系统专业毕业生,完成了信息检索、Java程序开发、操作系统等课程的学习;

2、对算法的知识有一定的了解,并且具有较好的分析问题、解决问题的能力,能熟练地使用计算机;

3、现有类似的研究成果可供参考,图书馆在论文研究写作期间对毕业生全天开放,为完成论文提供了必要的条件与保障。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。