基于聚类模型的学科热点演化研究——以图书情报为例开题报告

 2023-09-01 09:47:34

1. 研究目的与意义

一 文献综述与调研报告:(阐述课题研究的现状及发展趋势,本课题研究的意义和价值、参考文献)

基于聚类模型的学科热点演化研究--以图书情报为例

摘要: 学科热点是大量研究者在某个学科所关注的主要研究方向,它可以不是学科前沿,但一定是这个领域的专家当前所关注的主要问题。学科热点是通过利用多种方法和软件对当前学科进行分析研究,从而对学科领域的重点研究方向进行深度挖掘。本文以图书情报为研究对象,通过搜集该领域近几年的相关论文,利用K-means算法进行聚类分析,了解图书情报领域的学科热点与演化路径。

关键词:图书情报学科;热点;演化路径;聚类算法

1 引言

分析学科热点分布以及发展方向有助于知晓学科领域发展状况,辨识学科当前研究热点,洞察热点演化脉络有助于探索学科发展轨迹,发现知识创新突破方向,从而使得学术资源可以得到最佳的资源优化配置。而学术论文是学者学术成果的主要载体之一,其所体现的研究主题正是这一领域的发展方向。但是,在大数据时代的背景下,学术论文的数量也正在以几何级数增长,如何从这些海量的论文中分析并呈现出其学科热点的演化脉络是一个重要的问题。只有这样才能及时洞察学科领域发展的重大势向,为相关科研人员选择研究方向以及科学决策提供参考依据。

2 题研究的现状及发展趋势

随着国内信息技术的快速发展,社会进入了大数据时代。如何把握一个知识域的结构与演变,对置身于当今信息社会的我们,是一项前所未有的、广泛而迫切的问题。图书情报领域作为一个交叉学科,其研究方式方法与其他学科领域的交叉越来越多、借鉴也越来越深。学科研究综述以及研究领域的热点演化分析作为深入了解一个学科的发展状况已经几乎是每项具体研究工作开始之前的必备步骤,其不仅能够为研究人员梳理学科研究发展历史,而且更为重要的一方面是其可以帮助了解学科研究态势,提高自身研究绩效。近几年来,许多的学者都致力于学科热点演化分析研究,以期在信息飞速增长的时代,获取准确而高效的有效信息。而其研究最早可以追溯到1945年“二战”结束时期,“信息科学之父”“NSF之父”V.Bush在As We May Think一文中首次谈到了信息爆炸所带来的知识利用问题,并明确指出了解决人类知识利用问题的思路——用不断出现的信息技术来协助人们管理和利用信息[1]。目前在图书情报领域研究综述梳理并不少见,但主要集中在某个方面例如信息资源管理、 大数据、学科方法、专利计量的研究热点,而在整个图书情报领域的研究却比较少见。李金建(2010)、苏娜(2012)、姜婷婷(2016)等人采用文献计量的方法对我国图书情报领域研究热点进行过分析,但分析的数据基本截至到2017年之前,对于目前每年相关领域学术论文以几何级数增长的情况下,这种数据显然是落后的,不够的。之所以进行学科热点演化研究其主要目的就是通过分析来知晓学科发展的现状,为学科热点的发现提供数据支撑,从而对学科未来的发展方向进行可信度比较高的预测。引文和关键词是体一篇文章著作的最简约的凝练,对主题具有揭示的作用。据此可以知道整篇文章的大概的研究方向。因此,国内外的许多学者基本都利用科学计量和自然语言处理方法来对论文的引文和关键词的特征进行统计归纳,从而进行学科热点演化研究。关于学科热点演化分析方法主要有三类:词频分析,主题模型分析和聚类算法分析。

2.1基于词频分析的学科热点演化分析

2002年,J.Kleinberg提出可以通过词频分布的特点来总结文献中代表热点主题的关键词,并提出突破监测算法,通过计算词频密度的变化识别文献集中代表研究前沿的主题词汇;2006年,马费成等基于词频分析方法梳理了国内外知识管理研究领域的研究热点、研究现状、研究方法和主要学科分布等[2];2011年,邱均平、温芳芳运用文献计量方法,从高影响力作者、高频关键词以及突变专业术语3个方面,对国际范围内图书情报学领域的研究热点和前沿进行辨识与追踪, 其中研究热点分析主要运用高频关键词和高中心性关键词分析[3]

2.2基于主题模型分析的学科热点演化分析

学科热点演化分析所使用的主题模型主要是由Blei于2003年提出的LDA模型:引入Dirichlet先验分布,构建“文档-主题-关键词”三层贝叶斯模型,运用概率方法对模型求解,作为一种非监督机器学习的文本挖掘方法,它能够在文档中挖掘出潜在的主题。此后LDA模型还经历了许多次的优化与拓展,如将时间维度当作LDA模型的内生变量进行建模;Blei后期还提出动态主题模型,将对象文档按时间片分开,分别进行LDA模型构建,然后对每个时间片的文档进行主题模型构建,然后依据一定方法如相似度计算等,以构建不同时间片间的关联等。目前已有很多的国内外学者将其运用于热点演化分析之中。2016年,王日芬、傅柱、陈必坤利用LDA主题模型探索分类视角下的主题提取与分布状态,全面深入地揭示学科知识结构并从文献中进行主题的抽取,挖掘出11个不同学科的20个热点主题及其所揭示的知识点[4];2017年,王文娟、马建霞使用LDA主题模型对海洋酸化相关研究进行主题分析,研究国家科研机构资助项目的主题布局和变化趋势确定了科研立项重点以及各主题的强度[5]

2.3基于聚类分析的学科热点演化分析

聚类分析是一种典型的无监督学习, 用于对未知类别的样本进行划分,将它们按照一定的规则划分成若干个类族,把相似(距高相近)的样本聚在同一个类簇中, 把不相似的样本分为不同类簇,从而揭示样本之间内在的性质以及相互之间的联系规律。组内相似性越大,组间差距越大,说明聚类效果越好,其在学科热点演化分析中也具有较为广泛的应用。2014年,张斌、贾茜提出共词分析对于学科认知结构分析能够起到非常重要的作用,于是他们从中国社会科学引文索引收录的LIS期刊的关键词数据集中找出100个频繁出现的词,利用聚类得到我国LIS四个主要分支,同时使用多维尺度分析和热点图相结合的方法分析期刊的内容特征,并研究其演化轨迹和使用趋势[6];2014年,闵超、孙建军在规范化的学科关键词交集的基础之上,从定量角度引入系统聚类分析,结合聚类类团命名的粘合力指标,绘制出高频交叉关键词的聚类树状图,深入探讨学科交叉研究热点的内在联系和发展脉络[7]。K-means聚类分析技术是基于划分聚类技术中的典型代表,是最古老,最流行的算法之一,由于其实现较为容易,收敛速度快,聚类效果较优而被广泛运用,本文也将采取此聚类算法。K均值聚类(k-means clustering)算法思想起源于1957年Hugo Steinhaus,1967年由J.MacQueen在他的论文《用于多变量观测分类和分析的一些方法》中第一次使用,标准算法是由Stuart Lloyd在1957年第一次实现的,并在1982年发布。k均值聚类(k-meansclustering)是一个根据数据的特征将数据分类为k组的算法。k是一个正整数。分组是根据原始数据与聚类中心(cluster centroid)的距离的平方最小来分配到对应的组中。

综上可知,目前已有许多学者基于特定学科领域进行学科热点演化分析研究,以期来探索学科前沿,揭示学科发展现状以及预测未来的发展方向,国内大部分采取的就是词频、聚类分析方法,少有使用主题模型的方法的。基于词频的学科热点演化研究,主要是通过单一或若干关键词词频的变化情况进行分析的,但是仅仅分析学科热点的变化趋势仅仅依靠经验和关键词数量的变化趋势显然是不充分的;基于LDA模型的主题挖掘方法基本上是直接利用LDA经典模型或者改进模型对全局语料进行主题抽取来研究学科发展现状,很难对学科热点演化内容与特征的维度进行划分;因此,本文将采取K-means聚类算法来分析图书情报领域的学科热点演化研究,这能够很好地解决基于词频的学科热点演化分析研究的不足,对学科热点演化研究进行更为深度与广度的分析。

3.题研究的意义和价值

大数据时代下网络环境中存在着海量文献数据资源,这对学者确定某一学科的研究热点带来了不小的挑战,而对于学术研究来讲确定研究热点又是必不可少的,这可以有效地帮助学者确定研究主题,减少不必要的学术资源浪费。学科热点演化分析是描述某一学科在一定的时间维度上的变化发展以及研究热点,从而用来帮助学者发现学科发展趋势,确定自己大概的研究方向。

(1)理论意义。通过对基于聚类模型的学科热点演化研究进行深入的了解,分析,研究的基础上,通过阅读相关的资料了解K-means聚类算法并采集近几年有关于图书情报领域的学术论文作为学科热点演化研究的数据支持,对数据进行有效分析,总结近几年图书情报领域的学科热点演化规律,为学者把握学科发展历程和方向、选择研究主题、合理有效分配研究资源提供参考,还能够为未来学科发展趋势预测及相关规律发展等提供研究基础。

(2)现实意义。随着社会的飞速发展,学科在不同的时间阶段会因为国情以及相关科技的发展等而呈现出不同的研究热点,这些热点高度概括了某一阶段某一学科的重点研究方向和发展方向。但是由于学术论文在以几何级数增长,如果只是单纯的靠学者采取人工方式进行分析的话那么工作量是巨大的,并且一个学者是很难了解某一学科的全部领域的,而利用算法来实现的话可以在一定程度上弥补这一缺陷,能够更准确更客观地进行热点分析。

参考文献

[1]王效岳,白如江.海量网络学术文献自动分类技术研究[M].北京:人民出版社,2015:40-42.

[2]马费成,张勤.国内外知识管理研究热点——基于词频的统计分析[J].情报学报,2006(2):146-151.

[3]邱均平,温芳芳.近五年来图书情报学研究热点与前沿的可视化分析——基于13种高影响力外文源刊的计量研究[J].中国图书馆学报,2011,37(02):51-60.

[4]王曰芬,傅柱,陈必坤.采用LDA主题模型的国内知识流研究结构探讨:以学科分类主题抽取为视角[J].现代图书情报技术,2016(04):8-19.

[5]王文娟,马建霞.基于LDA的科研项目主题挖掘与演化分析——以NSF海洋酸化研究为例[J].情报杂志,2017,(36-7):8-19.

[6] 张斌,贾茜.我国图书情报学的认知结构及其演化[J].中国图书馆学报,2014(7):30—46.

[7]闵超,孙建军.学科交叉研究热点聚类分析——以国内图书情报学和新闻传播学为例[J].图书情报工作,2014,58(01):109-116.DOI:10.13266/j.issn.0252-3116.2014.01.016.

[8]霍朝光[1],董克[2],司湘云[2],国内外LIS学科主题热度演化分析与预测.图书情报知识,2021,(2)

[9]高劲松[1],韩牧哲[1],学科热点概念的增长规律及属性分选研究——以我国图书情报学领域为例.图书情报工作,2019,63(20)

[10]孟巍[1],大数据驱动下的图书情报学科热点领域挖掘.农业图书情报学刊,2018,30(7)

[11]Rziga K., BenHajKacem M.A., Essoussi N. (2019) A New Spark Based K-Means Clustering withData Removing Strategy. In: Jallouli R., Bach Tobji M., Bélisle D., MellouliS., Abdallah F., Osman I. (eds) Digital Economy. Emerging Technologies andBusiness Innovation. ICDEc 2019.

[12]Dong, K., Xu, H.,Luo, R.et al.An integrated method for interdisciplinary topicidentification and prediction: a case study on information science andlibrary science.Scientometrics115,849–868 (2018).

[13] Wang, X., Wang, H. Huang, H. 信息学科研究课题网络的演化探索与比较分析。Scientometrics126,4991–5017 (2021).

[14]Chang, YW., Huang,MH. Lin, CW. Evolution of research subjects in library and informationscience based on keyword, bibliographical coupling, and co-citationanalyses.Scientometrics105,2071–2087 (2015).

[15]Figuerola, C.G.,García Marco, F.J. Pinto, M. Mapping the evolution of library andinformation science (1978–2014) using topic modeling on LISA.Scientometrics112,1507–1535(2017).

[16]王小会.近5年国际图书情报领域研究热点与趋势——基于SSCI数据库的计量分析[J].西南民族大学学报(人文社会科学版),2021,42(09):220-231.

[17]顾俊.基于关键句的K-means算法在热点发现领域的研究与应用[J].贵州科学,2016,34(03):93-96.

[18]朱希田[1],基于CIT系统的数字图书馆学科的热点研究.数字图书馆论坛,2009,(4)

[19]徐建国,韩青君,李青.K-means聚类算法及其在网络舆情中的应用[J].软件导刊,2018,17(11):65-67.

[20]宋楚平,李少芹.一种K-Means改进算法在图书馆主题挖掘中的应用研究[J].情报理论与实践,2014,37(11):120-123.DOI:10.16353/j.cnki.1000-7490.2014.11.021.

[21]肖婉玉,张伟.我国会计学科热点演化路径可视化及多模式识别研究[J].财会通讯,2021(01):15-18.DOI:10.16144/j.cnki.issn1002-8072.2021.01.002.

[22]李元芝[1],韩俞[2],孙艳伟[3],赵晋琳[4],对外汉语学科的研究热点与发展方向.赤峰学院学报:汉文哲学社会科学版,2017,0(8)

[23]李淑燕[1,2],吴远仁[1,2],我国农业经济管理学科前沿热点追踪——基于CSSCI(2001-2017)数据的知识图谱分析.武汉商学院学报,2019,33(3)

[24]岳婷[1],张建勇[1],应用Autonomy专题聚类方法揭示领域学科热点.现代情报,2009,29(8)

[25]顾婷[1],基于社会网络分析的图书馆法律领域研究热点及内容分析.甘肃科技纵横,2021,50(2)

[26]徐呈呈[1],刘艳笑[2],近五年我国图情领域研究热点分析——以中国知网与科学网为例.情报探索,2021,(8)

[27]李慧妍[1],2011-2020年国内电子信息科学领域研究热点与主题演化可视化分析.电脑知识与技术:学术版,2021,17(13)

[28]徐春光. 基于语义分析和改进K-means算法的新闻热点提取方法研究[D].北京化工大学,2014.

[29]张蒙[1],刘春艳[1],2012—2018年国家社会科学基金项目图书馆、情报与文献学学科热点可视化分析.图书馆研究与工作,2020,(10)

2. 研究内容和问题

基本内容:

1.了解有关图书情报相关研究内容以及K-means聚类分析方法;

2.通过知网搜索图书情报领域方面的期刊论文,对论文进行关键词进行提取;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 设计方案和技术路线

研究方法:

1.文献收集法:确立检索策略,使用计算机和检索工具,利用图书馆、信息互联网络收集研究相关论文;

2.文献研究法:对目前已有的论文数据进行分析,得出准确的相关研究方向数据;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究的条件和基础

1.课题完成者是信息管理与信息系统专业毕业生,完成了信息资源管理、信息存储与检索、信息分析与预测等课程学习;

2.对学科热点概念有一定的了解,具有较好的分析问题、解决问题的能力;

3.可从学校图书馆、数字资源数据库及网络上获取丰富的文献资源以供参考。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。