基于LDA的ESI研究前沿主题发现研究

阅读: 评论:0

理论探讨
<■
润颖
基于LDA的ESI研究前沿主题发现研究
摘要:文章利用LDA主题模型对ESI 研究前沿进行主题发现研究,将每1期的ESI分类的22个学科领域的研究前沿视为1个文档,1年6期数据共计合成132个文档,再将这些文档构成文档集,利用R语言贡献包中的LDA函数进行主题建模,得到“文档-主题-术语”矩阵,在此基础上可视化表征学科领域的主题及其演变、交叉融合%
关键词:研究前沿;主题发现;主题建模;ESI;LDA
—、弓I言
科学文献主题发现是科技情报分析
的基础。LDA主题模型因其具有对海量
异构文本数据建模的优势,在科学文献
知识挖掘、科学研究热点发现与新兴主
题探测、科学研究主题演化、学术评价等
研究方向得到了广泛的应用。关鹏、王曰
芬等研究了最优LDA主题数确定方法,
分析了主题抽取的效果;张勇开展了基
于词性与LDA主题模型的文本分类技
术研究,词性方法
有效的,具有性;等研究了
基于LDA主题模型的书网页书目信息
方法。
目前,基于ESI研究前沿的研究主要
集中在方面。关于研究前的探
测,关于研究前的,三是关于
研究前的学科分析与。研究为人脸识别安装方法
书开展学科知
的,在“”建
设大背景下,ESI关注,深入研究它
对学科知的价具有的现
流通。在信息环境方面,相比于网络空,应的建,展,
开展各项活动时对空间的主要任务。
四、结语
本文构建的众创空间信息生态系统评价,3彳
20,该
对的建设要发,对
信息要的丁评的确定基础,
关闭起重装置
能够对信息
进行较为全观的评价,具有较的适用性,运用基于灰关联度的改进方法确定,使得评估结果加科学合理,评价定参考。
参考文献:
[1]乔艺波.南京创客空间调研及对众创空间建设的启示[A].中国城市规划学会、东莞市发展理性规划----2017中国城市规划年会论文集(16电压跟随器电路图
区域规划与城市经济)[C].中国城市规划
学会、东莞市:中国城市规划学
会,2017:9.
[2]李金津,沈涛,田波,等.企业信息生
态对术创新的[J].图书情报工
作,2016,60(12):69—74.
[3],.信
康的、本质及评价体系研究[J].科技
研究,2009,29(06):263—266.
[4],.企信
的及构建研究[J].
工作,2010,54(16):22—25.
[5]涛,,张连峰,孙学帅,许孝
.信的
生姜去皮机
[J].情报理论与实践,2012,35(08):12—16+
11.
[6],.基的众
创空间构
发研究[J].科技进步与对策,2017,34(24):
137—145.
[7]陈奇,郑玉华,洪珈珈,等.基于
CMM的众创空间服务能力评价研究[J].
科技管理研究,2018,38(20):97—102.
[8],国,.视
下众创空间模型构建[J].科技
进对,2019,36(06):19—25.
[9],.众创空间
构建[J].计,2018,34
(20):185—188.
电动黄包车
[10]徐莉,胡文彪,张正午.基于区域创
的众创空间运行效率评价----以
我国30省份的众创空间为例[J].科技管
理研究,2019,20(17):71—81.
[11]崔.基于改进型灰关联度
模型的众创空间核心竞争力评价[J].统计
,2019,35(07):177—180.
"基金项目:国家社会科学基金项目
“&互联网+'思维下面向万众创新的图书馆
服务创新研究"(16BTQ004)。
(作者单位:孙斌,江苏省科技发展
战略研究院;卢文康、梁炜、卢章平,江
苏大学科技信息研究所。卢文康为通讯
作者)
702021年1期(1月)
CHINA COLLECTIVE ECONOMY
意义。每期发布的ESI 研究前沿都会有较 0的变化,本文以.年6期ESI 研究前 沿为研究对象,对其开展了基于文本挖 掘的探索性研究,旨在发现科学研究主 题,为解析学科结构、掌握学科发展脉 络、预测技术发展趋势等学术情报分析 奠定基础。二#ESI 研究前沿的主题模型分析主题模型是一种以非监督学习的方 式对文本集的隐含语义结构进行聚类的3§§5§888O O human •lem g
b equations  oquabon  method  nonlinear o
o o
o cognitive  stress wrvey  star  matter  galaxies  black  stellar  galaxy  mass  hole memory  depression dark orgarwc
sod global
carbon climate dirucal spectes  water environmental disorders
change  forest heart chronic disease  -fractional lung  chncal patients  - treatment  -differential sctirodinger  generalized  dimensional 图!主题-词频矩阵分布图(仅展示前6)表! ESI  22个学科主题数统计表topic field topic field 1Molecular  biology 12AgDicultuDal  Sciences 2Environment 13ComputeD  Science 3Neuroscience 14Immunology 4Space  Science 15Plant 5Clinical  Medicine
16ChemistDy 6Mathematics 17MateDials  Science 7Geosciences 18Economics 8EngineeDing 19MicDobiology 10Social  Sciences 20Clinical  Medicine 11Biology 21PhaDmacology 11MultidisciplinaDy 22Physics 统计模型,广泛应用在语义分析和文本挖 掘等研究领域。本文将 1期的1 学 科领域的研究前沿视为一个文,利用 LDA 算法生成“文档-主题”“主题-术语” 和“文-主题-术语”三种矩阵形式的结 ,在基础 取领域学科主题! LDA 主题建模需要预先给定主题的数量,需要 进行 主题量,在一定的 性,因为ESI  了 22 个学科领域,所以有 学科领域至少包含1个主题。 用R 语言中 topicmodels 工具包中的LDA 函数创建
22个主题模型 先 主题- 阵,如图1所示。,将 主题与22个学科相对 应,结 1 。1可见,有20个主题与学科领 域---对应, 以表明LDA 对于ESI 研究前沿的分类 较。 对应学科
的主题有2个,其,9 主题是未能对 应 学科, 11 主题对应 学和学科2个领域。
以术语 为例,发现至少有107
gtem小室个文 含了 术语, 14 主
题和多个学科,术语主•分布于临床医 学和化学 学科领域! 以探索术
语(term )在文档 & document  )# 主 题(top ­ic )# 学科(field )的分布情, 发
现有 的学术 。 ,2019 5月
的 现了突变,20 主题变成5
主题, 研究,需要
得到领域 的解读。
三、ESI 研究前沿的主题发现
(一"稳定的学科及主题的发现1. 科学领域稳定的研究对象 发现以农业科学为例,图2展示了农业科 学领域的主题术语 变 现 , 显可以看出“水”、“ ”、“ ”、“0 ”是 科学学科 定的研究对象, 现了
为人类以 基础的 、7
的生长环境在农业科学领域的重要位置!
且,很直观地 ,“ ” (soil )“食物”(food '两个术语的 远远0于其它术
语,是学科领域的核心主题。
2. 稳定学科中的新增主题
定的学科也会在一丝波澜,这些 波澜就是每一期涌现的新的研究主题,
比2019第3期、第5期相继 现研究
土壤微生物在生态化学计量、植物落、土 性质变化等方面的文章。2019 第5 期、第7期研究前沿新增了电化学法、电化 学传感器用于铅、镉等重金属的测定研究。
3. 社会因素对定学科的影响
结合实际情,可以推 部分稳定学科中新增的主题当社会现新问题
有很0的 关性。比如2018 2 5日,
伊朗吉兰省发生H5N6亚型高致病性禽 流感,在2019年第3期、第5期的研究前
沿中就出现对特定地区食品健康风险评
估研究热k ,比伊朗市场食品样品中苯
的风险评价,伊朗稻q 铅含量的系统评
价及致癌风险评价。这种影响存在一定的
中国集体经济]71
理论探讨
201901 201903 201905 201907—nanoparticles  —-----图2 农业科学领域的主题术语演变(Top  10)
滞后性。实际研究中发现,研究前沿中存在稳 定研究主题的学科不在少数,包括计算机 科学、数学、微生物科学、植物科学等,这 种稳定学科的存在和发现,有助于学者、 机构对研究前沿的发展进行梳理、解读和 预测,存在进一步深入研究的价值。(二)学科主题变化及交叉融合的 发现如果某术语(term )在多个学科领域 出现,本文认为这些术语为交叉学科主题。 根P 本次研究得出的交叉主题术语结合文 献的阅读,分析出了如下交叉融合的实例: 食品学科 学学科的交叉产生了高光在食 分析、分类、等 的研究主题;计算科学的 ,产生了型在智能预测、估算方面的研究,比如混合进化 糊智能型在 预测的 、非数据型在 智能估算的应O Q ) S
e  o
s O  这一 的 学 生物学的交叉主题 如 3interacti  o ns  npnnmp  collaborative  genom ® inhibitors
n 乍咿 activation population^ regulatory  models  hiv  genetic  potential  占 d 「ug  complex  binding  cance 「stress  physical  clinical  heart  protein  networks  vessel  spectrum  recognition  pathway  e
voluti  o nary  consortium 图3交叉学科主题术语四、结论与不足
本文 了 计分析和主题 型的 方法对ESI 研 前沿 行了 研究, 对研前沿的测、解读和 有一定, 括: 一, 题的出现 的 ,会对新主题的诞生产生一定 的 ° ,学
目前 了交叉融合的研究 ,包交叉主题、交叉学 ,这种 叉融合的
对学术、学科、机构等的管理有 和O  , 于本文的 , 一个 学 少存在一个 的主题,实际利用LDA 主题模型进行主题发现的 了这一 , 不 主题
存在融合、交叉, 有 的研究主题。第四,相较于其他文章将 眼点放在主 题的突变,本文以农业学为例,发现该 学科研究主题术语极具稳定性,者称之 为稳定的学,稳定的学 交易于进行前 沿的探索、解读和预测,这种稳定的学科 也通常具有研究环境相对稳定、试验周期
长等特征。本文尚存在以下局限°首先,主题模 型的 有很多,包括LSA  (又称LSI )、
pLSA (又称 pLSI )、LDA 、N0F  等,由于本 文主 的是对ESI 研究前沿进行 ?性研究,仅 了 LDA  一种主题模型,并未对不主题型之间的特点和不足进 行对比分析°其次,本文是一种对ESI 研
究前沿较为粗粒的研究,描述了一种 多种学 的外貌特征, 括学 交叉程、学科发展稳定性、学科主题
演变情况、 主题发现相关影响因素等,想要获取更加 纵向的深入的主题分析,需要在本文础 上进一步缩小范围,缩小范围进行细粒度 的研究分析°参考文献:[1] 关鹏,王曰芬,傅柱.不同语料下基 于IDA 主题模型的科学文献主题抽取效 果分析[J].图书情报工作,2016(02):112—121.[2] 关鹏,王日芬.科技情报分析中 LDA 主题模型最优主题数确定方法研究 [J],现代图书情报技术,2016,32(09):42—50.[3] 张勇.基于词性与LDA 主题模型 的文本分类技术研究[D].合肥:安徽大学, 2016.[4] 李湘东,霍亚勇,张娇.基于LDA 主 题模型的图书网页书目信息提取研究[J]. 情报科学,2016,34(01):34—37.⑸李牧南.基于关联规则挖掘竞争情 报研究前沿分析[J].情报杂志,2016,35 (03): 54—60.⑹李小涛,金心怡,李艳.基于ESI 高 文的医学信息学研究前沿可视化分析[J].现代情报,2018,38(12):122—127.[7] 孙震,冷伏海.一 于知识元共 现的ESI 研究前沿知识演进分析方法[J]. 情报学报,2018,37(11):23—41.[8] 王 , ,李国鹏,等.ESI 研究 的科学图 及 的[J].图书情报工作,2017,61(12):106—112.[9] ,张 , , .科学 研究: 于 ESI  数大突破分析[J].中国科学基金,2017(01): 66—71.[10] 文 ,王 , , . 于 ESI 研究 的纳米领域研究分析[J].中国科学 ,2017,32(10):1150—1158.[11] , , 文 , . 于学科性视 的科研 研究与[J].现代情报,2018,38(04):65—70+76.[12] , . 学科 与 ESI 研究 的相关性研究——以计算机学科为例[J].情报杂志,2019,38(05):81—86.[13] 周丽英,冷伏海,.引文耦合 的 词分析方法改进研究——以ESI 农业科学研究主题划分为例[J].情报 与 ,2015,38(11):120—125.!本文系国家社会科学基金项目“图 书馆知识发现服务的功能定位和建设策 略研究”(项目编号:14BTQ018)研究成 果之一。项目负责人:袁润。(作者单位:袁润、潘颖,江苏大学图 书馆;刘邦国,江苏大学科技信息研究所)72 2021 年 1 期(1 月)

本文发布于:2023-05-30 00:05:30,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/119228.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:主题   研究   学科   发现
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图