大学图书情报学刊
Journal of Academic Library and Information Science 2021 年 3 月第 39 卷 第 2 期Mar ,2021Vol. 39 No.2
孙晶晶S 张 帆2,3,李梦蕾1
(1.新乡医学院管理学院,453003 ;2.新乡医学院卫生信息资源研究中心,453003 ;
3.新乡医学院教学质量监控与医学教育研究中心,453003)
摘要:基于百度指数搜索引擎关键词搜索频度分析,以大数据为关键词,从社会公众和媒体关注两个角度岀发,对搜索 指数、媒体指数、新闻头条等模块进行统计分析,得岀我国大数据及其相关事物的社会关注度和趋势,最后就存在的问题和建 议进行阐述。
关键词:网络搜索;百度指数;大数据;关注度
照明母线
中图分类号:G206
Research on Distribution Characteristics of Big Data
Social Concerns Based on Web Search
SUN Jing-jing 1 , ZHANG Fan 2,3, LI Meng-lei 1
(1. Management Institute of Xinxiang Medical University , Xinxiang 453003, China ; 2. Research Center for Health
Information Resource , Xinxiang Medical University , Xinxiang 453003, China ; 3. Research Center for Teaching
Quality Monitoring and Medical Education , Xinxiang Medical University , Xinxiang 453003, China)
Abstract : Based on Baidu index search engine keyword search frequency analysis , using big data as keywords , from
骑马机
the perspective of the public and media attention , statistical analysis of search index , media index , news headlines and
other modules , Get the social attention and trend of China's big data and related things , and finally explain the existing
problems and suggestions.
Key words : internet search ; Baidu index ; big data ; concern
1引言
20世纪50年代后,数据处理开始广泛应用于人
们的生活和工作中,随着现代科技的发展,云计算、物 联网等技术的不断兴起,如何通过简单快捷的方式进 行数据处理成为人们关注的热点问题。1980年,美国 著名未来学家阿尔文•托夫勒的《第三次浪潮》[1]正
式提出“大数据”,称之为“第三次浪潮的华彩乐章”, 标志着大数据学科的诞生。人们发现,数据处理已经
成为提升服务的重要方式。期刊《nature 》⑷和
(Science 》[3]相继在2008年和2011年推出大数据方面
的专栏,主要介绍大数据带来的挑战和在科学研究中 的重要性。2011年,著名咨询公司麦肯锡发布了关于
“大数据”的报告,首次提出“大数据”概念,并对大数
据相关情况进行了详尽分析,大数据逐渐成为各个国
家关注的热点问题。
中国近年来也加大了对大数据的关注力度。2011 年工信部发布物联网“十二五”规划,指出要尽快突破 关键核心技术,其中就包括加大对数据挖掘、数据存
储等技术的支持力度;2015年国务院发布《促进大数
据发展行动纲要》,将发展大数据产业提升至国家战 略层面;2018年《政府工作报告》提出:实施大数据发 展行动,注重用互联网、大数据等提升监管效能。为
了更好地了解当前环境下人们对大数据信息的关注
程度,本文通过百度指数平台对其展开研究,以期对 我国大数据的发展建设提供参考。
2数据来源与方法
网络搜索行为能够反映出网民的信息需求及关 注的热点问题,对其进行信息分析能够有效揭示事物
基金项目:新乡医学院研究生科研创新支持计划一般项目“健康中国背景下公众对健康信息素养的研究进展分析”(YJSCX202026Y)
128
总第184期大学图书情报学刊2021年第2期
石墨舟的内在规律⑷。百度指数是百度根据用户在网上获取信息,在搜索引擎网站上提交关键词数据进行分析的数据分享平台,平台包含“趋势研究”“需求图谱”“舆情管家”等模块曰。百度指数能够了解特定关键
词在平台上的搜索规模,相关新闻舆论的变化趋势,以及关注这些词语的用户属性等,让我们享受到数据给工作和生活带来的便利。近年来得到学术界的广泛关注,被用于旅游、健康、信息分析、经济预测等众多领域。如涂志芳[6]等人以“百度指数”为工具,通过用户和媒体两个角度来研究“图书馆”及其相关事物的社会关注度,并据此探讨图书馆如何提升社会形象、创新营销模式、提升社会关注度等方面的问题。孙玉婷[7]等人以“百度指数”为测量指标,采用百度人口流动大数据和疫情实时监测数据,来分析公众对“新型冠状病毒”关注度的时空差异与影响因素,为政府部门及时掌握疫情状况提供有效参考。何小芊[8]等人基于百度指数对温泉旅游的网络关注度特征进行研究,指出发展程度的高低和经济发展水平有关,网络关注度的空间差异是区域发展程度、人民收入水平和获取信息方式共同作用的结果。本次研究利用百度指数搜索平台,将关键词设定为“大数据”,时间跨度设定为2011年1月1日-2019年12月31日,通过检索来探究“大数据”社会公众和媒体关注度的特征及变化趋势。
3大数据社会关注度特征分析
3.1时间分布特征
通过百度指数搜索平台将采集的数据按照年份进行分析,表1为年份的描述性统计。从中可以看出,2017年最高,指数均值达到5791.83,2011年最低,指数均值为47.33。其中2011年公众关注度的最小
值为1,最大值为136,表明公众在最初阶段对大数据的关注很少,从标准差统计中可以看出2017年和2019年的指数波动较大。为进一步了解大数据的整体趋势变化,对大数据总体社会关注度(包括整体、PC和移动端)的日均值分别按照年份和月份进行统计,得到图1和图2。
从图1年份变化趋势可以看出,公众对大数据的整体关注度呈上升趋势,2019年的整体搜索指数较2011年增加了3427,移动搜索指数和整体搜索指数的波动趋势完全相同,总体上也呈现出上升趋势,PC搜索指数趋势呈现出先上升再下降的趋势。其中2011年的PC搜索指数为41,移动搜索指数为6,前者是后者的6.8倍;到2019年,PC搜索指数上升为1308,移动搜索指数上升为2167。2016年之后移动搜索指数已经超过PC搜索指数,说明我国公众获取信息的方式是从传统的PC端逐渐向移动端发展。根据中国互联网络信息中心发布的第44次《中国互联网络发展状况统计报告》,从用户搜索设备使用率也可以看出,移动端用户占比稳步提升,PC端用户占比下降,97.1%的搜索引擎是用户通过移动设备使用的。
表1年份的描述性统计
时间均值标准差最小值最大值201147.3339.324151136
新型小型工程机械
2012398.83244.3886115904
20131608.67366.90068662084
20142839.50507.711118153538
20153684.25523.787822754206
20163933.17736.1327064963
20175791.831545.65742108744
20184091.17818.199523395211
20193472.421064.01225146064
图1大数据社会关注度年份变化趋势
时间(月)
图2大数据社会关注度月份变化趋势
从图2月份变化趋势可以看出,除去9月份,2017年全年大数据的搜索指数都是最高的,4月达到了整个时间段的最高点,同时结合表1中的数据可以发现:从指数背后映射出的是政策和宣传的效应。2017年,工信部为了加快实施国家大数据战略,编制印发《大数据产业发展规划(2016-2020年)》,提出了
发展目标:到2020年,基本形成技术先进、应用繁荣、保障有力的大数据产业体系。2018年,工信部印发《推动企业上云实施指南(2018-2020年)》,指出云计算是信息技术发展和创新服务模式的集中体现,要求企业运
129
孙晶晶,张帆,李梦蕾:基于网络搜索的大数据社会关注度分布特征研究
用云计算技术加快自身的转型升级,推动现代化经济体系建设。在政府部门的引导之下,各省市陆续出台相关政策推动大数据产业的发展,公众对大数据的社会关注度提升,从中也可以看出重大政策是促进大数据发展的关键因素。
3.2地域分布特征
表2地域关注度排名
排名区域省、直辖市城市
1华东北京北京
2华北广东上海
3华南江苏广州
4华中河南成都
5西南上海深圳
6东北山东杭州
7西北浙江郑州
8四川武汉
9河北贵阳
10贵州南京注:时间范围为2013年7月10-2019年12月31日。
利用百度指数搜索平台对地域分布特征进行统计,得到表2。从区域分布模块来看,对大数据关注度最高的是华东地区,其次是华北、华南、华中、西南、东北,最后是西北地区。从省、直辖市和城市模块来看,东部地区用户对大数据的关注程度要高于西部地区,我国大数据产业集聚区主要集中在北京、上海、广东等经济比较发达的地区,这些地区的基础设施完善,能够依托信息技术服务产业的基础,而且拥有许多知名互联网技术企业和高等学校,科技人才数量多,形成了比较完整的产业形态。
3.3人分布特征
百度指数搜索平台中的人属性模块是采用数据挖掘的方法,根据用户检索关键词搜索到的数据,对人属性进行聚类分析曰。结果显示:性别方面,关注大数据的人中男性较多,占比约58%,女性占比约42%。对数字化理性思维和科技的偏好可能使得男性的关注度比较高。年龄方面,关注度较高的是20-29岁的人,占比约52%,其次为30-39岁占比约21%,19岁以下占比约16%,40-49岁占比约8%, 50岁以上占比约3%,可以发现对大数据关注较多的主要集中在20-40岁之间的人,可能由于现代科技的发展,数据信息在他们的工作和学习中扮演了重要130角,他们对这方面的需求量更大
3.4网络问答社区——百度知道
百度知道是全球最大的基于搜索的中文问答互动平台,通过AI技术实现智能检索和推荐,为用户快速解决问题。其工作原理是:通过注册成为用户,就可以根据自身的需求提出问题,平台通过积分奖励的机制将问题推送给其他用户。同时,如果有其他用户提出类似问题,这些答案又会进一步作为搜索结果推送给这些用户,百度知道可以看作是对网络搜索功能的补充。选取2011-2019年和大数据有关的问题进行统计,经过筛选和整理后得到10个所选时段的热门问题。
表3百度知道有关“大数据”的问题及回答数量
序号问题回答数量1常用的大数据分析软件有哪些?35
自动上料玉米脱粒机2如何进行大数据分析及处理?22
3大数据时代是什么意思?20
4什么叫大数据?与云计算有何关系?16
5大数据专业的主要课程有哪些?15
6大数据是什么?有什么价值作用?14
7大数据的就业方向是什么?14
8什么是大数据平台?11
9大数据的应用领域有哪些?10
10为什么需要大数据技术?9
11大数据产生的背景有哪些?8
12大数据属于什么专业?在哪里可以学?8综合表3可以发现,用户在百度知道上搜索关于大数据方面的信息主要集中于日常工作和学习方面。例如:大数据的含义、大数据相关的知识概念、大数据的技术应用、大数据相关的专业等,由于百度知道的用户比较广泛,包含各个年龄段、各个行业的人,提出的问题可能缺乏一定的专业性,这也说明许多网民对大数据还不太了解,只是知道或听说过大数据,并没有对其深入研究。
4大数据媒体关注度特征分析
4.1媒体指数
百度指数中的媒体指数模块是在各种网络新闻中,与检索关键词相关的被百度新闻频道收录的数量,对新闻标题中包含关键词的进行统计⑸。选取2011-2019年每年媒体指数的日均值进行统计分析得
总第184期大学图书情报学刊2021年第2期
到年份变化趋势,见图3。从图中可以发现,2011年媒体指数为0,说明这一年媒体对大数据方面的关注几乎没有,之后随着时间的变化,关注度逐渐升高。发展速度最快的是2014-2015年,可能与以下情况有关:2014年之后,“大数据”不仅是作为概念进行传播,而是作为战略布局深入到各地区,推动社会经济的发展;2015年随着大数据国家战略的落地推广,对大数据的关注度仍然保持增长趋势。2016年媒体的关注度达到最高,随后开始下降,这与公众的关注度基本吻合。
4.2新闻头条
网络新闻以网络为载体,具有快速、多媒体、互动性等特点,能够给观众全新的体验,能够了解网民对网络新闻中研究领域的关注程度。选取2011-2019年排名前十位的新闻头条进行统计,共获得63条(其中2011年和2012年缺失)。通过对每条新闻提取2-3个关键词,得到新闻头条的相关数据,见图4。从图4可以看出关键词中出现次数多的有智能、发展、安全、市场、产业等,集中体现在大数据促进智能化发展、大数据带来的机遇和挑战、大数据的安全监管等方面。以上出现的新闻头条主要来源于网易网、新浪网等综合性网站和新华网、人民网等新闻网站,其中刊载大数据相关新闻数量排名前8的新闻来源,见图5。
12-
口
人艮网MMH+SH WR -3I#
图5数量排名前8位的新闻来源
5讨论与启示
5.1充分利用政策优势,推动大数据产业发展
当前各国对大数据的关注度逐年升高,大数据已经成为推动科技和产业发展的重要驱动力,许多国家把大数据产业作为提升国际竞争力的重要力量。自大数据出现后,党和国家高度重视大数据产业的发展,出台各种方针政策加大对大数据的支持力度,地方政府积极配合。随着信息技术和制造业的深度融合,大数据已经成为制造业提升竞争力、整合产业链、实现产业结构优化升级的重要力量。要充分利用政策优势,推动大数据技术与实体经济之间的融合,加强大数据与产品制造、供应链管理方面的结合,推动大数据产业健康快速发展。
5.2促进区域之间协调发展
2020年《中国大数据区域发展水平评估白皮书》发布,书中详细对目前大数据的发展情况做出了分析
⑼。通过对大数据发展指数进行动态分析可以发现:目前我国大数据发展基本上形成了京津冀区域、长三角地区、珠三角地区和中西部地区四个集聚区,其中京津冀区域以北京为引领,带动其他城市水平发展;珠三角地区以广东为依托,集聚区域水平相对较高,发展态势良好;长三角地区整体发展水平普遍较高,上海为该地区榜首,整个地区呈协同发展态势;中西部地区则以重庆为中心,该地区四川、贵州的发展水平处于领先地位。从综合水平来看,东部地区的大数据发展水平最高,西部地区紧随其后,其次是中部和东北地区,这与各地区对大数据的关注度基本吻合。目前存在较大的问题是:区域联动发展态势没有形成,各省份之间发展水平差异较大。应该加强各个地区数据资源的开放共享,加大创新投入力度,各地依据自身优势有针对性地发展,东部地区发展较快,可以加大对中西部地区的扶持力度;中西部地区要充分利用政策优势,加大对科技人才的培养,促进中西部地区的崛起;东北地区要积极推进人才引进计划,
131
孙晶晶,张帆,李梦蕾:基于网络搜索的大数据社会关注度分布特征研究
提升自身创新能力。
5.3主流媒体加强宣传,提升公众对大数据的认知
结合百度知道用户提出的相关问题,可以发现目前公众对大数据及相关事物的概念、含义和应用领域方面比较感兴趣,说明对于大数据的认知度不高,要加强公众对大数据的深入了解。主流媒体是通过新闻报道来弘扬主流价值观,并在社会发展中承担着社会责任,面对当前各类新媒体的快速发展,各种复杂、多变的社会环境,需要肩负起应尽的责任,在舆论事件出现后,要以最直接、有效获取信息的方式,加强对公众正确的引导,把握正确的舆论导向[10]。应该充分发挥主流媒体优势,通过加强对大数据的宣传,为公众提供真实可信的信息,积极有效地回应公众关注的热点问题,提升公众认知度。
5.4加强大数据安全与隐私保护
分析发现,目前大数据的发展面临一些问题,安全与隐私问题是公众关注的热点问题之一,这与其他学者的研究相符合[11]。互联网时代,信息的收集变得更加容易,大数据技术能够通过特定方式从海量信息中挖掘出新的信息,并以此来观察我们的行为[12]。例如淘宝、京东等购物软件可以随时“监视”消费者的购买习惯,为用户推送感兴趣的商品;百度、谷歌等搜索引擎可以通过搜索内容推测出用户的行为习惯;微博、等社交软件可以记录用户的出行轨迹、社交关系,人们的隐私总是在不知不觉中被“窃取”。除此以外,随着现代科技的发展,数据量不断增多,传统的数据保护方法已经不能适应现在的变化,数据泄露成为互联网时代关注的重点问题,相关案例不计其数。据不完全统计,各类案件已经超过百万,受影响的人数已达数十亿[13],这些都为数据的安全问题敲响了警钟。因此,要重视对大数据的安全和隐私保护,促进大数据的合理开发和利用。首先国家要加大立法和监管力度,构建大数据环境下的数据安全体系,有效保护用户合法权益,维护国家数据安全,其次个人要提升自己的信息安全和隐私保护意识,推动大数据时代的平稳健康发展。
通过百度指数搜索平台进行统计分析,可以发现我国网民对大数据及相关事物的关注程度及变化趋势,同时反映出我国大数据产业的发展情况,将有助于政府及相关部门把握当前发展相关态势,推动现代化经济持续健康发展。
参考文献:
手机镜片
[I]阿尔文•托勒夫.第三次浪潮[M].黄明坚,译.北京:中
信岀版社,2006:19-25.
[2]Nature.Big Data[EB/OL].(2008-09-03)[2020-07-
12].,/news/specials/bigdata/ index.html.
[3]Science.Special online collection:dealing with data[EB/
OL].(2011-02-11)[2020-07-12].www.
[4]卢洪涛,李纲.网络搜索关键词时序变化特征研究——
以H7N9禽流感关键词实验为例[J].情报杂志,2014, 33(11):175-180.
[5]百度.百度指数名词解释[EB/OL].[2020-07-15].
,/v2/main/index.html#/help?
anchor=wmean.
[6]涂志芳,刘兹恒.从网络搜索看我国“图书馆”的社会关
注及趋势一一以百度指数为例[J].图书馆,2016(4):51-56.
[7]孙宇婷,肖凡,周勇,等.新型冠状病毒肺炎疫情公众关
注度的时空差异与影响因素—
—基于百度搜索指数的分析[J].热带地理,2020,40(3):375-385.
[8]何小芊,刘宇,吴发明.基于百度指数的温泉旅游网络关
注度时空特征研究[J].地域研究与开发,2017,36(1):103-108,124.
[9]高婴劢.中国大数据区域发展水平评估白皮书[N].中
国计算机报,2020-03-23(8).
[10]刘俊,胡智锋.媒介融合时代主流媒体如何提升舆论引
导力[J].人民论坛,2019(6):54-55.
[II]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[12]王利明.数据共享与个人信息保护[J].现代法学,
2019,41(1):45-57.
[13]金元浦.论大数据时代个人隐私数据的泄露与保护
[J].同济大学学报(社会科学版),2020,31(3):18
-29.
作者简介:孙晶晶,女,硕士研究生;张帆(通信作者,zhangfan@),男,副研究馆员。
收稿日期:2020-09-25
(责任编辑:孟凡胜)
132