面向微博平台的产品市场分析模型研究

阅读: 评论:0

Micr ocomputer Applica tions V ol.27,No.4,2011研究与设计微型电脑应用2011年第27卷第4期文章编号:1007-757X(2011)04-0004-03
面向微博平台产品市场分析模型研究
侯少龙,赵政文
摘要:通过对面向微博平台的产品市场分析过程进行抽象,提出了3层分析模型。第一层实现了数据准备模块,为兴趣分析提供规范化的数据。第二层通过情感分析提取微博平台上与产品相关的用户兴趣。第三层利用用户兴趣信息计算产品的满意度和关注度来表现产品市场形势。整个模型提供了面向微博平台搭建产品市场分析系统的快速解决方案。
关键词:微博平台;用户兴趣;情感分析;产品市场分析
中图分类号:TP39文献标志码:A
0引言
随着社区网络[1]的飞速发展,作为一种新兴的社区网络,微博平台也越来越受到人们的喜爱。美国著名微博平台Twitter和中国的新浪微博,都拥有大量用户,它们允许用户随时随地的发表自己的看法和分享所见到的新鲜事儿。
当前,微博平台已经成为了一种重要的社会传播媒介,蕴含的信息具有很强的社会性。针对这些信息进行兴趣分析就可以挖掘出某个事物在社会中的满意度和关注度,应用到商业领域,将有助于商家更加准确的把握产品的市场形势,具有广泛的应用价值。此问题的相关研究[2]已经开始,但所涉及到领域比较具体,难以进行广泛的应用。
本文正是在此背景下提出了一种面向微博平台产品市场分析的通用模型,旨在帮助商家快速部署自己面向微博平台的产品市场分析系统,提取商家所关心的产品市场形势,从而更好的改善市场策略。该模型总体上可以分为3层:①数据准备层;②兴趣分析层;③市场形势表现层。
本文的第1,2,3节分别介绍了该模型各层的主要作用和解决方案,第4节针对该模型设计了原型系统进行实验分析。最后,本文总结了模型在应对面向微博平台产品市场分析方面的作用。
1数据准备层
辣椒种植技术1.1主要作用
该层实现了兴趣分析所需数据的收集和规格化处理,整个过程分为数据收集和预处理两个步骤。
1.2解决方案
1.2.1数据收集
比较著名的微博平台基本上都秉承了开发的特性,提供了可供第三方访问的搜索API。数据收集程序只需要预先设定好产品的搜索信息就可以利用API从微博平台上获取数据。
为了保证数据收集的实时性,需要根据微博平台API 接口的访问限制说明,设定好收集的时间段以控制好收集频率,防止由于违反访问限制而被微博平台封掉。
1.2.2预处理
预处理主要是对收集到的数据经过解析,判重和去噪等操作得到规格化的数据,提高兴趣分析的效率和准确率。
(1)解析:微博平台搜索接口返回的数据是一个个完整的帖子信息,内容比较庞杂,包含许多无用信息,因此,需要对收集的数据进行解析,以提取用于兴趣分析的信息。
(2)判重:由于微博平台API接口可能返回重复的数据而影响兴趣分析的结果,需要通过判重操作来发现重复帖子,若重复就不再进行分析。
(3)去噪:为了减少庞杂数据对兴趣分析的干扰,需要对收集的用户帖子内容进行去噪。去噪的方法主要有①去掉停用词;②词缀修剪;③去掉文本中无意义单词。
在数据准备处理完毕后,得到的规格化帖子数据将全部被记录到待分析帖子集合中,为兴趣分析层的处理提供了方便。本层的实现流程图如图1
所示。
图1:数据准备层实现流程图
———————————
作者简介:侯少龙(1985-),男,陕西凤翔人,西北工业大学计算机学院,硕士,研究方向:社区网络,自然语言处理,西安,710072;
赵政文(1956-),男,陕西扶风人,西北工业大学计算机学院,教授,研究方向:软件工程、网络软件、机器翻译,自然语言处理,西安,710072。
4
Microcomputer Applications V ol.27,No.4,2011研究与设计微型电脑应用2011年第27卷第4期52兴趣分析层
2.1主要作用
兴趣分析层通过对帖子信息进行分析,提取用户在当前
帖子中表现出来的兴趣。
2.2解决方案
本文进行用户兴趣分析的方案主要是通过对帖子文本
内容进行情感分析[3]来提取用户在帖子中对产品表现出的
态度。假设积极的态度就说明用户是喜欢此产品的,而消极
的态度说明用户是讨厌此产品的,中性的态度就说明用户目
前还很犹豫,可以争取,根据这些态度来表示用户所表达的
兴趣信息。
总体来说,兴趣分析需要三个步骤:①设定情感特征词;
②计算帖子的影响力;③提取帖子中所包含的情感信息。
2.2.1设定情感特征词
为了能够准确的提取情感信息,在情感分析前需要设定
与产品相关的情感特征词,这些词主要是能够表现用户感情
和态度的词汇。除了常用的情感词汇,针对具体的产品还有
与之对应的专业词汇,这就需要专业人士来参与设定。
2.2.2计算帖子的影响力
一个帖子的影响力代表着帖子中表现的用户兴趣在产
品市场分析中的参考价值,主要与发帖用户有关,需要考虑
的因素有①用户是否是微博平台认证用户,若是说明此用户
是社会名人,具有很强的影响力;②用户的跟随者的数目,
跟随者越多,说明越有影响力;③用户的朋友数目,如果用
户的朋友数目过多,则说明其只是信息的接受者,帖子的影
响力就很小。考虑上面各种因素,得到帖子i 的影响力计算
方法如式(1)。,1,1,1,2,2()min ,i i i i i i f f f w x v f f δ=××(1)
其中,1i f 表示发表帖子i 用户的跟随人数,,2i f 表示发表帖子i 用户的朋友数目。函数()x t 是影响力的扩展比例
笔顺编号系数,根据微博平台的特性[4]定义如下:当
10t ≥时()2x t =;110t <≤时()1x t =;1t ≤时()0x t =。
,v δ是可调常数,其中δ根据具体微博平台设定;v 表示
自制一个牙签弓用户是否是微博平台验证用户,若是则v >1,否则1v =。
2.2.3提取帖子中的情感信息
提取帖子中的情感信息是用户兴趣分析的关键步骤,作
用是提取出用户对产品所表达的情感态度,其流程如下。
(1)对帖子内容进行分句,设置每个句子的情感权重。
首先对帖子按照语法规则进行分句;其次计算每个单句的情
感权重,首句和末句的权重较高,产品信息出现频率越高的单句,其权重越高。(2)分析单句中的情感信息。由于单句中的词汇量和干扰信息比较少,使得情感分析的效率比较高。在分析过程中采用自然语言处理的方法,对句子进行语法和语义分析就可以提取到情感信息。(3)确定帖子的情感信息。根据单句权重大小选择权重最高的单句情感信息作为帖子的情感信息。经过兴趣分析层的处理,每个帖子所表达的用户兴趣信息以及帖子影响力已经得到,方便了下层的处理。本层的实现流程图如图2
深海贝类所示。
图2:兴趣分析层实现流程图
3市场形势分析层3.1主要作用对兴趣分析产生的结果进行统计得到微博平台上体用户对产品的兴趣,就可以表现出产品的市场形势。3.2解决方案经过兴趣分析,每个帖子中用户的兴趣信息和影响力值已经得到,对这些数据采用统计方法计算出微博平台中用户对产品的满意度和关注度就可以表现产
品的市场形势。3.2.1满意度计算满意度表示市场中此产品在微博平台中受欢迎的程度。设X i ,W i 分别表示在时间段t 内收集到的帖子i 对产品p 的兴趣信息和帖子影响力,当帖子表达满意时X i 为1,讨厌时X i 为-1,没有明确态度时X i 为0,N 为出现产品信息的帖子数目,则在时间段t 内对产品p 的满意度S (p ,t )的计算方法如式(2)。
监控主板Micr ocomputer Applica tions V ol.27,No.4,2011
研究与设计微型电脑应用2011年第27卷第4期6
1
1(,)N i i i N
i
i x w S p t w
==×=∑∑(2)3.2.2关注度计算关注度表示市场中对此产品做出过评价的用户比例。设b 表示在时间段t 内针对产品p 收集到的兴趣为讨厌的帖子数目,h 表示兴趣为满意的帖子数目,N 为出现产品信息的帖子数目,则在时间段t 内用户对产品p 关注度A (p ,t )的计算方法如式(3)。(,)b h
A p t N +=
(3)根据微博平台的性质,关注度代表关注产品的体用户的比例,满意度代表体用户的兴趣。本文就是采用体的用户兴趣来分析产品的市场形势。4实验分析
按照上述的模型,采用美国著名微博网站Twitter 作为实验平台,本文搭建了用于分析美国著名IT 公司Google 股票市场形势的原型系统。实验分析时间段从2010年7月12日至7月16日,按天通过原型系统分析得到股票的市场形势,并与每天股票闭市的价格走势进行比对以检验原型系统分析的准确度,实验结果如图3
所示。图3:分析结果与实际市场形势对比图从图3中可以看出,在7月12,13,16三天中,关注度大
于0.3,满意度曲线的走势与股票市场价格走势比较相关,而7月14,15两天中关注度小于0.3,满意度曲线与股票市场价格走势的相关性不大。实验结果说明在关注度达到一定阀值后,满意度就能够表现出市场形势,反之,如果关注度低于一定阀值,满意度就对产品的市场形势没有指导意义。产生这样的结果是因为本文提出的模型是基于体用户的兴趣来分析产品的市场形势,要使体用户兴趣(满意度)对产品市场有指导意义,需要体用户的数量(关注度)达到一定的阀值,以保证收集到的信息符合统计样本的要求。5
结束语随着微博平台这种新的社会化媒介的进一步发展,怎样更准确,更便捷的从中分析体用户兴趣进而判断产品的市场形势将具有非常高的商业价值。本文提出的模型就是为解决这个问题所做的一次良好的尝试,该模型通过建立三层独
立结构,将面向微博平台分析产品市场形势的问题模块化解决。虽然本文提出的只是一种抽象的模型描述,但按照该模型的三层结构搭建一个产品的分析系统完全可行。参考文献:[1]Smith,M.Barash,V .Getoor L.and Lauw,H.W.Social
Network Site:Definite,History and Sholarship[J].Journal of Computer-Mediated Communication,200713(1),article 11.
[2]Johan Bollen,Alberto Pepe,Huina Mao.Modeling Public
Mood and Emotion:
Twitter Sentiment and Socio-economic Phenomena[C].WWW2010,April 26-302010.
[3]周立柱,贺宇凯,王建勇.情感分析研究综述[J].计算机
应用,2008,28:25-28.
[4]微博平台用户跟随数与朋友数比例.TFF-陶瓷线路板
Ratio:/default.aspx.
[OL].
(收稿日期:2010-09-14)

本文发布于:2023-05-27 00:22:09,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/3/115339.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:分析   用户   产品   兴趣   平台   市场   帖子
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图