服务器及语音情感识别方法与流程

阅读: 评论:0



1.本技术涉及互联网技术领域,尤其涉及一种服务器及语音情感识别方法。


背景技术:



2.显示设备是一种可实现双向人机交互功能,集影音、娱乐、数据等多种功能于一体的电视产品。为满足用户多样化的需求,显示设备安装有影音、娱乐等多种应用,通过用户界面与用户进行交互和信息交换。
3.随着人机交互的不断发展,语音正在被重塑成为人机交互的新范式,目前的显示设备都已具备对话和问答功能。例如,用户可通过向显示设备发送“我想看xx”,显示设备可于服务器获取与xx相关的视频内容,并为用户进行展示和推荐。用户在浏览到显示设备所推荐的视频内容时,可对显示设备进行语音回应,以表达出自己是否满意显示设备所推荐的结果。为了获得用户对推荐结果的满意程度,显示设备可对用户的语音进行情感识别,判断出用户的情感状态。
4.目前,语音情感识别主要是基于文本内容本身进行识别,准确性较低。例如,中文中的一些情感词,其在整个语句中出现的位置不同,以及与其他词语不同的搭配,都可能会导致不同的情绪识别结果。


技术实现要素:



5.本技术提供了一种服务器及语音情感识别方法,以解决现有技术中语音情感识别的准确性较低的技术问题。
6.第一方面,本技术提供了一种服务器,所述服务器被配置为:
7.将接收到的语音识别为文本数据,获取所述文本数据的向量表示;
8.根据情感极性词表利用远程监督标注出所述文本数据中的情感词,将所述情感词映射至随机向量空间,获取所述情感词的向量表示;
9.将所述文本数据的向量表示和所述情感词的向量表示进行拼接,得到底层共享参数;
10.将所述底层共享参数输入至已训练好的多任务学习模型,得到情感分析结果和情感关键词,其中,所述多任务学习模型中包括情感分析任务和情感关键词提取任务,所述情感关键词用于补充所述情感极性词表。
11.第二方面,本技术提供了一种语音情感识别方法,所述方法包括:
12.将接收到的语音识别为文本数据,获取所述文本数据的向量表示;
13.根据情感极性词表利用远程监督标注出所述文本数据中的情感词,将所述情感词映射至随机向量空间,获取所述情感词的向量表示;
14.将所述文本数据的向量表示和所述情感词的向量表示进行拼接,得到底层共享参数;
15.将所述底层共享参数输入至已训练好的多任务学习模型,得到情感分析结果和情
感关键词,其中,所述多任务学习模型中包括情感分析任务和情感关键词提取任务,所述情感关键词用于补充所述情感极性词表。
16.与现有技术相比,本技术的有益效果为:
17.本技术提供了一种服务器及语音情感识别方法,服务器获取用户所输入的语音,并将语音识别为文本数据后转化成相应的句向量。同时,服务器还可利用情感极性词表提取出文本数据中的情感词,并将情感词转化成词向量。服务器将文本数据所对应的句向量和情感词所对应的词向量进行拼接,得到底层共享参数。服务器将底层共享参数输入至多任务学习模型中,以使多任务学习模型输出情感分析结果和情感关键词。本技术中,服务器通过将情感词所对应的词向量与情感词所在文本数据的句向量进行拼接,使得多任务学习模型更加重点关注底层共享参数中的情感词所对应向量,以提高多任务学习模型中情感关键词的提取精确度,且利于提高情感识别的准确性。另外,服务器不断利用多任务学习模型所输出的情感关键词补充情感极性词表,以使后续能够根据情感极性词表更加全面的对文本数据中的情感词进行远程监督。
附图说明
18.为了更清楚地说明本技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1中示例性示出了根据一些实施例的语音识别方法和语音识别装置的系统架构的示意图;
20.图2中示例性示出了根据一些实施例的智能设备200的硬件配置框图;
21.图3中示例性示出了根据一些实施例的智能设备200的配置示意图;
22.图4中示例性示出了根据一些实施例的一种语音交互网络架构示意图;
23.图5中示例性示出了根据一些实施例的多任务学习模型的训练流程示意图;
24.图6中示例性示出了根据一些实施例的初始情感极性词表的获取示意图;
25.图7中示例性示出了根据一些实施例的多任务学习模型的训练示意图;
26.图8中示例性示出了根据一些实施例的多任务学习模型的网络结构示意图;
27.图9中示例性示出了根据一些实施例的语音情感识别方法的流程示意图;
28.图10中示例性示出了根据一些实施例的语音情感识别方法的另一流程示意图。
具体实施方式
29.为使本技术的目的和实施方式更加清楚,下面将结合本技术示例性实施例中的附图,对本技术示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本技术一部分实施例,而不是全部的实施例。
30.需要说明的是,本技术中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本技术的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
31.本技术中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另
外注明。应该理解这样使用的用语在适当情况下可以互换。
32.图1示出了可以应用本技术的语音识别方法和语音识别装置的示例性系统架构。如图1所示,其中,10为服务器,200为终端设备,示例性包括(智能电视200a,移动设备200b,智能音箱200c)。
33.本技术中服务器10与智能设备200通过多种通信方式进行数据通信。可允许智能设备200通过局域网(lan)、无线局域网(wlan)和其他网络进行通信连接。服务器10可以向终端设备20提供各种内容和互动。示例性的,智能设备200与服务器10可以通过发送和接收信息,以及接收软件程序更新。
34.服务器10可以是提供各种服务的服务器,例如对智能设备200采集的音频数据提供支持的后台服务器。后台服务器可以对接收到的音频等数据进行分析等处理,并将处理结果(例如端点信息)反馈给终端设备。服务器10可以是一个服务器集,也可以是多个服务器集,可以包括一类或多类服务器。
35.智能设备200可以是硬件,也可以是软件。当智能设备200为硬件时,可以是具有声音采集功能的各种电子设备,包括但不限于智能音箱、智能手机、电视、平板电脑、电子书阅读器、智能手表、播放器、计算机、ai设备、机器人、智能车辆等等。当智能设备200、201、202为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务),也可以实现成单个软件或软件模块。在此不做具体限定。
36.需要说明的是,本技术实施例所提供的语音情感识别方法可以通过服务器10执行,也可以通过终端设备20执行,还可以通过服务器10和终端设备20共同执行,本技术对此不做限定。
37.图2示出了根据示例性实施例中智能设备200的硬件配置框图。如图2所示智能设备200包括通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。控制器包括中央处理器,音频处理器,图形处理器,ram,rom,用于输入/输出的第一接口至第n接口。
38.显示器260包括用于呈现画面的显示屏组件,以及驱动图像显示的驱动组件,用于接收源自控制器输出的图像信号,进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控ui界面。
39.显示器260可为液晶显示器、oled显示器、以及投影显示器,还可以为一种投影装置和投影屏幕。
40.通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如:通信器可以包括wifi模块,蓝牙模块,有线以太网模块等其他网络通信协议芯片或近场通信协议芯片,以及红外接收器中的至少一种。智能设备200可以通过通信器220服务器10建立控制信号和数据信号的发送和接收。
41.用户接口,可用于接收外部的控制信号。
42.检测器230用于采集外部环境或与外部交互的信号。例如,检测器230包括光接收器,用于采集环境光线强度的传感器;或者,检测器230包括图像采集器,如摄像头,可以用于采集外部环境场景、用户的属性或用户交互手势,再或者,检测器230包括声音采集器,如麦克风等,用于接收外部声音。
43.声音采集器可以是麦克风,也称“话筒”,“传声器”,可以用于接收用户的声音,将
声音信号转换为电信号。智能设备200可以设置至少一个麦克风。在另一些实施例中,智能设备200可以设置两个麦克风,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,智能设备200还可以设置三个,四个或更多麦克风,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
44.此外,麦克风可以是内置在智能设备200上,或者麦克风通过有线或者无线的方式与智能设备200相连接。当然,本技术实施例对麦克风在智能设备200上的位置不作限定。或者,智能设备200可以不包括麦克风,即上述麦克风并未设置于智能设备200中。智能设备200可以通过接口(如usb接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在智能设备200上。
45.控制器250,通过存储在存储器上中各种软件控制程序,来控制显示设备的工作和响应用户的操作。控制器250控制智能设备200的整体操作。
46.示例性的,控制器包括中央处理器(central processing unit,cpu),音频处理器,图形处理器(graphics processing unit,gpu),ram random access memory,ram),rom(read-only memory,rom),用于输入/输出的第一接口至第n接口,通信总线(bus)等中的至少一种。
47.在一些示例中,智能设备的操作系统为android系统为例,如图3所示,智能电视200-1从逻辑上可以分为应用程序(applications)层(简称“应用层”)21,内核层22和硬件层23。
48.其中,如图3所示,硬件层可包括图2所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为系统应用,也可以为第三方应用。如,应用层21包括语音识别应用,语音识别应用可以提供语音交互界面和服务,用于实现智能电视200-1与服务器10的连接。
49.内核层22作为硬件层和应用层21之间的软件中间件,用于管理和控制硬件与软件资源。
50.在一些示例中,内核层22包括检测器驱动,检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的,智能设备200中的语音识别应用启动,智能设备200与服务器10建立了通信连接的情况下,检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后,语音识别应用将包含该语音数据的查询信息发送至服务器中的意图识别模块202。意图识别模块202用于将智能设备200发送的语音数据输入至意图识别模型。
51.为清楚说明本技术的实施例,下面结合图4对本技术实施例提供的一种语音情感识别网络架构进行描述。
52.参见图4,图4为本技术实施例提供的一种语音交互网络架构示意图。图4中,智能设备用于接收输入的信息以及输出对该信息的处理结果。语音识别模块部署有语音识别服务,用于将音频识别为文本;语义理解模块部署有语义理解服务,用于对文本进行语义解析;业务管理模块部署有业务指令管理服务,用于提供业务指令;语言生成模块部署有语言生成服务(nlg),用于将指示智能设备执行的指令转化为文本语言;语音合成模块部署有语音合成(tts)服务,用于将指令对应的文本语言处理后发送至扬声器进行播报。在一个实施例中,图4所示架构中可存在部署有不同业务服务的多个实体服务设备,也可以一个或多个
实体服务设备中集合一项或多项功能服务。
53.一些实施例中,下面对基于图4所示架构处理输入智能设备的信息的过程进行举例描述,以输入智能设备的信息为通过语音输入的查询语句为例:
54.[语音识别]
[0055]
智能设备可在接收到通过语音输入的查询语句后,智能设备可对查询语句的音频进行降噪处理和特征提取,这里的去噪处理可包括去除回声和环境噪声等步骤。
[0056]
[语义理解]
[0057]
利用声学模型和语言模型,对识别出的候选文本和相关联的上下文信息进行自然语言理解,将文本解析为结构化的、机器可读的信息,业务领域、意图、词槽等信息以表达语义等。得到可执行意图确定意图置信度得分,语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图,
[0058]
[业务管理]
[0059]
语义理解模块根据对查询语句的文本的语义解析结果,向相应的业务管理模块下发查询指令以获取业务服务给出的查询结果,以及执行“完成”用户最终请求所需的动作,并将查询结果对应的设备执行指令进行反馈。
[0060]
需要说明的是,图4所示架构只是一种示例,并非对本技术保护范围的限定。本技术实施例中,也可采用其他架构来实现类似功能,例如:上述过程全部或部分可以由智能终端来完成,在此不做赘述。
[0061]
随着人机交互的不断发展,通过语音命令控制相应智能设备,得到广大用户的青睐。当用户通过智能设备进行查询等功能时,智能设备会从服务器10处获取相应的推荐结果并反馈至用户。用户可对智能设备的推荐结果进行语音反馈,以表达出自己是否满意,例如:用户说:“你给我推荐个好看点的电影,前面推荐的我不喜欢”,在收到用户这样的查询反馈时,需要及时的鉴别出前一轮的推荐结果用户是不满意的,需要识别出当前用户的情感状态为负面、消极等,需要及时分析对话或推荐、查询结果。目前,语音情感识别主要是基于文本内容本身进行识别,准确性较低。为了提高语音情感识别的准确性,本技术在一些实施例中提供了一种服务器,该服务器被配置为执行语音情感识别过程。下面结合附图对语音情感识别过程进行说明。
[0062]
在一些实施例中,服务器10所执行的语音情感识别过程可以在一个其他设备中执行。后续以服务器10执行为例。
[0063]
在一些实施例中,在进行语音情感识别之前,可先训练出多任务学习模型。在一些实施例中,多任务学习模型包括两项任务,分别为情感分析任务和情感关键词提取任务,情感关键词提取任务为提取出用户所发语音中的具有情感极性的词语,情感分析任务为判断用户所发语音为正面、积极的,还是反面、消极的。
[0064]
下面结合附图介绍一下多任务学习模型的训练过程。
[0065]
图5中示例性示出了根据一些实施例的多任务学习模型的训练流程示意图。结合图5,多任务学习模型的训练过程如下:
[0066]
s501:根据用户日志数据获取初始情感极性词表和训练数据,其中,所述初始情感极性词表为经由情感关键词补充之前的所述情感极性词表。
[0067]
在一些实施例中,服务器10可以将用户日志数据作为一个基础语料库,在获取到
用户日志数据后,可通过抽样部分用户日志数据进行人工标注。服务器10利用pmi算法(点互信息算法)计算用户日志数据中用于表征情感的第一词语与情感极性已明确的第二词语,计算出两者之间的pmi值。服务器10通过两个词语之间的pmi值确认两个词语之间的情感极性是否相同。以正面情感词语为例,即通过计算两个词在语料库中一同出现的概率,当一个词语和一个具有正面情感的词pmi值达到一定阈值时,即可判定该词语也为正面情感词,负面同理。
[0068]
在一些实施例中,若语句中出现情感转折,则即使两个词语在同一句中同时出现也不可判定为同一极性。因此,服务器10可利用依存句法分析算法判定第一词语所在的语句中是否发生情感转折,若所述第一词语所在的语句中存在情感转折,则第一词语和第二词语的pmi值不上升,也可直接认定两者不具备同一极性。若所述第一词语所在的语句中不存在情感转折,则第一词语和第二词语的pmi值上升,也可确定出两者具备同一极性。
[0069]
图6中示例性示出了根据一些实施例的初始情感极性词表的获取示意图。如图6所示,通过对常见情感极性词与用户日志数据进行点互信息算法,并用依存句法分析算法对计算结果进行修正。通过上述过程和抽样部分日志数据进行人工标注,即可获得初始的情感极性词表和情感分类训练数据。
[0070]
s502:根据所述初始情感极性词表和所述训练数据,得到输入层数据。
[0071]
图7中示例性示出了根据一些实施例的多任务学习模型的训练示意图。结合图7,在获取到训练数据和初始情感极性词表后,对于训练数据中“我很开心,真不错”来说,服务器10通过初始情感极性词表将该语句中的具备情感的词语“开心”、“不错”进行标注。
[0072]
在一些实施例中,服务器10将该语句输入至bert(bidirectional encoder representation from transformers)模型中,经由bert模型输出该语句的向量表示。同时,服务器10将标注出的情感词映射到一个随机向量空间(extra-feature embedding)中,得到情感词的向量表示,将情感词的向量表示与整句句子的bert输出进行拼接,获得了一个具有额外信息的句向量表示,即输入层数据,也即底层共享参数。
[0073]
s503:将所述输入层数据输入至多个专家网络,得到第一特征,并将所述输入层数据输入至门网络,得到多个所述专家网络的权重。
[0074]
s504:根据多个所述专家网络的权重对所述第一特征进行加权,得到与任务相对应的第二特征。
[0075]
s505:将所述第二特征输入至对应的tower网络,得到输出层数据。
[0076]
图8中示例性示出了根据一些实施例的多任务学习模型的网络结构示意图。结合图8,,多任务学习模型包括多个专家网络、与任务个数相等的门网络以及与任务个数相等的tower网络。其中,第一专家网络、第一专家网络和第三专家网络用于对输入层数据进行特征提取。第一门网络用于针对于情感分析任务计算多个专家网络的权重,第二门网络用于针对于情感关键词提取任务计算多个专家网络的权重。服务器10将根据第一门网络加权后的第二特征输入至第一tower网络进行情感分析,将根据第二门网络加权后的第二特征输入至第二tower网络进行情感关键词提取。
[0077]
在一些实施例中,服务器10控制多任务学习模型迭代训练上述过程。服务器10获取每一次多任务学习模型在迭代训练过程中所生成的所述输出层数据,该输出层数据包括提取到的情感关键词。服务器10根据无意义词表过滤所述输出层数据中的情感关键词,其
中,所述无意义词表包含已明确不具备情感极性的词语,如:“啊”“呀”等语气词。服务器10根据过滤后的所述输出层数据中的情感关键词补充所述初始情感极性词表,不断补充之后的初始情感极性词表即为后续多任务学习模型中实际要应用到情感极性表。
[0078]
下面结合附图描述本技术一些实施例提供的语音情感识别过程。
[0079]
图9中示例性示出了根据一些实施例的语音情感识别方法的流程示意图。如图9所示,所述方法包括以下步骤:
[0080]
s901:将接收到的语音识别为文本数据,获取所述文本数据的向量表示。
[0081]
在一些实施例中,用户向智能设备输入语音,智能设备可将接收到的语音发送至服务器10,由服务器10根据asr将用户语音输入识别为文本数据。这里,智能设备也可直接将用户的语音通过asr转化为文本数据,再将文本数据发送至服务器10。在一些实施例中,服务器10进一步通过bert模型获取文本数据的向量表示。
[0082]
s902:根据情感极性词表利用远程监督标注出所述文本数据中的情感词,将所述情感词映射至随机向量空间,获取所述情感词的向量表示。
[0083]
在一些实施例中,服务器10在多任务学习模型的迭代训练过程中,不断利用获取到的新的情感关键词填充初始情感极性词表,得到情感词较为丰富的情感极性词表。服务器10通过情感极性词表远程监督标注出文本数据中的情感词,并进一步获取到情感词的向量表示。
[0084]
s903:将所述文本数据的向量表示和所述情感词的向量表示进行拼接,得到底层共享参数。
[0085]
在一些实施例中,将所述文本数据的向量表示和所述情感词的向量表示进行相加,即可得到多任务学习模型的底层共享参数。上述过程可参见图7。
[0086]
s904:将所述底层共享参数输入至已训练好的多任务学习模型,得到情感分析结果和情感关键词,其中,所述多任务学习模型中包括情感分析任务和情感关键词提取任务,所述情感关键词用于补充所述情感极性词表。
[0087]
在一些实施例中,在仅与多任务学习模型获取到情感分析结果和情感关键词之后,无论情感分析结果是正面还是反面,服务器10均可利用获取到的情感关键词继续补充所述情感极性词表。当然,所补充添加至情感极性词表的内容必须是新的情感词,也就是之前表中不存在的情感词。
[0088]
在一些实施例中,在情感关键词提取任务中,服务器10利用指针网络将所述情感关键词提取任务转换为多个二分类网络,分别预测头指针和尾指针。即服务器10将根据第二门网络加权后的第二特征进行解码,输出是否为关键词开始位置或结束位置的概率分布,也即所谓的指针。服务器10提取所述头指针和所述尾指针之间的字符作为情感关键词。
[0089]
在一些实施例中,考虑到指针网络可能预测出来的片段长度过长,不符合情感关键词提取的任务思想,服务器10还需进行后处理,即控制所述头指针和所述尾指针之间的间隔长度小于预设值,例如,小于3,避免所提取的到情感关键词的长度较长。
[0090]
在一些实施例中,服务器10将根据第二门网络加权后的第二特征进行解码时,对解码到一个、多个或未解码出结果都设置对应的处理函数,保证最后一定能提取出相应的情感关键词。例如,若是未解码出结果,也就是未获取到情感关键词,服务器10可选取概率分布中次大值作为头指针和尾指针。
[0091]
在一些实施例中,在情感分析任务中,服务器10将根据第一门网络加权后的第二特征输入至全连接层后进行二分类即可。
[0092]
在一些实施例中,服务器10在根据情感分析结果得知用户情感为负面时,需及时更新推荐策略,以使为用户重新推荐媒资内容。
[0093]
下面结合附图进一步介绍一下上述语音情感识别的过程。
[0094]
图10中示例性示出了根据一些实施例的语音情感识别方法的另一流程示意图。结合图10,服务器10需要运用情感极性词表对已有的少量标注数据进行远程监督,作为情感分类和情感关键词提取的先验特征,并将其映射到一个新的向量空间,再拼接原始文本的句向量从而训练一个同时进行情感分类和情感关键词提取的多任务学习模型,即初始模型。这里,一开始所用到的情感极性词表为初始情感极性词表,也可视为由常见情感极性词所组成的表。在得到初始模型之后,服务器10不断用用户日志数据进行预测,进行n轮迭代,得到阶段性模型。服务器10使用初始模型对用户日志数据进行分析时,能够获得新的情感极性词,将其加入情感极性词表中作为远程监督进行新的训练,迭代几轮后就可以对用户常见的反应进行一个更为准确的情感分类模型。这里,迭代几轮后,当通过模型获得的新的情感极性词数量逐步减少趋于个数,即可认定模型趋于稳定,此时即可将模型投入使用。在训练得到阶段性模型时,可获取实时用户语音,通过阶段性模型进行情感关键词提取和情感分析。经过模型所提取到的新的情感极性词可继续补充情感极性词表。也就是说,将该情感分类模型投入使用后,服务器10还能对一些新出现的具有情感极性词进行收集,当达到一定数量后可再次重新训练进行一个模型的更新,实现半自动化优化的功能。最后,当模型分析出用户的情感为负面时,服务器10需要更新推荐策略。
[0095]
本技术中,服务器通过将情感词所对应的词向量与情感词所在文本数据的句向量进行拼接,使得多任务学习模型更加重点关注底层共享参数中的情感词所对应向量,以提高多任务学习模型中情感关键词的提取精确度,且利于提高情感识别的准确性。另外,服务器不断利用多任务学习模型所输出的情感关键词补充情感极性词表,以使后续能够根据情感极性词表更加全面的对文本数据中的情感词进行远程监督。服务器通过远程监督的方式从而达到更细粒度、更准确的情感识别的目标,从而为产品优化提供方向和思路,提供真实的用户情绪状态变化样例,为产品的持续优化提供基础的技术和数据保障。
[0096]
与上述服务器相对应的,本技术还提供了一种语音情感识别方法,所述方法包括:服务器10将接收到的语音识别为文本数据,获取所述文本数据的向量表示。根据情感极性词表利用远程监督标注出所述文本数据中的情感词,服务器10将所述情感词映射至随机向量空间,获取所述情感词的向量表示。服务器10将所述文本数据的向量表示和所述情感词的向量表示进行拼接,得到底层共享参数,将所述底层共享参数输入至已训练好的多任务学习模型,得到情感分析结果和情感关键词,其中,所述多任务学习模型中包括情感分析任务和情感关键词提取任务,所述情感关键词用于补充所述情感极性词表。
[0097]
在一些实施例中,在所述多任务学习模型的训练过程中,所述方法包括:服务器10根据用户日志数据获取初始情感极性词表和训练数据,其中,所述初始情感极性词表为经由情感关键词补充之前的所述情感极性词表。服务器10根据所述初始情感极性词表和所述训练数据,得到输入层数据。服务器10将所述输入层数据输入至多个专家网络,得到第一特征,并将所述输入层数据输入至门网络,得到多个所述专家网络的权重。服务器10根据多个
所述专家网络的权重对所述第一特征进行加权,得到与任务相对应的第二特征。服务器10将所述第二特征输入至对应的tower网络,得到输出层数据。
[0098]
在一些实施例中,在所述多任务学习模型的训练过程中,所述方法还包括:服务器10获取所述多任务学习模型在迭代训练过程中所生成的所述输出层数据。服务器10根据无意义词表过滤所述输出层数据中的情感关键词,其中,所述无意义词表包含已明确不具备情感极性的词语。服务器10根据过滤后的所述输出层数据中的情感关键词补充所述初始情感极性词表。
[0099]
由于以上实施方式均是在其他方式之上引用结合进行说明,不同实施例之间均具有相同的部分,本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。
[0100]
需要说明的是,在本说明书中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的电路结构、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种电路结构、物品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个
……”
限定的要素,并不排除在包括要素的电路结构、物品或者设备中还存在另外的相同要素。
[0101]
本领域技术人员在考虑说明书及实践这里发明的公开后,将容易想到本技术的其他实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由权利要求的内容指出。
[0102]
以上的本技术实施方式并不构成对本技术保护范围的限定。

技术特征:


1.一种服务器,其特征在于,所述服务器被配置为:将接收到的语音识别为文本数据,获取所述文本数据的向量表示;根据情感极性词表利用远程监督标注出所述文本数据中的情感词,将所述情感词映射至随机向量空间,获取所述情感词的向量表示;将所述文本数据的向量表示和所述情感词的向量表示进行拼接,得到底层共享参数;将所述底层共享参数输入至已训练好的多任务学习模型,得到情感分析结果和情感关键词,其中,所述多任务学习模型中包括情感分析任务和情感关键词提取任务,所述情感关键词用于补充所述情感极性词表。2.根据权利要求1所述的服务器,其特征在于,在所述多任务学习模型的训练过程中,所述服务器被配置为:根据用户日志数据获取初始情感极性词表和训练数据,其中,所述初始情感极性词表为经由情感关键词补充之前的所述情感极性词表;根据所述初始情感极性词表和所述训练数据,得到输入层数据;将所述输入层数据输入至多个专家网络,得到第一特征,并将所述输入层数据输入至门网络,得到多个所述专家网络的权重;根据多个所述专家网络的权重对所述第一特征进行加权,得到与任务相对应的第二特征;将所述第二特征输入至对应的tower网络,得到输出层数据。3.根据权利要求2所述的服务器,其特征在于,在所述多任务学习模型的训练过程中,所述服务器还被配置为:获取所述多任务学习模型在迭代训练过程中所生成的所述输出层数据;根据无意义词表过滤所述输出层数据中的情感关键词,其中,所述无意义词表包含已明确不具备情感极性的词语;根据过滤后的所述输出层数据中的情感关键词补充所述初始情感极性词表。4.根据权利要求2所述的服务器,其特征在于,在所述根据用户日志数据获取初始情感极性词表的步骤中,所述服务器被配置为:获取用户日志数据,利用pmi算法计算第一词语与第二词语的pmi值,其中,所述第一词语为所述用户日志数据中用于表征情感的词语,所述第二词语为情感极性已明确的词语,所述pmi值用于确认所述第一词语与所述第二词语的情感极性是否相同;利用依存句法分析算法判定所述第一词语所在的语句中是否发生情感转折;若所述第一词语所在的语句中存在情感转折,则pmi值不上升;若所述第一词语所在的语句中不存在情感转折,则pmi值上升。5.根据权利要求1所述的服务器,其特征在于,在所述将所述底层共享参数输入至已训练好的多任务学习模型,得到情感分析结果和情感关键词之后,所述服务器还被配置为:若所述情感分析结果表征用户情感为正面的,则根据所述情感关键词补充所述情感极性词表;若所述情感分析结果表征用户情感为负面的,则根据所述情感关键词补充所述情感极性词表,并更新推荐策略,其中,所述推荐策略用于为用户推荐媒资内容。6.根据权利要求1所述的服务器,其特征在于,在所述情感关键词提取任务中,所述服
务器被配置为:利用指针网络将所述情感关键词提取任务转换为多个二分类网络,分别预测头指针和尾指针;提取所述头指针和所述尾指针之间的字符作为情感关键词。7.根据权利要求6所述的服务器,其特征在于,所述服务器被配置为:控制所述头指针和所述尾指针之间的间隔长度小于预设值。8.一种语音情感识别方法,其特征在于,所述方法包括:将接收到的语音识别为文本数据,获取所述文本数据的向量表示;根据情感极性词表利用远程监督标注出所述文本数据中的情感词,将所述情感词映射至随机向量空间,获取所述情感词的向量表示;将所述文本数据的向量表示和所述情感词的向量表示进行拼接,得到底层共享参数;将所述底层共享参数输入至已训练好的多任务学习模型,得到情感分析结果和情感关键词,其中,所述多任务学习模型中包括情感分析任务和情感关键词提取任务,所述情感关键词用于补充所述情感极性词表。9.根据权利要求8所述的语音情感识别方法,其特征在于,在所述多任务学习模型的训练过程中,所述方法包括:根据用户日志数据获取初始情感极性词表和训练数据,其中,所述初始情感极性词表为经由情感关键词补充之前的所述情感极性词表;根据所述初始情感极性词表和所述训练数据,得到输入层数据;将所述输入层数据输入至多个专家网络,得到第一特征,并将所述输入层数据输入至门网络,得到多个所述专家网络的权重;根据多个所述专家网络的权重对所述第一特征进行加权,得到与任务相对应的第二特征;将所述第二特征输入至对应的tower网络,得到输出层数据。10.根据权利要求9所述的语音情感识别方法,其特征在于,在所述多任务学习模型的训练过程中,所述方法还包括:获取所述多任务学习模型在迭代训练过程中所生成的所述输出层数据;根据无意义词表过滤所述输出层数据中的情感关键词,其中,所述无意义词表包含已明确不具备情感极性的词语;根据过滤后的所述输出层数据中的情感关键词补充所述初始情感极性词表。

技术总结


本申请实施例提供了一种服务器及语音情感识别方法,将接收到的语音识别为文本数据,获取文本数据的向量表示;根据情感极性词表利用远程监督标注文本数据中的情感词,将情感词映射至随机向量空间,获取情感词的向量表示;将文本数据和情感词的向量表示进行拼接,得到底层共享参数;将底层共享参数输入至多任务学习模型,得到情感分析结果和情感关键词。本申请通过将情感词所对应的词向量与其所属的句向量进行拼接,使得能够重点关注句中的情感词,以提高情感关键词的提取精确度,且利于提高情感识别的准确性。另外,服务器不断利用所提取的情感关键词补充情感极性词表,以使后续能根据情感极性词表更加全面的对文本数据中的情感词进行远程监督。的情感词进行远程监督。的情感词进行远程监督。


技术研发人员:

芮智琦 李俊彦

受保护的技术使用者:

海信电子科技(武汉)有限公司

技术研发日:

2022.04.24

技术公布日:

2022/7/29

本文发布于:2022-12-01 12:17:47,感谢您对本站的认可!

本文链接:https://patent.en369.cn/patent/4/18304.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:情感   所述   极性   词表
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 369专利查询检索平台 豫ICP备2021025688号-20 网站地图