摘要:⼈⼯智能的发展离不开基础⽀持层和技术层,基础⽀持层包括⼤数据、计算⼒和算法;技术层包括计算机视觉、语⾳识别和⾃然语⾔处理。⼈⼯智能的技术本质是什么,本⽂会详细分析。 ⼈⼯智能的发展离不开基础⽀持层和技术层,基础⽀持层包括⼤数据、计算⼒和算法;技术层包括计算机视觉、语⾳识别和⾃然语⾔处理。⼈⼯智能的技术本质是什么,本⽂会详细分析。
总览⼈⼯智能技术图谱
基础⽀撑层的算法创新发⽣在20世纪80年代末,是⼤数据和计算⼒将⼈⼯智能推到镁光灯之下,⽽建⽴在这之上的基础技术便是计算机视觉、语⾳识别和⾃然语⾔理解,机器试图看懂、听懂⼈类的世界、⽤⼈类的语⾔和⼈类交流,研究⼈类智能活动的规律。
1.计算机视觉技术(Computer Vision)
1)·什么是计算机视觉光纤调整架
“⼈的⼤脑⽪层的活动,⼤约70%是在处理视觉相关信息。视觉就相当于⼈脑的⼤门,其它如听觉、触觉、味觉那都是带宽较窄的通道。视觉相当于⼋车道的⾼速,其它感觉是两旁的⼈⾏道。如果不能处理
视觉信息的话,整个⼈⼯智能系统是个空架⼦,只能做符号推理,⽐如下棋、定理证明,没法进⼊现实世界。计算机视觉之于⼈⼯智能,它相当于说芝⿇开门。⼤门就在这⾥⾯,这个门打不开, 就没法研究真实世界的⼈⼯智能。”——朱松纯,加州⼤学洛杉矶分校UCLA 统计学和计算机科学教授根据科普中国撰写的对计算机视觉的定义,这是⼀门研究如何让机器“看”的科学,更进⼀步的说,是指⽤计算机代替⼈眼对⽬标进⾏识别、跟踪和测量的机器视觉,并进⼀步做图形处理,使计算机处理成为更适合⼈眼观察或传送给仪器检测的图像。
2)·计算机视觉 VS 机器视觉
计算机视觉更关注图像信号本⾝以及图像相关交叉领域(地图、医疗影像)的研究;机器视觉则偏重计算机视觉技术⼯程化,更关注⼴义上的图像信号(激光和摄像头)和⾃动化控制(⽣产线)⽅⾯的应⽤。
3)计算机视觉识别技术的分类
独角架物体识别分为“1 VS N”对不同物体进⾏归类,以及“1 VS 1”对同类型的物体进⾏区分和鉴别;物体属性识别,结合地图模型让物体在视觉的三维空间⾥得到记忆的重建,进⽽进⾏场景的分析和判断;物体⾏为识别分为3个进阶的步骤,移动识别判断物体是否做了位移,动作识别判断物体做的是什么动作,⾏为识别是结合视觉主体和场景的交互做出⾏为的分析和判断。
4)·计算机视觉的识别流程
训练模型:样本数据包括正样本(包含待检⽬标的样本)和负样本(不包含⽬标的样本),视觉系统利⽤算法对原始样本进⾏特征的选择和提取训练出分类器(模型);此外因为样本数据成千上万、提取出来的特征更是翻番,所以⼀般为了缩短训练的过程,会⼈为加⼊知识库(提前告诉计算机⼀些规则),或者引⼊限制条件来缩⼩搜索空间。
识别图像:会先对图像进⾏信号变换、降噪等预处理,再来利⽤分类器对输⼊图像进⾏⽬标检测。⼀般检测过程为⽤⼀个扫描⼦窗⼝在待检测的图像中不断的移位滑动,⼦窗⼝每到⼀个位置就会计算出该区域的特征,然后⽤训练好的分类器对该特征进⾏筛选,判断该区域是否为⽬标。
5 )计算机视觉技术模式图和对应企业图
⽬前世界上图像识别最⼤的数据库,是斯坦福⼤学⼈⼯智能实验室提供的ImageNet,针对诸如医疗等细分领域也需要收集相应的训练数据;Google、Microsoft此类科技巨头会⾯向市场提供开源算法框架,为初创视觉识别公司提供初级算法。
2.语⾳识别(Automatic Speech Recognition)
1)什么是语⾳识别
ss53ss
语⾳识别是以语⾳为研究对象,通过信号处理和识别技术让机器⾃动识别和理解⼈类⼝述的语⾔后,将语⾳信号转换为相应的⽂本或命令的⼀门技术。由语⾳识别和语⾳合成、⾃然语⾔理解、语义⽹络等技术相结合的语⾳交互正在逐步成为当前多通道、多媒体智能⼈机交互的主要⽅式。
2)语⾳识别的流程网络节点
语⾳信号经过前端信号处理、端点检测等预处理后,逐帧提取语⾳特征,传统的特征类型包括有MFCC、PLP、FBANK等特征,提取好的特征会送到解码器,在训练好的声学模型、语⾔模型之下,到最为匹配的此序列作为识别结果输出。
3)语⾳识别技术模式图和对应企业图
基础层:包含⼤数据、计算⼒和算法三块,其中⼤数据等接⼊的是相应领域的第三⽅服务商。机器在识别⼈类的语⾳指令后接⼊、提供相应的服务。诸如影视、电影票、餐饮等;
技术层:以科⼤讯飞为⾸的语⾳技术提供商;压力容器安全阀
应⽤层:传统家居环境中的电视、⾳箱⼚商都给加上了语⾳识别功能,新增交互⽅式;还有智能车载采⽤语⾳交互让⼿不离开⽅向盘提⾼安全系数;还有搜索⼚商基于搜索做出来的语⾳助⼿等。
3.⾃然语⾔理解(Natural Language Understanding)
1)什么是⾃然语⾔理解
⾃然语⾔理解即⽂本理解,和语⾳图像的模式识别技术有着本质的区别,语⾔作为知识的载体,承载了复杂的信息量,具有⾼度的抽象性,对语⾔的理解属于认知层⾯,不能仅靠模式匹配的⽅式完成。
荸荠去皮机
2)⾃然语⾔理解的应⽤:搜索引擎+机器翻译;
⾃然语⾔理解最典型两种应⽤为搜索引擎和机器翻译。搜索引擎可以在⼀定程度上理解⼈类的⾃然语⾔,从⾃然语⾔中抽取出关键内容并⽤于检索,最终达到搜索引擎和⾃然语⾔⽤户之间的良好衔接,可以在两者之间建⽴起更⾼效,更深层的信息传递。
3)⾃然语⾔理解技术在搜索引擎中的应⽤
4)⾃然语⾔理解技术在机器翻译中的应⽤
事实上搜索引擎和机器翻译不分家,互联⽹、移动互联⽹为其充实了语料库使得其发展模态发⽣了质的改变。互联⽹、移动互联⽹除了将原先线下的信息(原有语料)进⾏在线化之外,还衍⽣出来的新型UGC模式:知识分享数据,像、百度百科等都是⼈为校准过的词条,噪声⼩;社交数据,像微博和等展现⽤户的个性化、主观化、时效性,可以⽤来做个性化推荐、情感倾向分析、以及热点舆情的检测和跟踪等;社区、论坛数据,像果壳、知乎等为搜索引擎提供了问答知识、问答资源
等数据源。另⼀⽅⾯,因为深度学习采⽤的层次结构从⼤规模数据中⾃发学习的⿊盒⼦模式是不可解释的,⽽以语⾔为媒介的⼈与⼈之间的沟通应该要建⽴在相互理解的基础上,所以深度学习在搜索引擎和机器
是不可解释的,⽽以语⾔为媒介的⼈与⼈之间的沟通应该要建⽴在相互理解的基础上,所以深度学习在搜索引擎和机器翻译上的效⽤没有语⾳图像识别领域来得显著。
⼀图看懂新⼀代
⼈⼯智能知识体系⼤全