计算机工程应用技术
本栏目责任编辑:梁
书
戴俊梅1,陈龙2
(1.南京大学金陵学院,江苏南京210000;2.南京烽火星空通信发展有限公司,江苏南京210000)
摘要:据IDC 报告显示我国已进入大数据时代。众厂商各类服务系统中传统的数据处理逐渐演变成独立的计算业务,从而 为社会各界提供服务。但企业自行建造大数据平台门要求高,诸如资金、场地、人员、技术等。有幸,阿里云平台提供了一个开放、兼容的大数据生态平台体系,为中、小、微企业对大数据计算的需求提供了坚实后盾。关键词:大数据;中小微企业;开放的计算平台;集;在线计算;兼容;优势中图分类
号:G642
文献标识码:A
文章编号:1009-3044(2020)34-0217-02
开放科学(资源服务)标识码(OSID ):
The Benefit of Enterprise Using Alibaba Cloud Platform DAI Jun-mei 1,CHEN Long 2
(1.Nanjing University Jinling College,Nanjing 210000,China;2.Nanjing Fiberhome Starrysky Co.,Ltd,Nanjing 210000,China)Abstract:According to the IDC report,China has entered the era of big data.The traditional data processing in various service sys⁃tems which made by various manufacturers has gradually evolved into an independent business which supplys calculation.Howev⁃er,companies will be encounter with huge difficulties when building own big data platform.luckly,Alibaba Cloud platform can support computing capability of big data compatibly and sharing.these services can satisfy the desire of SME enterprises on big da⁃ta processing.
Keywords :big data ;SME enterprises ;opening cloud platform ;cluster ;OLTP;compatibility ;advantage
1大数据基本背景
2018年IDC 发布的数字研究报告(Digital Universe )显示,我们所产生的数据量将超过40ZB (泽字节)。随着政治、经济、科技、文化的发展,中国以进入大数据时代。企业期待快速向社会推广业务,随这各类终端的普及企业数据急速膨胀,同时企业也期待加速数据分析和挖掘过程,并由报表展现为主到强调数据洞察转型,让数据直接快速产生价值(Value )。但随着数据几何倍数的增长,查询或计算的数据量过大,达到数千万甚至数十亿条,或待进行的计算非常复杂的情况下,关系数据库呈现出力不从心的趋势。企业为了存储大容量数据,也迫不得已需要投入高额的硬件成本。众多企业遇到了大数据处理的瓶颈。
2阿里云平台接入解决方案
大数据系统的建设各环节必不可少,虽然投入巨大,但对
于任何中小企业来说并非没有建设的可能性。近年来,随着计算的发展,云服务器运行商的助力,涌现出众多云服务运硬商,诸如、阿里云、华为云。依托于云服务平台,各企业便能具备大数据信息系统的建设的条件和可能性。企业能做到以最小的投入,围绕自企业业务为核心,建设大数据系统,集中精力优化
企业,提高面向市场的服务水平。2.1阿里云体系结构
阿里云平台是一个兼容、开放的生态平台,主要内置四种
服务平台。OSS 平台,针对海量多媒体数据的存储与计算;MaxCompute 平台,是针对离线式历史海量数据的存储计算;ADS 平台针对实时在线式海量数据的查询与计算;Hriber post⁃gres 集平台,针对传统关系型数据库的存储与计算。
对象存储服务,英文简称OSS 。是阿里提供的海量、低成本、高安全、可靠性的云存储服务。在任何时空、任何app 中,通过阿里API ,可实行数据上传及下载。使用者可通过阿里Web 服务完成数据管理。OSS 支持任意类型文件,能满足企、事业单位、开发者使用需求。按实际容量付费,无需关注运维细节及成本,使使用者专注自身核心业务运作。
随着各种终端日益增多,数据规模快速增长至PB 级。使用单机服务器处理大数据已暴露出能力不足现象,数据分析者常采用分布式集服务器对大数据进行计算。但分布式的计算模型对数据分析人员提出了较高的要求,不易维护,数据分析人员不仅需要了解业务需求,同时还需要熟悉底层计算模型,增加了各领域中业务数据分析的难度。MaxCompute 计算
收稿日期:2020-06-17
作者简介:戴俊梅,女,江苏省南京市人,中级工程师,学士,研究方向:信息技术;陈龙,男,江苏省南京市人,中级工程师,硕士,研究
方向:网络安全。
217
本栏目责任编辑:梁书
计算机工程应用技术
Computer Knowledge and Technology 电脑知识与技术第16卷第34期(2020年12月)
服务平台,主要提供批量结构化数据的存储服务、计算服务、业务数据导入服务、分布式计算模型服务,可以针对海量数据仓库快速、深度分析,有效提取高价值潜在信息,有效降低使用者实现成本,并保障数据的存储安全性。
ADS 服务品台的主要功能是,在TB 、PB 级结构化海量数据
环境中,提供毫秒级明细查询、关联查询、统计计算。对于企业业务系统,支持国际标准化连接规范。连接协议包括MySQL 5.1/5.5/5.6系列连接协议。如市面主流连接协议:MySQL 5.1.x jdbc driver 、MySQL 5.3.x odbc connector(driver)、MySQL 5.1.x/5.5.x/5.6.x 客户端、java 、python 、C/C++、PHP 、Apache Tomcat 、JBoss 。ADS 平台由四个部分组成,分别是底层依赖层、计算集层、控制集层、
外围模块层。
2.2OSS 服务开发
OSS 服务,提供两种服务性开发方法,基于http 请求的获取
服务的开发方法,俗称http api 调用方式,另一种是基于sdk 开发包的程序模块开发方式,俗称二次开
发代码接口,两种接口各有优势。http aip 适用于任意支持http 协议的运行平台,无开发平台系统。二次开发sdk 包方式,开发接口更加丰富,有助于企业高效、稳定扩展系统功能,支持目前市面主流开发语言:Ja⁃va SDK 、Python SDK 、Android SDK 、iOS SDK 、C SDK 。
在使用OSS 开发前,需要创建访问密钥AccessKey (AK )相当于登录密码。AccessKey 用于程序方式调用云服务API ,而登录密码用于登录控制台。使用AccessKey 构造一个API 请求(或者使用云服务SDK )来操作资源。AccessKey 包括Access⁃KeyId 用于标识用户。AccessKeySecret 是用来验证用户的密钥。AccessKeySecret 必须保密。http api 方式开发举例:GetSer⁃vice (ListBuckets)对于服务地址作Get 请求可以返回请求者拥有的所有Bucket ,其中“/”表示根目录。sdk 二次开发接口的主要使用方式:
主要功能创建存储空间
四氯化锆接口
上传文件
下载文件列举文件删除文件
efactorossClient.putObject(bucketName,objectName,new ByteAr⁃
Bytes()));
InputStream content =ObjectContent();ossClient.listObjects(bucketName);
ossClient.deleteObject(bucketName,objectName);
2.2.1ODPS 平台服务使用开发
手机镀膜机使用odps sdk 前需要开通阿里云认证账号,获得阿里云用
户的身份标识accessId 及认证密钥accessKey ,这是MaxCompute 初始化基础。Odps sdk 开发包,支持主流java 、python 、C/C++开发语句,包括如下核心模块:
包名
odps-sdk-core MaxCompute odps-sdk-core-internal odps-sdk-commons
odps-sdk-udf MaxCompute UDF odps-sdk-mapred MaxCompute
作用
包括odps 、project 、table 、tunnel 等基础功能的操作接口,主要用于建立项目、表、存储通道
包括Event 、XFlow 等,提供业务事务处理、数据流预处理。
包含TableSchema 、Column 、Record 、OdpsType ,主要功能是提供一些常用工具。
实现自定义用户函数提供MapReduce 作业编程接口
主要实体、处理动作对象介绍,Odps 实体,主要是申请、获
得大数据计算资源。
CS CN
Projects ,是odps 平台中,项目空间的集合,由许多具体业务库组成,可以通过项目url 和项目获得:
Account account =new AliyunAccount("my_access_id","my_access_key");Odps odps =new Odps(account);String odpsUrl ="<your odps endpoint>";
SQLTask 用于运行、处理SQL 任务。运行结果以Instance 实例,通过Instance 获取SQL 的运行状态及运行结果。
Account account =new AliyunAccount("my_access_id","my_access_key");Odps odps =new
Odps(account);String odpsUrl ="<your odps endpoint>";
odps.setEndpoint(odpsUrl);Instance instance =SQLTask.run(odps,"my_project","se⁃lect ...");
电子围栏技术String id =Id();instance.waitforsuccess();Set<String>taskNames =TaskNames();
Map<String,String>results =TaskResults();Map<String,TaskStatus>task⁃Status =TaskStatus();
for (Entry<String,TaskStatus>status :Set()){String result =(Key());}
2.2.2ads 平台服务使用开发
ads 平台的使用类似于普通关系数据库,具有DDL 语言、DML 语言。DDL 用于创建、配置数据库及表。但具体语法与普通SQL 不同,比如:
create tablegroup db_name.tablegroup_name options(minRedundancy=2executeTimeout=
30000);
其中db_name:设置数据库名称,tablegroup_name 为表组名称。options 部分:minRedundancy 表示该表组的备份副本数,默认为2。executeTimeout 表示该表组的全局Query 超时时间,默认为30000,单位毫秒。(下转第227页)
218
计算机工程应用技术
本栏目责任编辑:梁书Computer Knowledge and Technology 电脑知识与技术
第16卷第34期(2020年12月)
选取第二个阈值分割图像中的白区域,选取阈值的颜显示如图9
所示。
图9分割白区域选取的阈值范围显示
使用该阈值分割后的图像如图10
所示。
图10分割白区域后的图像
把两个阈值组合在一起,无论哪里有橙或白,都会产生1个值,分割图像得到最终结果,如图11
所示。
图11图像分割结果
3结语
本文通过HSV 颜空间分割彩图片,实现了图片和图片背景的分离,但是也存在许多的不足。比如本文分割图像的阈值是手动选取的,需要经过反复多次的实验来选取最合适的阈值,工作比较繁杂冗余。目前由于没有太多额外的时间来研究阈值的自动选取,希望在之后的不断研究中对这个问题加以改善,此外本文是基于海洋中的鱼的图片来分割的,此种分割方法的应用场景还有许多,希望在以后的学习中可以广泛实验。
参考文献:
[1]王秋萍,张志祥,朱旭芳.图像分割方法综述[J].信息记录材料,2019,20(7):12-14.
[2]叶齐祥,高文,王伟强,等.一种融合颜和空间信息的彩图像分割算法[J].软件学报,2004,15(4):522-530.
[3]李丽华,汪凤麟,陈灵娜,等.基于视觉显著性的彩图像分割[J].南华大学学报(自然科学版),2015,29(3):73-77.
cwmp[4]莫玲.基于RGB 彩空间的图像分割研究[J].计算机科学,2016,43(S1):168-170.
[5]李伟斌,马洪林,易贤,等.基于彩空间变换的彩图像分割方法[J].计算机工程与应用,2019,55(9):162-167.
[6]张红霞,章银娥.基于Lab 空间的K 均值聚类彩图像分割方法[J].赣南师范大学学报,2019,40(6):44-48.
[7]Yamini B,Sabitha R.Image steganalysis:adaptive color image segmentation using otsu's method[J].Journal of Computational and Theoretical Nanoscience,2017,14(9):4502-4507.
[8]Raja R,Kumar S,Mahmood M R.Color object detection based image retrieval using ROI segmentation with multi-feature method[J].Wireless Personal Communications,2020,112(1):169-192.
【通联编辑:代影】
(上接第218页)
根据表的数据更新方式不同,分析型数据库的表根据up⁃dateType 分为批量更新表(仅能够离线批量更新数据)和实时更新表(能够通过insert/delete 实时更新数据),用updateType 以区分,如果updateType 选项不填则默认为批量更新表。
分区表设置,目前分析型数据库支持最多两级分区,并且一级分区仅支持HASH 分区,二级分区仅支持LIST 分区。HASH 分区是一种动态分区值类型,即根据实际数据中的某一列的内容进行分区。所以在语法上,一级HASH 分区的用法是:PARTITION BY HASH KEY(col1)PARTITION NUM 50。2.3基于阿里云平台企业业务逻辑的架构
企业的非结构化数据处理系统,如图片、音频、视频处理系
统,特别适用基于OSS 存储平台架构方案。各种终端设备、Web 网站程序、移动应用数据,通过数据流方式向OSS 平台写入数据。OSS 平台具备带宽管理功能,因此可以实现超低延时的数据直接下载。OSS 也可与阿里云其他服务平台联动,为多
媒体数据的服务提供最佳体验。
3结束语
阿里云平台可以快速接入企业大数据,有利于企业向市场
提供高质量数据服务。阿里云服务在价格、服务方便比较合理,技术服务环节能提供有力保障,稳定、安全、高效且节约成本。
参考文献:
[1]阿里云.专有云Enterprise 版分析型数据库(ADS ).阿里公司内部技术白皮书,2017.
[2]陈敏,张东.大数据整体解决方案及关键技术探索,华中科技大学出版社,2015.
[3]刘鑫.MySQL 和PostgreSQL 的对比选择[J].沈阳工程学院学报(自然科学版),2011.
[4]周静,谭亮.基于Hadoop 的大数据平台构建[M].西南交通大学出版社,2018.
【通联编辑:王力】
227