47
融合发展
Integration and Development
2022 . 12 中国金融电脑
受弯构件挠度
业务集约运营是在构建综合性集团运营大后台背景下的运营改革,目的是更高效、迅速地提供金融服务,最大程度地实现企业运营的规模化经济效应。工商银行正推动传统银行业务在数据化、自动化、智能化等各层面的技术升级,推进金融数字化转型,以科技赋能传统金融。本文将从集约运营事前、事中、事后三个环节入手,结合网络爬虫技术在集约运营中心(佛山)的实际应用场景,分析如何将网络爬虫(Web Crawler)技术融入集约运营,从而助力集约运营领域人员管理配置的合理性与业务处理质效的提升。 一、网络爬虫技术简介
网络爬虫技术指通过模拟浏览器操作,利用构造请求暴露接口数据等技术手段批量地获取数据,并按照 一定方式整理、汇总。网络爬虫技术的实现方式为:首先获取目标数据地址,再根据设定好的需求分析提取页面内容。目前,网络爬虫技术广泛用于数据收集,可应用于大批量、跨平台重复操作中。
二、网络爬虫技术在集约运营中的应用
网络爬虫技术以快速、高效的特点,可作为多系统衔接的数据抓取工具,在集约运营这一全行数据交汇点发挥着重要的作用。
1.运营事前分析
集约运营属于人员密集型操作,管理人员需要充分掌握每位员工的岗位权限情况,以便合理安排当日的工
作。一般来讲,集约运营中心会将业务的各个环节划分为不同部门,不同部门间的岗位权限安排和查询方式有所不同,在统筹规划时可以利用跨平台网络爬虫技术来汇总相关数据。获得汇总数据后,管理人员可以根据每位员工的处理权限,结合当日的业务等待、差错业务等情况,动态调整员工业务处理权限,并依据实时场景数据实现最佳的人员调度,以及人员与业务的最佳匹配。
其技术实现思路为:利用爬虫模拟浏览器方式进行数据请求。首先模拟网页对预设登录所需的账号、密码等信息进行统一加密,发起登录请求获取唯一识别认证,然后携带此参数,以业务大类、人员标
识作为爬虫查询条件,通过构造参数向指定接口请求目标数据。获取返回HTML 数据请求后,可以利用BeautifulSoup 等工具解析网页,根据需要元素的特定标签获取集约运营链条中的业务数据,并将各个平台的数据进行汇总。目前,工商银行集约运营中心在每日岗前定时获取每日人员权限记录,结合T-1日运营情况报表,为当日人员调度提供数据支持。
半p>撒切尔2.运营事中辅助
(1)运营事中管理辅助
在集约运营领域,分时段业务量存在波峰波谷,所以需要对在岗人员进行优先业务类别指派。因业务量预测难度较大,实际工作中难以及时进行人员权限调整,同时,在岗人员有部分尚未掌握或尚未熟练掌握所有类别业务的处理方式,导致人员权限和待处理作业类别不
中国工商银行集约运营中心(佛山) 蔡嘉 杨竞超
Copyright ©博看网. All Rights Reserved.
INTEGRATION
能灵活调整以实现动态衔接,从而造成任务池任务积压。当前,工商银行集约运营中心(佛山)对此
问题的解决方式主要为给予每类业务一定积分用于系统判断该笔业务的优先程度,即常见的作业调度算法中的按优先级调度。具体有以下两种方式。
湖北经视故事会一是不断有针对性地调整业务优先级,根据对接企业的优先程度给予对应账户不同权重。但在实际操作中,管理人员难以准确地判断业务优先级,且优先级不会伴随业务动态调整,需要凭借管理人员的经验手动调整,而频繁调整业务优先级对业务的稳定性也会产生影响。
二是熟悉业务的人员凭借经验对可能存在长时间未处理业务的大类逐一进行检查。其中存在的问题包括人员占用、手工操作的滞后性和遗漏可能,以及手工查之后需要口头传达,再令作业人员进行单笔处理操作,导致处理不及时。
上述两种方式都需要具体人员的手工介入,由于单纯依靠管理人员经验以及手工操作存在滞后性等问题,很可能对已积压业务存在不及时、不充分的判断,进而影响前台客户体验。而在集约运营领域,可以利用网络爬虫技术快速、高效的特点,跨平台多点实现信息的高效汇总。
其技术实现思路为:在利用网络爬虫技术获取当前业务基础数据后,将数据输入经验人员总结得出的模型;根据经验人员总结的阈值或根据实际情况动态修改阈值,自动判断积压业务处理紧急程度并推送预警信息。为方便对爬虫脚本进行管理,可以对触发阈值实现参数化动态配置,对重复使用的部分可抽象为同一模块,以降低之后的维护工作复杂度。
此应用自动化非侵入式获取各平台业务数据,并结合经验模型提供判断支撑结果,能够达到降低管理人员日常工作强度、提升人员工作效率的目的,使管理人员能够脱离日常繁杂的查询工作,更加专注于整体作业数据的分析,再结合汇总后的权限数据,合理安排人员业务处理类别,从而减少业务在平台的积压时间。
(2)运营事中业务辅助书治要
在作业人员进行业务操作的过程中,可应用网络爬虫技术速度快的优势,获取浏览器页面中正在处理的业务的关键信息,以此条件在其他平台爬取与之相关的用户名、账号等系统内存储的关键比对内容,利用信息的交叉检查、用户历史交易信息的勾稽关系检查等方式,辅助判断当笔业务中关键信息的真实性。
其技术实现思路为:
一是数据获取。通过外部获取网页文档对象的方式,利用Windows提供的API通过Shell.Application获取当前任务栏中所有窗口,遍历匹配出浏览器中平台业务对应界面;再根据对应界面文档解析数据,请求平台学习库等与此业务相关数据,筛选有用数据用于比对。在业务界面刷新时,需要注意如何同步页面刷新爬虫数据。如果不断循环爬虫脚本,或根据历史业务操作时长数据设置爬虫循环等待时间,可能会增加系统资源的消耗。在获取业务界面时,可直接获取DOM对象并进行对比,增加提交按
钮的事件监听,点击则触发爬虫脚本循环,从而达到减少爬虫数据请求的目的。
二是可视化封装。因该网络爬虫工具需要业务人员使用,如果单纯提供数据展示则不够友好,需要在数据基础上增加用户使用界面,可通过常见如QT、Swing 等界面设计方式。
在实际使用中,该网络爬虫工具通过减少审核项以及提高易错点的准确率,预计平均可减少作业人员操作时间约14%。
3.运营事后管理
运营事后管理需要大量的数据基础,各个平台通常可提供接口进行数据导出,但在实际情况下,数据需求跟随业务发展不断变化,而平台报表因为较为固定,会产生缺少部分数据的情况。此时可利用爬虫技术的特性,汇总数据形成日终报表,对业务管理提供数据支持。
如针对“飞单”现象员工异常作业处理时间的监测,要统计作业人员是否存在“飞单”操作,需要尽可能全
Copyright©博看网. All Rights Reserved.
48FINANCIAL COMPUTER OF CHINA
49
融合发展
Integration and Development
2022 . 12 中国金融电脑
量地统计其一天中审核业务的处理时间。目前,工商银行集约运营中心(佛山)日均处理业务总计10万笔以上,作业人员日均处理数据数百笔,包括数十大类的业务范围,如手动统计涉及大量重复操作,因此,员工异常作业处理时间监测也是网络爬虫技术较好的应用场景。
其技术实现思路为:查询一名作业人员当日所有业务审核时间需进行上千次的链接请求。针对此类数据量大、行为一致的数据抓取操作,传统单线程模式无法满足其在效率方面的要求,而多进程模式因其进程状态切换等问题,也不是可用于频繁I/O 场景下的最优方式。若使用Python 作为爬虫语言,其多线程在使用Request 等方式模拟浏览器请求数据时,并不能达到理想的数据请求效果,反而会因为线程切换造成资源浪费,所以,可选用比线程更加轻量级的协程来实现网络爬虫这类需频繁I/O 的应用。区别于传统的多进程、多线程方式,多协程方式在资源占用、协程间切换等方面所需的开销更少。采用Python 语言多协程并发I/O 方式批量执行爬虫脚本,将一次数据请求的流程定义为一个协程处理,每笔流程的切换采用轮询方式,在等待网页服务器响应数据的同时,将当前任务暂存并切换唤醒下一协程执行任务,从而可减少等待请求所导致的时间消耗。程序执行流程如下:
(1)以一个作业人员统一认证号作为一个单独协程,遍历所有业务大类,等待数据返回。
(2)将生成流水号放入任务池。
(3)启动流程消费者任务,将任务池加锁,从任务池中互斥取出流水号并生成对应URL 请求链接。
阳光聊天室(4)将请求装入协程任务中并发起请求。(5)将等待请求存入协程池中并等待内容响应。(6)获取响应页面内容,清洗数据并获取目标流水号的审核阶段处理时间,然后汇总存储。
为防止在某次请求中因网络波动等造成数据获取中断,可通过增加异常任务池、异常重复运行等方式保证数据的正常获取。采用多协程方式后,单机执行平均每
分钟可实现数百次的数据请求,能够基本满足在日终对所有作业人员进行每日实际审核的数据查询要求。
三、网络爬虫执行效率与平台正常运行的平衡
网络爬虫作为模拟网络请求的方式,在短时并发执行时会造成网络带宽资源的挤占以及目标服务器的网络资源消耗,从而影响平台实际业务的开展。平台也会建立对应的反爬机制,如采用用于区分计算机与实际使用者的验证码,以及携带请求主机物理地址等方式。要想达到数据可持续获取和平台正常运行的平衡,应当在网络爬虫工具编写时采用以下几种方式。
对于多协程并发脚本,可修改用于增减并发数量的信号量Semaphore 来控制一段时间内的请求次数。当信号量较小时,对于网络爬虫这类需要等待请求返回的应用,可减少单位时间内协程池内任务的数量,达到减少网络资源消耗的目的。如网络爬虫工具采用生产者—消费者模型进行构建,可采取适当缩短目标请求连接队列长度以及等待数据返回队列长度等方式,从两端控制网络请求频率。
在任务切换时,可使用Sleep 设置暂停时间。为更好适应当前后台压力,可动态设置暂停时间,在平台发出请求后计算响应时间,并平滑计算一定时间段内的平均时间,当平均时间超出正常值意味着已影响业务正常运转,可增加任务停顿时间,减轻平台压力。
对于时效性要求不高的任务,在日终所有业务停止时上送后执行脚本,尽量做到脚本与日常业务互不影响。
当前,工商银行的信息基础设施建设处于业界领先水平,但仍然有很多方面的工作可以利用技术流程的改造或利用技术手段提质增效。从业务角度思考如何更有效、更贴近实际情况地实现科技赋能业务的目标,如何将技术与业务深度融合,使技术更好地为业务服务仍将是未来一段时间商业银行关注的重点。
Copyright ©博看网. All Rights Reserved.