本⽂介绍如何使⽤后羿采集器的 ,免费采集百度搜索多个关键字的信息数据。
采集字段:
标题、标题链接、摘要、时间
挤爆胶囊功能点⽬录:
采集结果预览:
硫铁矿制硫酸
下⾯我们来详细介绍⼀下如何使⽤流程图模式,采集在百度输⼊多个关键字后的数据,我们以“后羿采集器、神箭⼿⼤数据、精灵标注”这三个关键词为例,具体步骤如下:
1、打开后羿采集器 ,下载并安装最新版的后羿采集器
一体化化粪池2、点击注册登录,注册新账号,登录后羿采集器
【温馨提⽰】 您可以直接使⽤此款爬⾍软件,不需要进⾏注册,但是匿名账户下的任务在切换到注册⽤户时会丢失,因此建议您注册后使⽤。
后羿采集器为神箭⼿旗下产品,神箭⼿⽤户可直接登录。
步骤⼆:新建采集任务
1、复制 的⽹页地址
了解关于如何正确地输⼊⽹址。
2、新建流程图模式采集任务
您可以在软件上直接新建采集任务,也可以通过导⼊规则来创建任务。
钢架桥了解如何导⼊和导出采集规则。
步骤三:配置采集规则
离子风机aryang在流程图模式输⼊⽹址新建任务之后,我们点击搜索框,然后在左上⾓出现的操作提⽰框内输⼊要采集的⽂字,在这⾥我们输⼊“后羿采集器”这个关键词。
了解输⼊⽂字组件的更多内容。
关键词输⼊之后,在页⾯上出现了输⼊⽂字组件,此时只设置了⼀个关键词,我们需要设置多个关键词的搜索,因此需要拖动⼀个循环组件到任务栏,然后将输⼊⽂字组建拖动到循环组件内,设置循环条件。
我们在循环组件上选择⽂本列表,然后在框内输⼊要采集的关键词,设置⽂字输⼊组件使⽤⽂本内的循环。
了解更多循环组件的内容
2、设置提取字段数据
输⼊多个关键字循环设置好之后,我们设置需要提取的字段数据,点击⽹页上的字段,在左上⾓的操作提⽰框内选择提取全部元素。
抽取出列表页上的字段之后,我们可以右击字段进⾏相关设置,包括修改字段名称、增减字段、处理数据等。了解更多关于提取字段组件的内容。
我们需要采集标题、链接、摘要及时间等信息,字段设置效果如下:
3、设置下⼀页
我们采集出了单页的数据,现在需要采集下⼀页的数据,我们点击页⾯上的“下⼀页”按钮,在左上⾓出现的操作提⽰框内选择“循环点击下⼀页”。
工位管理系统
了解更多关于翻页的内容。