简数采集教程(新手入门版)

个人博客 92 0

简数采集教程(新手入门版) 第1张

简数采集教程(新手入门版)

步骤目录:

  1. 创建采集任务

  2. 完善列表页的智能抽取结果(可选)

  3. 完善详情页的智能抽取结果(可选)

  4. 启动运行

第一步:创建采集任务

点击左侧菜单按钮“创建采集任务”,输入采集任务名和要采集的”列表页“网址,如:www.cnblogs.com(这里首页即作为列表页:内容含有多个详情页即可),详情页链接可不填,系统会自动识别。

如下图:

简数采集教程(新手入门版) 第2张

输入后点击 “下一步”。

第二步:完善列表页的智能抽取结果(可选)

系统会先采用智能算法获取需要采集的详情页链接(多个),用户可以双击打开检查,如果不是想要数据,可以点击“列表提取器”进行手动指定,只需要在可视化界面上用鼠标点击。

智能获取结果如下图:

简数采集教程(新手入门版) 第3张

另外:上面结果中,系统也智能发现了翻页规则,用户可以设置要采集多少页。也可以稍后在任务中的“基本信息&入口网址”--》“按规则生成网址”项中进行配置。

列表提取器 打开后如下图:

简数采集教程(新手入门版) 第4张

第三步:完善详情页的智能抽取结果(可选)

上一步获取了多个详情页链接后,继续下一步,系统会使用其中一个详情页链接来智能抽取详情页数据(如:标题,作者,发布日期,内容,标签等)

详情页智能抽取结果如下:

简数采集教程(新手入门版) 第5张

如果智能抽取的内容非想要的,那么可以打开"详情提取器"进行修改。

如下图:

简数采集教程(新手入门版) 第6张

可以在左侧对各字段进行修改或增加删除等。

还可以对每个字段进行详细设置或数据处理(双击字段即可):替换,提取,过滤,设置默认值等等,

如下图:

简数采集教程(新手入门版) 第7张

第四步:启动运行

完成后,即可启动运行,进行数据采集了:

简数采集教程(新手入门版) 第8张

采集后的数据结果,在该采集任务的“结果数据&发布”里面,您可以在这里对数据进行修改或者直接导出excel或发布你的网站(WordPress,织梦DEDE,HTTP接口,数据库等)。

简数采集教程(新手入门版) 第9张

这样就完成了,数据采集就这么简单!!!

标签: 简数采集 建站技术

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~