小白操作中履带工具的使用教程

90自媒体 自媒体运营 2020-12-10 14:47:30 37 0

作为一个合格的操作人员,往往需要掌握数据分析的能力。如果您是新加入公司编辑新媒体内容的人,您需要评估公司现有的内容资产,以避免内容重复。这时候你需要把页面上的数据扒下来,穿上就清楚了。从页面抓取数据的最好方法是抓取~本文将教你如何使用网页抓取器抓取数据,并帮助你操作小白快速上手抓取工具!

小白操作中履带工具的使用教程  第1张

步骤1:下载网页抓取器

小白操作中履带工具的使用教程  第2张

网页扫描器是Chrome浏览器上的一个插件。你需要翻墙进入chrome shop并下载web scanner插件。

小白操作中履带工具的使用教程  第3张

步骤2:打开刮网器

小白操作中履带工具的使用教程  第4张

首先,打开一个你想爬数据的页面。比如我今天想爬上头条的“吴晓波频道”账号的章节标题、时间、评论号,那我就先打开再进行操作。然后快捷键Ctrl Shift I/F12打开刮网器。

小白操作中履带工具的使用教程  第5张

第三步:创建一个新的网站地图

单击创建新站点地图,有两个选项。导入站点地图是为了引导一个现成的站点地图,这个站点地图在操作上不是现成的,所以最好选择create sitemap而不是这个。然后输入这两个操作:

站点地图名称:表示这个站点地图适合哪个页面,可以根据页面命名,但是需要用英文字母。如果我抓住了这个标题的数据,那么我将把它命名为toutiao;网站地图网址:复制页面链接到明星网址栏目,如图,我复制了“吴晓波频道”的首页链接到这个栏目。

第四步:设置网站地图

整个刮网器的抓取逻辑如下:设置级别选择器,选择固定的抓取范围;在级别选择器下设置级别选择器,选择抓取字段,然后抓取。

再比如,如果你想得到福建的名字、性别、年龄这三个要素,那么你要这么做:先定位福建省,然后保存福建省的名字、性别、年龄。这里你要圈出中国的福建省,你要圈出福建省的姓名、性别、年龄三要素。对于一个章节,级别选择器意味着你要圈出这个章节的元素,可能包括标题、作者、发布时间、评论数量等。然后我们在等级选择器中挑出我们想要的元素,比如标题、作者、阅读次数。

(1)单击添加新选择器以创建级别选择器,并按照以下步骤操作:

A.输入id: id代表您抓取的整个范围。如果这是一章,我们可以把它命名为126篇吴晓波文章;

B.select type: type代表你抓取的部分的类型,比如element/book/link,因为这是整个章节元素范围的选择,我们需要element先整体选择(如果这个页面需要滑动加载更多,那么选择element向下滚动);

C.选中多个:选中多个前的复选框,因为您希望选择多个元素而不是单个元素。我们查的时候,爬插件会帮我们识别多个同类章节;

D.保留设置:保留其他未提及部分的默认设置。

(2)单击选择选择范围,并按照以下步骤操作:

A.选择范围:选择要抓取的数据范围,绿色为要选择的区域,点击后变为红色,即为选择的区域;

B.多选:不要只选一个,还要选下一个,否则只会有数据爬出来;

C.完成选择:记得点击完成选择;

D.保存:单击保存选择器。

(3)设置完该级别的选择器后,点击设置该级别的选择器,并按照以下步骤操作:

A.创建新选择器:单击添加新选择器;

B.输入id :id表示你选择的领域,所以你可以选择这个领域的英语。如果要选“作者”,我就写“作家”;

C.选择类型:选择文本,因为你要抓取的是这个;

D.不要勾选Multiple:不要勾选Multiple前的复选框,因为我们要在这里抓取单个元素;保留设置:其余未提及的将保留默认设置。

(4)单击选择,然后单击要爬网的字段,并按照下列步骤操作:

A.选择字段:已爬网字段是单个字段,您可以通过单击它来选择它。如果你想抓取标题,你可以点击一个章节的标题,当字段所在的区域变成红色时选择它;

C.完成选择:记得点击完成选择;

D.保存:单击保存选择器。

(5)重复上述操作,并引导您选择要爬上的字段。

第五步:抓取数据

网页抓取器之所以是操作小白的必备抓取工具,是因为您只需要设置所有选择器就可以开始抓取数据。很简单吗?那么如何开始抓取数据呢?只需要一个简单的操作:点击scratch,然后点击Start scratch,会弹出一个窗口,然后勤奋的爬,开始做。你会得到一份列有你想要的所有数据的清单。

以上是如何使用爬虫工具操作小白会的教程。怎么样?您是否快速完成了Web铲运机的所有操作流程?我相信即使不懂编程语言的小白也能在5分钟内掌握爬行数据的爬虫工具!

专业技能营销媒体
版权声明

本文系作者授权发表,未经许可,不得转载。

发表评论

评论列表(0人评论 , 37人围观)
☹还没有评论,来说两句吧...