很久没使用机车收集器了。想起以前做驿郡SEO的时候,经常登录机车采集器收集主要相关网站的信息。而且,当时采集风盛行,到处都有各种采集站,特别是小说站、文章站等,动不动就有数十万人的文章采集,网站获得权重4很容易。(大卫亚设,Northern Exposure(美国电视剧),现在大部分网站很少采集,但采集无处不在。因为所谓的原创网站的部分文章内容也很有可能是采集后加工制作的。所以熟悉采集技巧对SEO站长有帮助。下面的老顾客SEO博客共享的是机车收集器使用教程,供初学者SEO参考。(阿尔伯特爱因斯坦,北上广深)。
火车头采集器网址规则设置
第一步,打开机车收集器,单击“新建”创建新任务,填写任务名称,设置收集web规则,并分别设置列表页面收集规则和带有列表页面的句子页面规则,分为两个阶段。
步骤1:添加启动URL,单击“添加”,选择批处理/多页,设置需要从地址格式收集的网页链接,单击“添加”和“完成”。此步骤的目的是设置几个列页面链接。
如果分别查看要收集的网页、列页面1、页面2和页面3链接规则,就会发现页面2和页面3链接相似,只有2和3不同。因此,在填充规则中选择等差列,在地址格式中填充页面2链接,用(*)替换更改的数字,并根据列页数设置项目数即可。
步骤2:导入多级URL,单击“添加”,选择URL导入选项,添加URL提取规则,熟练使用后推荐结果URL过滤功能,记下需要包含的URL和不需要包含的URL,测试规则是否正确填充,然后保存。此步骤的目的是在每一列下建立句子页面链接。
t/uploads/2020/12/2020120207545432-e1606895704889.png" alt="采集教程:如何利用采集工具批量采集文章?(火车头采集器操作教程)" width="600" height="478" />
火车头采集器文章页网址获取方法
多级网址获取技巧说明:我们要获取的是该栏目下的文章页链接,去原网页查看栏目分页的源代码,在该源码页找到第一篇文章页链接的位置,然后在上面选取一小段通用代码,一定是每个栏目页都会出现的代码,通常的表现形式会带有list或者article的代码。
火车头采集器内容规则设置
第二步、设置采集内容规则,可以在典型页面处填写一篇文章页链接进行测试,分别设置标题采集规则和内容采集规则,也分为两个步骤。

火车头采集内容的规则
步骤a:双击【标题】标签,一般网页的标题是<title>标签,所以这一步可以默认,如果有需要的话是可以设置内容过滤,以及内容替换的。
步骤b:双击【内容】标签,内容提取规则和第一步的步骤2多级网址获取方法是一样的。这里是获取内容,所以是查看内容页的源代码,在该页面找到正文内容,在正文首段上面截取一小段通用代码,该代码也是所有文章页都会出现的,通常的表现形式是article标签为起始,</article>为结束。同样也可以设置内容过滤、内容替换以及标签过滤等,将不需要的信息过滤掉。如不需要图片,可以勾选过滤掉img图片标签。

火车头采集器发布内容设置
第三步、发布内容设置,勾选需要启用的发布方式,保存即可,然后在任务列表处右键任务名,点击【开始任务】等待采集完成。

注,火车头采集器发布内容分为两个方式,方式一是web在线发布到网站,需要添加发布配置。新手不建议直接发布到网站,建议勾选第二个保存为本地。至于文件模板可以【查看默认模板】,然后选择TXT格式即可。

结语:火车头采集器功能十分强大,除了采集文章还可以采集视频等,火车头采集器使用规则并不难,根本不需要懂什么编程之类的语言,只需能看懂一些常用的简单代码即可,操作一两次基本可以完全掌握,是一款非常棒的SEO工具。作为网站优化人员,我们采集文章后可以对内容进行修改和调整,让内容更加完善,同时也可以大大提高SEO人员的工作效率。火车头采集器使用方法就介绍到这里了,不懂的朋友可以下方留言,尽我所知给予解答。

2021-07-06 08:30:49