哎呀,最近都没怎么碰火车头采集器了,但提起它,脑子里就浮现出以前做站群SEO的时候,每天对着这个神器采集各大网站资讯的忙碌日子。那时候,采集就像一股风,席卷了整个互联网,特别是那些小说站和文章站,动不动就采集上十万篇文章,那时候做到权重4,简直不要太容易。虽然现在很多网站都不怎么采集了,但你知道吗?采集这股风其实从未停歇,很多看似原创的站点,文章内容可能也是经过采集后再加工的。所以,掌握一招采集绝技,对于SEO站长来说,可谓是必备良方。今天,我就来跟大家分享一下火车头采集器的操作教程,新手SEO们可以参考一下哦。
火车头采集器网址规则设置:开启采集之旅的第一步
第一步:新建任务,起航啦! 打开火车头采集器,点击“新建”,给新任务起个名,然后设置采集网址规则。这个设置分为两步走。
步骤1:添加起始网址,锁定目标 点击“添加”,选择批量/多页,在地址格式设置你需要采集的网页链接,点击“添加”再“完成”。这步的目的是确定有多少个栏目分页链接。
观察一下你要采集的网页栏目页,你会发现分页链接的规律,比如第二页和第三页的链接很相似,只是数字变了。其实,很多网站的栏目页分页都是按等差数列排列的,就像我的林云博客一样。所以在填写规则的时候,选择等差数列,填写分页2的链接,用代替变化的数字,根据栏目分页的多少设置项数即可。
步骤2:多级网址获取,精准定位 点击“添加”,选择网址获取选项,添加提取网址的规则。使用熟练后,建议使用结果网址过滤功能,将需要包含的网址和不必包含的网址写进去。测试一下规则是否填写正确,然后保存即可。这步的目的是确定每个栏目下的文章页链接。
火车头采集器文章页网址获取:寻找宝藏的路径
技巧分享: 我们要获取的是该栏目下的文章页链接,那就去原网页查看栏目分页的源代码,找到第一篇文章页链接的位置,然后选取一小段通用代码,通常是带有list或者article的代码,这就是每个栏目页都会出现的通用代码。
火车头采集器内容规则设置:内容的精雕细琢
第二步:设置采集内容规则,让内容更丰富 在典型页面处填写一篇文章页链接进行测试,分别设置标题采集规则和内容采集规则,也是两步走。
火车头采集内容的规则
步骤a:标题采集,精准命名 双击标签,一般网页的标题是
步骤b:内容采集,深度挖掘 双击标签,内容提取规则和步骤2的多级网址获取方法是一样的。这里是获取内容,所以是查看内容页的源代码,找到正文内容,在正文首段上面截取一小段通用代码,这也是所有文章页都会出现的通用代码,通常的表现形式是article标签为起始,为结束。同样也可以设置内容过滤、内容替换以及标签过滤等,将不需要的信息过滤掉。比如,如果你不需要图片,可以勾选过滤掉img图片标签。
火车头采集器发布内容设置:内容的华丽绽放
第三步:发布内容设置,展示你的成果 勾选需要启用的发布方式,保存即可。然后在任务列表处右键任务名,点击,等待采集完成。
注:火车头采集器发布内容分为两个方式,方式一是web在线发布到网站,需要添加发布配置。新手不建议直接发布到网站,建议勾选第二个保存为本地。至于文件模板,可以,然后选择TXT格式即可。
火车头采集器功能十分强大,除了采集文章,还可以采集视频等。使用规则并不难,你不需要懂什么编程之类的语言,只需能看懂一些常用的简单代码即可,操作一两次基本可以完全掌握,是一款非常棒的SEO工具。作为网站优化人员,我们采集文章后可以对内容进行修改和调整,让内容更加完善,同时也可以大大提高SEO人员的工作效率。火车头采集器使用方法就介绍到这里了,不懂的朋友可以下方留言,我会尽我所知给予解答。
版权声明:采集教程:如何利用采集工具批量采集文章?(火车头采集器操作教程) 系墨家SEO原创发布转载时请以链接形式注明文章出处:https://mihxws.cn/aiqing-1130.html
未注明出处链接视为侵权。对于任何侵犯版权的行为,我们将依法采取措施,并保留追诉法律责任的权力