网站优化

注册

 

发新话题 回复该主题

SEO教程132筑基篇爬虫 [复制链接]

1#

内容简介:

1)存在时效性内容的站点,容易出现机器不可见的情况。如:

电商网站,商户下线了某个不再售卖的产品

团购网站,商户下线了某个不再优惠的活动

招聘网站,公司下线了某个不再招聘的职位

B2B网站,厂商下线了某个不再批发的产品

...............

当用户下线的某个产品/职位/活动,对应的前端页面,一般会有3种状态:

a、产品下线后,对应页面立马状态

假如下线产品对应的页面,刚好在搜索引擎的待抓取列表中,当搜索引擎访问时,必然出现机器不可见的情况,因为是死链。所以SEO需要找技术定期(至少每天)索取下线产品对应的链接,及时提交死链给搜索引擎,规避惩罚风险

b、产品下线后,对应页面到首页,或上级页面,或其他什么的页面

c、产品下线后,对应页面仍然状态,页面上添加下线状态的标识

已经下线的产品,比如是电商网站某个不再售卖的产品,该页面对用户来讲,已经毫无价值,但前端仍是状态,让搜索引擎消耗资源去抓取,所以站在搜索引擎的立场,并不友好。

具体的处理方式,SEO首先要去了解产品对于下线产品的处理逻辑,再根据实际情况来定夺,比如:

a、已下线的产品,若历史流量比价多,全都显然是非常坑SEO的做法,是否需要有流量的状态,没流量的都

b、若产品被用户发布,然后下线后,之后还可以恢复上线。那发布和恢复上线时的url是不是一样的?若一样怎么处理,不一样怎么处理?

总之,需要根据实际情况,在用户感受、搜索引擎友好、SEO流量三者中做一个平衡。

2)需要访问权限才能查看的内容

若针对用户及搜索引擎,都设置访问权限,比如需要登陆之后才能看到正文,无疑对SEO影响巨大,爬虫无法执行人的登陆行为

一般可以披露部分内容,隐藏部分内容来处理,或者针对爬虫披露全部内容,针对用户隐藏内容

3)触发反爬虫策略,返回空页面或假页面

运维没有将搜索引擎加到白名单,搜索引擎被误判为“坏人”,触发反爬虫策略,返回空白页面。

更坑的是返回假数据,比如从条预先准备的数据中,随机抽取一条返回给爬虫,爬虫抓了几万页面,实际上数据就那条,对SEO造成严重影响。

从而引申出一条,SEO需要时刻跟运维保持同步,时刻了解最新的反爬虫措施,是否存在误伤搜索引擎的可能

4)POST请求

通过post请求返回的数据,常出现于多条件筛选框,如肯德基的门店内容:

分享 转发
TOP
发新话题 回复该主题