互联网创业基地

标题: 百度抓取异常问答 [打印本页]

作者: 皮皮虾    时间: 2022-4-15 18:51
标题: 百度抓取异常问答
1.什么是令人毛骨悚然的异常

对于在互联网上可以正常访问的页面,百度蜘蛛抓取的内容应与普通用户访问的内容兼容,否则抓取异常。
2、爬取异常对网站有什么影响?

如果网站存在大量异常抓取的网页,搜索引擎会认为该网站存在用户体验缺陷,从而降低该网站的评分,最终影响该网站在百度上的表现。搜索引擎。

3.什么是死链

不再有效且无法为用户提供任何有价值信息的页面为死链接,包括协议死链接和内容死链接两种形式。

协议死链接:死链接由页面的TCP协议状态/HTTP协议状态明确表示,如404、403、503状态。

内容死链接:服务器恢复正常状态,但内容已更改为不存在、已删除或需要权限等信息页面。与原始内容无关。

对于死链接,建议及时修复死链接,或者推送死链接,让搜索引擎更快找到死链接,减少死链接对用户和搜索引擎的影响。

4. 什么是 IP 禁令?

限制网络的出站IP地址,禁止该IP段内的用户访问内容,就是IP封禁。

5. 什么是 UA 禁令?

UA是User Agent,服务器通过UA识别访问者。当网站返回异常页面(如403500)或跳转到其他页面进行指定UA的访问时,即为UA的封禁。

6. 什么是异常重定向?

将在线请求重定向到另一个位置是重定向。常见的重定向有两种:持久重定向(301重定向协议)和临时重定向(302重定向协议),目前百度认可并支持。

如果长时间重定向到其他域名,比如更换网站域名,建议使用301重定向协议。

7. 其他例外情况是什么?

欺骗百度引荐来源网址:网页返回的行为与百度引荐来源网址的正常内容不同。

欺骗百度UA:网页返回百度UA的行为与页面原始内容不同。

JS跳转跳转:网页加载了百度无法识别的JS跳转代码,用户通过搜索结果进入页面后跳转。

压力过大导致的意外封禁:百度会根据网站大小、流量等信息自动设置一个可接受的抓取压力。但是,在异常情况下,例如压力检查异常时,服务器会对自己的负载强制执行保护时间禁令。在这种情况下,请在返回码中返回 503(表示“服务不可用”),百度蜘蛛会在一段时间后再次尝试抓取链接。如果该站点已关闭,它将被成功抓取。






欢迎光临 互联网创业基地 (http://bbs.jusiboxin.com/) Powered by Discuz! X3.2