主体内容不能空短,空短内容也会被判断为无价值内容。
举个例子:某网站反馈网站内容未被建索引,分析发现,网站抓取没有问题,但被抓取到的页面,都提示需要输入验证码才能查看全部页面,这类页面被判断为空短页面,这类页面在抓取后,会被判定为垃圾内容。
网站主体内容太短被判断无价值内容原因:
1、蜘蛛对一个网站抓取后发现大面积都是低值的空短页面时,爬虫会认为这个站点的整体价值比较低,导致针对该站点的页面更新会比较慢,进而抓取甚至建索引库也会比较慢。
2、网站内容未全部搭建完成,未对外开放,但已被蜘蛛爬取发现。针对这种情况,建议网站在邀请测试阶段使用robots封禁。
3、有些网站,设置用户查看权限,如需用户登陆才能查看全部内容,这样的行为对搜索引擎也极不友好,蜘蛛无法模拟用户登陆,仅能抓取网站已展示页面,可能会导致抓取页面为空短的现象。