不存在的页面为什么会Google被收录
在Google等搜索引擎中经常发现它收录了网站上不存在的url链接,在管理员工具中申请删除时总是失败。
这些失效的URL都是由于文章标题改变使得其URL也改变从而导致原先已经被Google收录的文章URL失效了,这时点击原来的链接就会重定向到网站的404页面。
那么为什么在管理员工具中不能删除已经失效的链接呢?
原来是因为404页面返回的状态不对(http返回状态码可以傅Firebug/网络组件查看),正确做法应该是返回404状态码,并输出一个超过512字节的HTML代码文件(”超过512字节”的原因是IE浏览器会忽略不到512字节的错误页面,并且显示”找不到该页”的默认消息)。
如果是php则可以在404.php文件中添加如下代码:
header('Status: 404 Not Found');
备注
如果只是需要暂时删除一个URL,还可以在robots.txt中添加Disallow url后再在管理员工具中申请删除;
网站上不存在的页面必须返回404状态码给搜索引擎,才能被搜索引擎删除。如果不能返回404,搜索引擎会长时间保留这些页面。有很多自定义404页面的网站都是返回200或其它代码,这是不正确的。
Monitor Your Web Site 24/7 - Receive email and SMS alerts anytime your web site goes down.
