不存在的页面为什么会Google被收录

在Google等搜索引擎中经常发现它收录了网站上不存在的url链接,在管理员工具中申请删除时总是失败。

这些失效的URL都是由于文章标题改变使得其URL也改变从而导致原先已经被Google收录的文章URL失效了,这时点击原来的链接就会重定向到网站的404页面。

那么为什么在管理员工具中不能删除已经失效的链接呢?

原来是因为404页面返回的状态不对(http返回状态码可以傅Firebug/网络组件查看),正确做法应该是返回404状态码,并输出一个超过512字节的HTML代码文件(”超过512字节”的原因是IE浏览器会忽略不到512字节的错误页面,并且显示”找不到该页”的默认消息)。

如果是php则可以在404.php文件中添加如下代码:

header('Status: 404 Not Found');

备注
如果只是需要暂时删除一个URL,还可以在robots.txt中添加Disallow url后再在管理员工具中申请删除;

网站上不存在的页面必须返回404状态码给搜索引擎,才能被搜索引擎删除。如果不能返回404,搜索引擎会长时间保留这些页面。有很多自定义404页面的网站都是返回200或其它代码,这是不正确的。

Monitor Your Web Site 24/7 - Receive email and SMS alerts anytime your web site goes down.

Related Posts

Leave a Reply

Monitor Your Web Site 24/7 - Receive email and SMS alerts anytime your web site goes down.

About Me

About Me
Record Technical Articles at Gooss.org.

Entries (RSS) and Comments (RSS). Valid XHTML and CSS and XFN.

© Copyright 2009 山海经. All rights reserved.

Social Bookmarks

Copyright © Designed by: Free WP Templates
Food Charts |  About Breast Milk |  Organic Food