解决搜索引擎收录异常的有效方法

解决搜索引擎收录异常的有效方法

解决搜索引擎收录异常的有效方法

 

一个网站出现搜索引擎收录异常的大部分原因都是蜘蛛抓取出现问题了,反映出来的现象就是快照更新不及时、网页不收录或者收录慢、关键词排名丢失、收录数量减少等,基本上每个网站都出现过此类的问题,甚至一些大型门户网站。一些站长遇到此类问题往往不知所措,或者就是凭猜测或者感觉去解决此类问题,坚持每天更新原创文章、每天添加高质量外链等,运气好的话搜索引擎收录恢复正常,运气不好的话不但问题没有解决反而更加严重,其实是有解决搜索引擎收录异常这样问题的好方法的,只是大家一直以为seo就是那回事儿,外链、内链、原创文章等,不愿意去研究到底为何会出现这样的问题。

武龙杰认为出现搜索引擎收录异常的原因都在于搜索引擎本身(排除中毒原因),我们可以将出现搜索引擎收录异常分为2种情况,一种是网站作弊,另一种是网站没有作弊,如果搜索引擎判定某一个网站作弊的话,会将这类网站贵为作弊网站一类,凡是属于此类的网站根据作弊程度不同给予不同的处理,就是前文提到的快照更新不及时、网页不收录或者收录慢、关键词排名丢失、收录数量减少等等,如果是由于作弊出现收录异常的话,网站管理员是很清楚原因的。而现在主要的问题是网站本身没有作弊却出现了和作弊一样的现象,这类问题更让一部分站长头疼,当然这也可以分为2种情况,一种是搜索引擎服务器更新时出错,另一种就是搜索引擎蜘蛛抓取错误,由于搜索引擎每天要抓取上亿个网页,不可避免会出现错误,第一种情况一般不会出现,但是国内最大的搜索引擎百度却也时常出现此类问题,对于搜索引擎服务器更新时出错,我们只能耐心等待恢复正常,而对于搜索引擎蜘蛛抓取错误则需要我们自己通过语法和规则控制搜索引擎蜘蛛爬行来解决此类问题。

根据武龙杰前文的分析,如果一个网站出现收录异常的话,我们必须首先认真分析其原因 ,是作弊了还是搜索引擎服务器更新出错,又或者是蜘蛛抓取出错了。前2个问题的话都很容易解决,作弊的网站以后不要作弊就行了,搜索引擎服务器更新时出错只需我们耐心等待,武龙杰今天要详细为大家讲解的就是如何解决搜索引擎蜘蛛抓取错误。

一.分析收录结果

使用site命令查询,认真分析搜索引擎的收录结果,如果是小网站收录页面在1000以内的话,认真查看搜索引擎收录的每一条记录,如果搜索结果有成千上万条记录,你可以通过seo工具查询最近一天内、最近一周、最近一个收录的记录,从这些收录的结果中找到异常。比如:收录结果中存在很多不同的url地址显示的是相同的网站内容等等,如果你使用zblog系统并且你的模板存在日历的话,就像武龙杰博客使用的模板,

二.分析日志

通过使用工具或者直接使用编辑器分析网站日志,查看搜索引擎抓取过的url是否存在异常,如抓取了大量的不应该被抓取的url,某网站使用伪静态处理url,但是搜索引擎依然抓取了很多动态url,这样就会浪费搜索引擎分配给你网站的资源。

例一:

 

接,url是这样的:

http://www.wulongjie.com/catalog.asp?date=2011-9-12

标题是:2011 September-武龙杰seo博客1

如果某天没有更新的话,尽管日历中对应的这天没有生成超链接,如2011年9月13日这天武龙杰博客没有更新,但是访问http://www.wulongjie.com/catalog.asp?date=2011-9-13这样的url是可以正常打开的,并不是出现404错误,并且标题同样是‘2011 September-武龙杰seo博客1‘,显示如图所示的内容:

日历不存在

也就是说所有使用zblog系统的博客都存在类似于这样的url,并且每个月都会有30个相同标题的页面,如果一个月有7天或者更多天没有更新,就会存在7个或者更多内容完全一样的页面,虽然每月的数量不是很多,但是1年、2年。。。以后的话,就会有很多可以访问并且显示相同内容的页面,当然一般情况下搜索引擎是不会抓取没有超链接指向该url的页面的,但是往往很多时候搜索引擎可以根据自身判定的规律批量抓取相似的url,一旦出现这种情况,你的网站就可能会出现收录问题,武龙杰就有几个使用zblog系统的网站由于这样的问题引起搜索引擎收录异常。

例二:当我们使用wordpress做门户网站时,可能会出现这样的问题,搜索引擎批量抓取首页分页url,如下图:

sem55-zhizhu

类似于这样的url www.xxx.com/page/id,门户首页不同于博客首页,门户首页模板是肯定没有分页模块的,但是同样访问这样的url不是出现404错误,而是显示和首页一样的内容,如下图:
 
sem55shoufenye

设想一下,如果你的网站被搜索引擎收录了大量的类似于这样的url,后面的分页id是无限的,搜索引擎耗费的大量的资源用于抓取这样的url,你的网站必然会出现收录问题,可能会出现应该被收录的正文页面不被收录,而收录了很多无用的url。我们来看这个网站的日志就可以发现,搜索引擎每天都会抓取这样的url

 

rizh

 

原因已经找出来了,那么如何解决这2个例子中出现的问题呢,其实很简单,只需在网站的robots文件中禁止所有搜索引擎收录这2种url就可以了,

Disallow: /blog/catalog.asp?date=*

Disallow: /page/

通过以上2个案例的分析讲解,大家应该已经明白了武龙杰写这篇文章的目的了,其实在我们做seo过程中遇到各种各样的问题是不可避免的,关键在于当我们遇到问题时应该如何去解决问题。其实使用zblog、wordpress程序做网站时有很多其他原因也会引起收录异常,同样也不仅仅zblog、wordpress程序会出现这样的问题,dedecms、dz、pw程序都有可能由于某些原因引起收录问题,并且大型网站由于收录页面众多,一旦出现这样的问题,很不容易被发现,这个时候就要看我们自己的耐心和认真程度了。

除非注明,文章均为杰成sem竞价托管团队原创,转载请注明本文地址: http://www.jckeji.com/shouluyichang.html

Related Posts

联系我们

地址:河南省郑州市金水区花园路国基路居易国际广场2号楼840 电话:400-6267-550 0371-53690696 qq:1878303545 点击这里给我发消息

Back to Top