1、就是网址不规范引起的不同的url指向相同的内容,导致搜索引擎的重复抓取。
2、是对一些电子商务的网站来说的,比如现在很多的代售商和零售商都有自己的网站或者是网店,他们的产品信息一般都是转自于生产商的网站上,并且是原装的转载没有经过一点的修改,所以导致网站上出现很多的重复内容。
3、有很多的文字资源网站都提供打印页面的功能,如果不及时对打印页面的连接进行必要的禁止抓取,那么也会产生重复的页面。
4、现在很多的资讯类网站到部分在发表新闻时都是使用rss或者是采集软件来多自新闻源,但是这些信息已经经过多次的转载,会于其他网站上的那内容存在重复。
5、还有一些噩荜务圃网站使用sessionID来跟踪用户的浏览行为,但是这周给方法也会跟做搜索引擎的蜘蛛,每当搜索引擎的蜘蛛不同时间访问同一个页面时会在url中产生不同的sessionID的参数,使搜索引擎认为是不同的url导致重复的抓取。
6、还有一点需要重点注意的是,如果网页上的正文内容太少,由于网页上还有,导航栏,底部信息,广告,更新板块等这些重复的内容的存在,搜索引擎也会认为这是一个重复的页面。
7、转载和抄袭就不用多说了,很多网站出现过的内容搜索引擎是不会喜欢的。
8、还有就是一些分类信息的网站,他们一般都是以城市来划分网站分类,但是由于每一个分类中产品和所提供的服务相似度非常的大,导致搜索引擎认为这是重复的页面,而不建立相应的索引。
9、 最后一条是,服务器技术上的问题,就是不管url如何的修改,他都会返回200正常访问时才产生的状态码,然后就显示相同的内容。