论坛首页 海阔天空论坛

网站同一资源(网页),具有不同地址:平白给自己压力?

浏览 2603 次
精华帖 (0) :: 良好帖 (0) :: 灌水帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2007-12-07  
以下A和B指向实为同一个资源:

A: http://www.iteye.com/topic/39
B: http://www.iteye.com/t/39.html

A: http://www.iteye.com/article/9258
B: http://www.iteye.com/a/9258.html

。。。

虽然xxx.html为静态的页面,不会根据判断请求用户是否登录,但是
类似的,同一资源的uri地址还是应该考虑固定下来一个,不要提供多种形式,
否则搜索引擎将视为不同的资源进行抓取,无故给自己加大了好些压力。(翻倍啊)
   发表时间:2007-12-07  
静态化...?
0 请登录后投票
   发表时间:2007-12-07  
是静态页面吧,不过你是怎么发现这些.html链接的?
0 请登录后投票
   发表时间:2007-12-07  
Readonly 写道
是静态页面吧,不过你是怎么发现这些.html链接的?

“无意”中,
http://www.iteye.com/a/t1.html


补充:

网站如果要把某些做静态化,这是没问题的。但是可以考虑他们使用的是同一个url,
服务器根据topicid或cookie信息判断实际是请求静态的html,还是从database计算出来:
比如:topicid<xxx的,或cookie显示还没有登录的到静态的地方去请求?

爬虫对网站的压力不可谓不小,所以可以考虑改善改善


或者再次之:

为这样的页面:http://www.iteye.com/a/t1.html,加上noindex,nofollow的标志
同时也为http://www.iteye.com/t/7462.html,加上noindex,nofollow的标志
0 请登录后投票
   发表时间:2007-12-07  
补充2:

对这样的地址:http://www.iteye.com/post/426109
可以考虑,服务器判断post 426109对应的topic id xxx后
然后redirect给用户: http://www.iteye.com/topic/xxxx#426109
从而避免爬虫分别从http://www.iteye.com/topic/xxxx和http://www.iteye.com/post/426109
这2个入口爬同一个资源

这也能减少爬虫对网站的一些压力

-----------------
我即得Robbin曾说被爬虫烦死了,以上作为自己的看法提供参考
0 请登录后投票
   发表时间:2007-12-07  
早期考虑过动态页面静态化技术,所以做了一些静态页面。但是后来发现其实JavaEye的服务器完全支撑得起来几十万到上百万的访问量,所以静态化没有什么必要性,而且带来很多麻烦的问题,所以就弃之不用了。但是因为有些静态页面已经被搜索引擎索引,因此一直没有删除。等3.0上线以后,就清理掉吧。

静态页面由lighttpd直接处理掉,不会对服务器造成什么压力。就算垃圾爬虫,也不怕它爬静态页面,lighttpd支持上万的连接都没问题。
0 请登录后投票
   发表时间:2007-12-07  
robbin 写道

因为有些静态页面已经被搜索引擎索引,因此一直没有删除

3.0删除之后,也不担心从搜索引擎过来的链接不会404

发现是/a/xxx.html,/t/xxx.html的,直接回送redirect请求到 /article/xxx, /topic/xxxx

不过既然是早期的做法,可能这些也不多了,渐渐也就从搜索引擎中沉了
0 请登录后投票
   发表时间:2007-12-07  
几年前服务器POWER太弱, 所以都往STATIC PAGE方面优化.
现在CUP+RAM都UP了N倍, DYNAMIC PAGE可以应付了...
0 请登录后投票
论坛首页 海阔天空版

跳转论坛:
Global site tag (gtag.js) - Google Analytics