`
andyliuxs
  • 浏览: 136475 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

一篇改了81次的最佳学生论文--高斌(转)

阅读更多

一篇改了81次的最佳学生论文   

      今年(注:2008年)7月在新加坡举行的第31届国际信息检索大会(SIGIR)上,微软亚洲研究院的一篇论文《BrowseRank: Letting Web Users Vote for Page Importance》获得了最佳学生论文奖(Best Student Paper Award)。这个奖项是在大会晚宴上颁发的,而晚宴是在新加坡著名的旅游景点圣淘沙小岛的海滩上露天举行的。
     国际信息检索大会(SIGIR)是国际互联网搜索和信息检索领域的顶级会议,在每年500多篇的投稿中,学术长论文(full paper)的接收率一般在百分之十几左右。在今年的85篇长文中,有8篇来自微软亚洲研究院。我所在的Ranking Team,是研究院里专门负责排序相关问题研究的团队,SIGIR一直以来就是我们非常关注并且积极参与的会议,每年都会精选最好的论文投稿。在本次大会上我们团队一共有4篇论文入选,其中BrowseRank获奖。每篇论文的背后都少不了夜以继日的实验和反反复复的修改,其中有的论文还有着一些曲折有趣的故事,这次获奖的BrowseRank就是一例。

千锤百炼出深山
     论文最初的想法来自我们关于网页重要性计算方法的一次讨论。谈到这个问题,在互联网搜索领域里的人大都会想起PageRank算法,但是这个算法经常会被做网页排名欺诈(spam)的人利用,他们建立大量的链接场(link farm)网站并链接到需要提升重要性排名的网页上,通过欺骗搜索引擎来获得较高的排名。经过大家的激烈讨论,我们发现问题出在看待网页重要性的立场上了。PageRank算法运行在网络链接图(link graph)上,这张图基本上是由各个网站的建造者建立的,里面的链接所反应的重要性也是源自这些网站建造者,如果他们当中有人想做欺诈排名简直易如反掌。然而,互联网毕竟还是要服务于广大网络用户的,如果我们站在用户的立场上来看待网页的重要性,或许会更加合理。于是,一个崭新的想法逐渐浮现在我们眼前:利用大量用户访问网页的信息来估计网页的重要性,一个网页访问的用户数量越大,并且用户在这个网页上停留的时间越长,这个网页的重要性就越高。换句话说,就是让广大的互联网用户在无形中来“投票”决定网页的重要性,我们称之为BrowseRank算法。通过反复论证,我们发现随机过程中的连续时间马氏链(continuous-time Markov chain)理论可以很好地对这个问题进行建模。作为我们团队的一个传统,对于每项研究工作,从选题、建模到实验,我们都会进行多次内部评审,大家找问题挑毛病(俗称拍砖),更重要的是提出建设性意见,目的是让更多的问题暴露在文章投稿之前,并且把这些问题及时有效地解决。在一次评审讨论会上,有人指出用户在网页上停留的时间很难精确估计,因为网速的差别、用户习惯、以及是否突发事件的打扰都会影响用户的停留时间。为此,我们重新调查审视这个问题,通过查阅大量资料文献和小规模模拟实验终于找到了大家都能认可的一个去噪声方案,从而避免这些因素对算法有效性的影响。我们感觉到大家的这种严格筛选在很多时候比会议的审稿人来的更严格和全面,也使得我们的论文在投稿之前已经经过了千锤百炼。在建立了基本模型以后,我们又对这个算法的理论基础进行了深入地探讨。后来,经过实习生刘玉婷的努力,我们最终证明这个模型在理论上是合理可行的。接下来的任务就是要做大规模模拟实验,实验数据来自产品部门。这里还有一个小插曲,由于数据量十分庞大,网络传送不方便,需要用多块大容量移动硬盘来运送。我们请一个出差的同事顺便带回,没想到这位同事早就在行李箱里装好了给他的宝宝买的大量婴儿用品,再加上这些大砖块一样的硬盘,行李严重超重。到了机场,航空公司要加收行李费用,但当他们打开行李检查的时候,发现这么多婴儿用品,竟然善心大发,说:”Wow! You are a good father. Then, we will not charge you. Good luck!” 后来我们开玩笑说,以后行李超重了,就再往里塞点奶粉、纸尿布之类的东西,说不定人家发了善心就不收超重费了。几个月的实验下来,结果表明BrowseRank算法能够计算出比PageRank更好的网页重要性排名,并且能够有效地抵制网页排名欺诈行为。有了好的实验结果,接下来就是论文的写作。在一个多月的时间里,从初稿到最终稿,我们一共写了82个版本。一共有四人参与写作,平均每人改了20版。经理李航、研究主管刘铁岩虽然很忙,但是他们对于文章的投入丝毫不减,大到文章的框架结构,经过多次重构,显得更加清晰合理;小到字词文法,反复推敲,力图使文章优美易读,避免晦涩。一字一句都凝结着大家辛勤的汗水。一位同事开玩笑说,唐僧师徒四人取经历经九九八十一难,终成正果,而这篇论文从第一版写出来以后恰好改了81次成最终稿,也刚好是四个人写,那你们四个谁是唐僧谁是八戒啊?这个……
崭露头脚亮海滩
     新加坡的圣淘沙岛上有一处景色怡人的海滩,据说是整个狮城最好的海滩之一,所有的沙子都是从马来西亚运来的。SIGIR的晚宴就在这个海滩上举行,天色渐晚,品尝了新加坡特有烹饪方式制作的海鲜美食和当地自酿的啤酒,不胜酒力的我感觉有点头晕。这时,大会chairman宣布最佳学生论文奖。当听到是我们的论文获此殊荣的那一刻确实感到十分意外,大家顿时激动得击掌相庆。这个意外的惊喜也冲走了些许醉意。当然,不免俗套地,我也要说,那时候,感觉到,圣淘沙海滩的夜晚,很美,月亮,很圆。美的回味毕竟短暂,接下来就是有些紧张和担心。刘玉婷第二天就要在大会上演讲我们的论文,这回拿了奖,听众一定少不了,而且很有可能会被问到一些比较尖锐的问题。对于第一次在国际会议上做英文演讲的刘玉婷,压力之大可想而知,我们也担心她因为太紧张而出差错。但是,我们毕竟是有备而来。在来开会之前,我们已经对精心制作的演讲幻灯片多次修改,而刘玉婷经过数次模拟练习也早已能够熟练地演讲。来到新加坡以后,我们又把演讲内容做了一些调整,避免大量枯燥的数学推导,使其易于理解,力求把我们的观点简洁而清晰地展现给听众。第二天,刘玉婷做了一个非常完美的报告,听众的问题也被大家一一化解。会后,我们得到了与会者很好的反馈,他们普遍对我们的工作给予认可和较高的评价。此外,这篇论文还在互联网搜索工业界引起广泛的关注和讨论,美国知名IT技术网站CNET也对这篇论文进行了报道并被广泛转载。近年来,微软亚洲研究院在国际顶级学术会议上发表的文章频频获奖,这说明研究院学术水平不断地更攀高枝,也更加被学术届认可和重视。其实,获奖论文的诞生过程并没有什么独到之处,BrowseRank论文只是一个研究院众多论文的一个代表,并且比较幸运地获了奖。在微软亚洲研究院,每篇论文的背后都有着很多的精妙构想和缜密论证,都离不开研究员和实习生们辛勤的工作,更离不开团队的密切合作。正是这些努力,这些背后的故事,使MSRA“世界上最火的研究院”的称号实至名归。
本文来自:http://blog.sina.com.cn/s/blog_4caedc7a0100b1ay.html

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics