写下这个题目,记者还怕有欠妥之处,仔细回想连日来的调查采访,那些给记者设置迷障的网站,向记者提供帮助的朋友,还有记者自己,都对Alexa投入了极大热情,从某种意义上说,我们也是在共同“出卖Alexa”。
现在,“Alexa”是国内网站的站长们嘴边最常挂着的单词。Alexa是什么?它凭什么令国内网站侧目?它有哪些鲜为人知的秘密?本报记者通过深入调查和采访,努力为读者还原一个真实的Alexa,其中很多信息是首次在媒体上披露。另外,关于Alexa更详尽的报道将在www.ccw.com.cn网站上刊登。
北京某周刊近日发布了一份“中国商业网站100强”排行榜,其中对某些网站做介绍时,又引用了另一个排名数据来说明这些网站的价值,这就是所谓“世界著名的第三方测评机构——美国Alexa”的全球网站排名。以另一个“权威”来树立自己的“权威”, 似乎说明这另一个“权威”更被大家认可。
Alexa是谁?
1996年4月,Alexa在美国创立,那时它只是一个小网站,主要做分类导航。Alexa的自有技术主要是对访问特定Web站点的流量进行统计分析。1997年7月,Alexa发布了一款软件,就是著名的Alexa Toolbar(Alexa工具条),这个工具条嵌入式安装在IE浏览器中,用户可在工具条上看到其浏览的网站在全球所有网站中的排名。
2002年春,Alexa开始与Google合作,后者的网页数据库极大地丰富了Alexa自身的URL网址数据库。同时,Alexa也偷偷放出自己的爬行程序,在互联网上搜寻未知的网址。经过多年积累,Alexa的URL网址库已存储了400亿网址信息,早已超过Google,成为互联网上最全的网址信息数据库。现在,Alexa数据库的日平均增量高达1TB,每两个月能对数据库进行一次全面更新。
现在,Alexa的业务模式就是根据遍及全球电脑用户桌面的工具条返回的信息,对全球网民的浏览习惯进行监测,并开发和销售各种相关产品。其中,有全球前10万名的网站排行榜,有针对某些特定行业网站的排行分析,有针对个别网站定制的网站流量监测报告。Alexa还提供了很多免费的基本信息,比如“全球网站500强”、“简体中文网站100强”等等,网民们可以在Alexa上单独查看关于某个网站的排名历史变化图,甚至还能同时对最多5个网站的流量及排名等数据进行直观的横向对比。
尽管Alexa在其网站上提供了非常多有价值的信息,但其真正赖以成名的还是那个被四处引用并被媒体多次炒作过且引发了巨大争议的全球网站排名。按照Alexa网站上的“官方声明”,Alexa公开的那份全球网站总排名是通过收集所有Alexa工具条返回的信息,经过计算得出的综合排名。不难看出,影响Alexa排名的因素是两个,一是Alexa采集的信息,二是Alexa对这些信息进行深加工的计算方法。
在Alexa网站上,人们可以针对某个特定网址去查询其所属的网站的访问人数,Alexa提供了一个叫做Reach per million users(每百万用户访问人次,简称Reach)的数据来表示访问人数,这个数据指的是每100万个Alexa工具条用户中每天访问某一网站的平均人数。
仅有访问人数,还不足以反映一个网站被网民浏览的情况,Alexa还提供了另一个数据来反映到访的网民对特定网站的使用率,这就是PageViews per user(每用户浏览页面数,简称PV)。某网站的PV值是每天所有访问该网站的Alexa工具条用户在该网站上浏览的总页面数的平均值,而同一人对相同页面的重复浏览在每天只计一次。
有了Reach和PV这两个数据,Alexa就可以给全球网站按综合流量进行排名了,它把网站的这个排名称做Traffic Rank(流量排名,简称Rank)。据Alexa在其网站上的解释,决定这个Rank的就是Reach和PV的几何平均数,也就是两者乘积的平方根。显然,一个网站的Reach和PV值越高,其排名就越靠前。
利用与怀疑
由于全球所有的网站都在Alexa的监测范围内,这个每日更新的排行榜未免显得过于直观,加之又是公开的随时可查的数据,就使得Alexa排名在很多场合都成为敏感的话题。
自2003年以来,国内互联网行业开始全面升温,但网站要吸引投资,必须用一些明确的数据来表明自身的价值。就在这时,Alexa排名被介绍到了国内,虽然这个网站以前从未引起大家的注意,但是它提供的这个排行榜却很快显示出巨大的商业价值。
一些网站在向投资人递交商业计划书的同时,开始有意无意地提一下自己的Alexa排名。在投资人看来,排在全球300名的网站显然比排在全球1000名以外的网站更有价值。在“圈内人”的口口相传中,Alexa排名在国内互联网业界名声大噪。很快,大批的网站都开始关注Alexa的排名规则,网上也开始流传各种针对Alexa的作弊工具,甚至有人将针对Alexa的作弊发展成赢利的工具。
2003年年底,针对这股Alexa热,一些业内人士又开始质疑Alexa排名的可信度,并揭发了很多网站作弊的“内幕”。事实上,有相当多网民都对Alexa的排名表示过怀疑,因为在2003年的大部分时间里,Alexa排名上的全球第三和第四的网站是两个韩国网站,Alexa对此的解释是,韩国的互联网用户中安装Alexa工具条的比例较高,因此Alexa在韩国网民中得到的采样数据比较高,这就导致韩国的两家门户网站进入了全球前五名。Alexa的解释似乎越描越黑,因为Alexa工具条始终只有英文版,既没有中文版,更没有韩文版,如果要说工具条的普及率高,欧美国家应该首当其冲。有网友据此认为,韩国网站是靠作弊提升了网站排名。Alexa排名的权威性开始受到越来越多的质疑。
其实,无论追捧或棒杀,业界对Alexa的关注一点儿都没减少。进入2004年以来,照样有很多网站的站长们在绞尽脑汁地想把自己网站的Alexa排名“做上去”,而以前揭露过Alexa的炮手们也同样继续怀揣着各种目的炮轰Alexa。
今年“十一”长假过后,国内网站在Alexa上的排名突然经历了一次大规模集体滑坡。各种谣言开始在网民中流传,一种比较流行的说法是,Alexa终于开始调整算法来反击越来越多的中国作弊网站。人们把这看做是Alexa的“正当防卫”,毕竟,一个以排行榜为最大卖点的网站赖以生存的就是它的排名的公正性。
各种传言都无法解决看客们对Alexa可信度的疑惑,因为国内主流媒体从未针对Alexa的技术进行过深入的分析和报道。在下面的介绍中,读者可以看到,或许韩国网站排名过高另有原因,而所谓的Alexa作弊手段也不只是此前一些媒体报道的多次刷新那么简单,而且,Alexa也有自己非常高明的防作弊手段。不过,本文中所提及的作弊手段与网上随处可见的“作弊宝典”有本质的不同,所以,Alexa在多大程度上能抵御这种不常见的作弊方式也就很难说了。
Alexa的DNA
要想彻底搞清楚Alexa排名是否可信,必须从技术上对Alexa的全球网站流量监测进行全面的解剖。当然,Alexa从来没有公布自己的技术细节,记者决定“以彼之道,还施彼身”,既然Alexa声称其数据来源就是那个工具条,记者决定首先从破解工具条入手。
受记者委托,圈内著名的Web技术专家小林,用了近一个晚上的时间,对Alexa工具条及其向Alexa返回的数据进行了细致的分析,得出了很多宝贵的第一手资料。多年前对Alexa就做过研究的小林认为,最近的这次分析揭示了一些Alexa更隐秘的技术细节。
小林告诉记者,现在最新版本的Alexa工具条的运作机理与以往没有太大的改变。每当用户以装有Alexa工具条的IE浏览器打开新页面时,Alexa的一台服务器(data.alexa.com)都会收到加密的数据包,这个数据包中的核心信息就是十几个参数,这些参数包括当前网页地址、页面打开时间、用户端显示分辨率、Alexa工具条版本号、该用户是否为“亚马逊”的用户等。其中有一个重要的隐含参数,经小林分析,认为是Alexa为每个已安装的工具条自动生成的ID号码,这个号码应该是全球惟一的。Alexa可以通过这个ID对每个反馈数据包的发出者进行惟一标识,这是解决PV重复计算问题和防止同一用户多次刷新作弊的一个重要手段。
小林告诉记者,从目前研究的结果来看,任何一个汇编高手都可以很容易地掌握Alexa工具条返回的数据包中的秘密,如果这个人同时也是一个网络编程高手,那么要针对Alexa作弊就比较容易了。从记者后来对一位上海的Alexa作弊高手的采访来看,小林的分析完全正确。该作弊者正是一位资深的Web开发工程师,其采用的手段与小林的分析也基本吻合——编写一个Alexa工具条返回码生成器,批量产生Alexa能够辨识的代码串,然后用虚拟多用户的方式发回data.alexa.com,这样就可以欺骗Alexa的服务器,让它误以为这些数据是不同用户发来的。
小林认为,这种以编程方式模拟多用户访问的作弊方式的实现,最重要的环节就在于对那个Alexa用来惟一标识用户身份的ID号的生成算法的破解,这需要对足够多的Alexa工具条进行嗅探,抓取其数据包进行定量的算法分析。但小林同时也指出,这些工作对于一个编程高手来说,确实不算什么,只是最终作弊的实现仍需要模拟一个足够快的ID号生成程序,这可能会比较困难。不过据小林估计,国内能做这些事情的人不在少数,只是互联网这个圈子里的高手们很少去做罢了。
从以上的技术分析来看,Alexa的服务器每天所做的工作就是不断接收全球用户传回的数据包,提取其中的那十几个参数并写入专门的数据库,然后在某个特定时间对当天收集到的这些数据进行分析计算,并以新的计算结果去更新当日的网站排名。据记者观察,这个数据库的分析结果至少会保存3年之久,因为在Alexa网站上对每个网站的Rank排名变化趋势图最多能提供3年来的数据变化。
在破解了工具条的DNA之后,记者还与一些朋友探讨了Alexa工具条在全球的分布情况。按照Alexa的说法,工具条是它惟一的信息获取来源,那么工具条在全球用户中的分布也就成了另一个可以影响Alexa排名的重要因素。如果工具条真的是Alexa数据的惟一来源,可以想像,当中国网民都没有安装Alexa工具条的时候,新浪、搜狐这样的门户网站恐怕在Alexa排名中都见不到影子,可是从今年下半年以来,新浪和搜狐就已经紧随Google排在全球第四和第五的位置了。这似乎说明了Alexa工具条已经在中国具备了较高的普及率,否则,新浪、搜狐以及紧随其后的占领了Alexa全球500强中近1/3份额的中国网站就都有作弊的嫌疑。
幸好,一家叫tong123.com的网站向记者提供了还算令人欣慰的数据。tong123.com对2000多家国内各类网站进行页面内嵌方式的第三方流量统计,并可跟踪Alexa工具条的使用情况,其跟踪的网站中不乏一些大的行业站点和著名的个人网站,因而提供的数据有较高的可信度。在本文发稿前一周的时间段里,tong123的系统监测到的访问这2000家网站的所有用户中,Alexa工具条的安装率在1.5%左右。按这个比例,若国内互联网用户以总数9000万计算,则其中安装了Alexa工具条的用户应已超过百万。而按照Alexa声称的1000万左右的工具条全球下载总量来看,中国网民对Alexa的热衷似乎显得更为突出,这或许也能作为国内网站今年在Alexa排行榜中整体实力增强的一种解释。
既然工具条的分布会从很大程度上影响Alexa的监测结果,那么Alexa的排行榜就可能出现很大的地域相关性。如果确实如此,Alexa的权威性就真值得怀疑了。事情远没有这么简单,在Alexa网站上,记者看到全球网站前10万名排行榜的报价是499美元,显然,在大洋彼岸,还是有人认可Alexa的排名数据,甚至会花钱去买那个排行数据。
莫须有的技术隐私
在Alexa各种公开的资料或是网友对它的讨论中,都没有人明确提出过Alexa除工具条以外是否还有其他能够获取公网流量的监测手段。而长期为多个著名网站提供技术支持的小林,通过对这些网站的日志分析,认为Alexa还有很多技术隐私。由于无法得到Alexa的官方回应,我们只好说这些可能被采用的技术手段是“莫须有”的,而记者之所以要提出这些技术上的可能性,完全是为了使我们对Alexa的“出卖”更加彻底!
为了进一步探寻Alexa的隐私,我们还要先看看Web浏览的过程。当用户打开IE浏览器,在地址栏中输入一串网址并回车后,一些包含了http请求的数据包就被发送出去。与其他流量一样,这些数据包也要经过用户所在内网的网关,被路由到公网,经过一个个电信机房,最终传送到某个提供DNS解析的服务器上,在获得目的网址的IP地址后再被放到一个可以最终路由到目的IP的路径上传送过去。从http请求的发送过程来看,如果Alexa对全球所有的DNS解析服务器进行嗅探,将有可能得到一份非常接近事实的全球http请求数据,由此就可以非常清晰地勾勒出哪些网站被哪些用户所关注。
不过,要嗅探全球的http请求,对Alexa来说几乎是天方夜谭。退一万步,即使Alexa能抓取到这些数据,它也不可能有以这些数据为基础进行计算的能力。但是,Alexa排名所显示出的一些“抖动”迹象似乎在告诉人们,除工具条之外,Alexa确实有使用其他技术手段的嫌疑。
2004年夏天,小林发现中国香港的网站排名出现异常的提升,像“太阳报”这样的小网站,居然能超过很多内地大网站的排名。由于电信网关和简繁体系统的原因,内地与香港网民一般是不做“跨地区互访”的,而香港网民安装Alexa工具条的绝对数也不会比内地用户高。从前文的分析和计算来看,内地网民中Alexa工具条的安装量恐怕比全香港网民的数量都不低。这样的情况下,香港网站在Alexa排名的普遍大幅度提升就显得毫无根据。
经过两个月的高排名期后,香港网站的排名开始逐渐回落,但至今仍有部分网站的排名高出其实际应处的名次。小林认为,这个现象与韩国网站在2003年出现的情况有很大相似性,而韩国的很多网站目前仍有偏高的排名。这种现象如果用Alexa工具条的普及率来解释是不合情理的,但如果用Alexa增加了其他采样机的说法来解释,就很容易说得通。
据小林推断,Alexa可能在全球不同地方设置了一些采样机,通过与一些电信机构进行或明或暗的合作,甚至在临近电信网关的节点进行网络嗅探,得到一些“弥补性”的采样数据。而寻求这些采样数据的目的恰恰是为了照顾Alexa所认为的“工具条低安装率”地区的抽样效果。打个比方,如果Alexa认为韩国互联网已经非常普及,而韩国用户却一直没有安装Alexa工具条的习惯,它就可能会设法用各种办法在韩国安插一些采样机,以弥补在韩国用工具条采样的不足,同样的情况,也可能导致香港在刚刚设置采样机时网站排名的猛增。而经过一段时间的考察,Alexa也可能逐步调整在每个地区的采样数量,以得到它所认为的最合理的结果。
甚至小林还认为,今年内地网站排名的大规模提升也有采样机在作怪,而国庆后内地网站排名的普遍下降,也许就是因为Alexa在经过一年的考察后,重新调整了在中国内地采样比重的结果。
当然,Alexa要维护其排名的权威性和公正性,不仅要完善流量数据的采样过程,更要在防止作弊方面做出巨大努力,那些防作弊的技术也都是Alexa的不宣之秘。那么Alexa到底是用什么办法来防止作弊呢?事实上,对于前文中记者提到的以编程模拟Alexa工具条返回数据包的作弊方式,Alexa几乎没什么好办法去防范,甚至要探测到这样的作弊手段都比较难。
其实,对于现在网上常见的作弊手段,Alexa都已经有了足够的免疫力。一般来说,由于现在多数搜索引擎都无法处理JS脚本,所以针对搜索引擎的作弊往往都是用JS脚本编写恶意代码来实现,而Alexa和Google采用的爬行程序则是目前仅有的可识别JS脚本的此类程序。
小林在对几个大型网站的流量监测中发现,Alexa启用了一个叫做IA_Archiver的机器人程序,当某个网站的流量超过Alexa设定的阈值时,IA_Archiver就会爬到该网站的服务器上,分析此网站的流量是否正常,有没有作弊行为。据小林介绍,现在业内对IA_Archiver的认知不足,Alexa只是在它网站的帮助页面上提到过这个IA_Archiver机器人,但国内还很少有人知道这个机器人程序的存在,有关的技术研究就更少了。
信任Alexa?
针对Alexa排名的可信度,不同的人有不同的看法,而从事Web技术研究与应用的业内人士多倾向于这样一个说法:Alexa排名不一定是绝对准确的,但却是相对可信的。下面举出的一些例子,从不同方面对Alexa排名的可信度进行了对比。
Alexa排名是针对URL地址的,并没有考虑IP地址的因素,这在很大程度上降低了Alexa排名计算的难度,但是也不可避免地产生了偏差。一般而言,Alexa只对二级域名感兴趣,而针对三级域名的流量都被纳入了上一级域名的统计,对于比较规范的大型网站而言,这是完全正确的策略,但是对于一个向不同用户分发了三级域名的网站来说,它的流量统计是否应该将所有的子用户的流量加起来呢?这显然要因情况而异,一个很明显的此类不合理统计的例子就是cninfo.net,相信国内老网民都还记得这个域名后缀,这是全国各省市公众信息港通用的二级域名,比如sh.cninfo.net和gd.cninfo.net,分别是上海和广东的两个网站,而Alexa则将其统一算做www.cninfo.net的子域。于是,www.cninfo.net就成了简体中文网站排名第40多位的网站,尽管它其实根本就不是一个可以访问的网站。
对于Alexa排名可信度的另一种质疑来自不同类型网站的流量特征的巨大差异性。比如,门户网站与专业网站或专业论坛的流量就几乎没有可比性,因为不同类型的用户在不同时间、不同场合访问不同类型的网站时,其浏览习惯会有极大的差异。
即使两个网站按照Alexa算法得出的综合流量评估值完全相同,那也不能把两个网站的影响力划等号。比如,一个Reach值为1000、PV值为1的网站与一个Reach值为100、PV值为10的网站的Rank应该是相同的,但大部分情况下,后者的内容会比前者更有价值。因为浏览前一个网站的用户都是只看了一个页面就走掉了,说明该网站可能没什么吸引力;而后一个网站的用户平均要看十个页面才会离开,这些用户都很认可该网站的内容。当然,更极端的情况也会出现,比如前者只有一个页面,但该页面内容非常丰富,而后者的每个页面内容都很少,或是给用户设置了很多不必要的跳转,甚至后者也可能就是一个小说连载站。
这些复杂情况的存在让人很难相信Alexa可以只用Reach和PV这两个值就把所有互联网上的站点划分出三六九等。不过,如果我们换一个角度来看Alexa,就会发现它的存在也是有理由的,甚至可能是非常值得网民信赖的。
如果我们只把Alexa当做一个流量分析服务工具,它就值得引起我们注意了。Alexa网站上提供了非常直观的流量变化趋势统计图功能,这在其他很多情况下是要付费才能获得的服务,而Alexa只是将其作为免费的公众服务。
图1是Alexa上提供的计世网(ccw.com.cn)一年来的流量排名(Rank)走势图,从图上可以清晰地看出,该网站2003年11月3日~2004年11月3日的排名从7500名左右上升到2000名以内,而其中三次非常突然的下降曲线所对应的日期分别是春节、五一、十一这三次长假。而计世网的用户主要集中在IT行业中,这三次长假导致的下降曲线非常忠实地记录下当时的网民浏览情况——因为放假,大多数用户去旅游或在家休息,上网用户大大减少,所以流量降低,网站的排名也随之降低。而长假过后,IT人回到单位,头一天上班总会想到去计世网看业界的最新资讯,所以,长假之后,ccw.com.cn的流量反而都比放假前有不同程度的提升,反映在Rank曲线上,就是三个大的波谷之后曲线高度的恢复与持续攀升。
事实上,如果能够详细分析网站流量变化的趋势,人们也可以分辨出那些作弊的网站,因为作弊网站流量的变化往往是非正常的,其与正常网站的流量变化曲线肯定有不同之处。图2和图3分别是265.com和dsdiy.com半年来的流量排名趋势变化图。265.com是国内著名的网址导航站,最近半年的全球排名一直稳定在70~120名以内。反观dsdiy.com的Rank变化曲线就颇值得怀疑,9月的第一周,该网站的排名就从全球10万名之外一跃至200名左右,其后的一个月内,该网站的排名一直在100~400名之间徘徊,而就在国庆长假的第一天,该网站的排名竟然蹿升至30名左右,到了10月的第二周,该网站的排名又迅速回落至10万名开外,在Rank曲线图上再也看不到了。
作为Web访问情况的监测工具,Alexa在记录了网站的真实访问量的同时,也同样记录了那些作弊网站的流量变化情况。从这个意义上说,Alexa显然也是可信的,关键是我们选择的视角必须能恰到好处地发挥Alexa的作用。
无论出于什么样的目的,人们出卖Alexa总是希望能从中得到利益,对Alexa的研究越深入,对Alexa的价值理解得越深刻,就越能从中获益。
点对点访谈:Alexa排名高手
通过MSN Messager,本报记者(cciewang@msn.com)在线采访了国内一位顶尖的Alexa网站排名高手(alexa_improve@hotmail.com),经对方同意,特刊出双方在网上的对话实录(A=alexa_improve@hotmail.com)。
记者:听说你能做Alexa排名?可以做到100名左右?
A:当然,更高也可以。
记者:你们是几个人做?你知道的同行有几家?
A:我主要是自己做,但有几个朋友帮忙。同行嘛,像我这样的还知道另外一家。
记者:你能做到的最好成绩是多少名?
A:我可以把一个没流量的网站维持在大概50名左右,这是极限,不过没人出那么高的价来雇我,我是根据排名高低来收费的。
记者:据我所知,Alexa排名的两个基本参数,也就是Reach和PV,都是可以作弊的,你是怎么弄的?
A:写程序。
记者:破解Alexa工具条?
A:对,我们是在FreeBSD下用C语言写的模拟器,可以同时影响Reach和PV两个值。
记者:这个模拟器是不是在一台机器上模拟多人同时在线去访问网站?
A:可以这么说。破解了它的算法,就可以模拟成很多人了。
记者:你做的一台机器能模拟成多少人访问?如果要把一个网站从无到有做到100名,需要动用多少资源?多少时间?
A:恕不奉告,反正就是模拟多人访问。
记者:靠CPU计算出大量的伪装Alexa返回代码,只要有足够带宽给送回去就可以了?
A:对,但带宽不是问题,至少在我这儿还没成为过问题,最重要的还是模拟器的算法实现。
记者:你跟踪了Alexa两年,关过工具条返回的这串代码的算法规则,Alexa有过变动么?
A:只有过很小的变动。
记者:今年10月份是不是有过一次变动?好像国内网站普遍受到波及了。
A:这次,Alexa修改了两个参数的权重,增加了PageView的权重。所以那些纯粹靠打广告来拉流量但本身又留不住用户的网站就吃亏了。
记者:你们现在接了多少客户?
A:我们一般不会乱做的,现在还在做的也不超过5个,不过来找我的网站非常多。
记者:都要求做到100名?
A:也不是,也有只要求到2000多名的,这样的客户很理智。
记者:选择这些客户的原则是什么?是有钱就行么?
A:不是,有些小网站,一来就要我们给它做到100名,这种我们不接。
记者:要求太高的你们不接?
A:不是要求太高,我要想做也可以做到,但说句实话,我们是Alexa的“寄生虫”,也不愿意一下把自己的“宿主”给搞死了。
记者:是不是可以这样说,网上现在有5个网站的Alexa排名是你们在维护着,并且都在100名以下?
A:是,出得起100名价格的网站很少,基本上我做的就是300~1000名左右。
记者:300名的价格是多少?
A:不一定,每月8000到上万元都可能。如果说标的是300名,那其实就是300~400名浮动。
记者:这个价格对于一些小网站也就不低了。
A:我问你,小网站凭什么做到全球300名?
记者:找你的全都是大网站?
A:至少是有资格的吧。有些小网站只要求到1万名左右,这种业务我们又懒得接,不值得做。
记者:你对他们的要求是什么呢?
A:就是至少这网站还像个样子,而且出得起这个价钱。也有个客户只做了一个月,因为服务器被黑客攻击了一阵,排名跌得很惨,就找我来帮他们做一个月,把损失挽救回来。
记者:很有实力的网站也在乎Alexa排名么?
A:非常在乎啊。
记者:为什么?
A:我举个例子,你办个网站,跟广告商说,我的网站“花好稻好”,人家去Alexa上一查,原来你的网站排名那么低,谁还信你啊?
评论前必须登录!
注册