|
|
客栈Baidu有效人气指数的提取
|
时间:2006/04/10 出处:江湖客栈 |
提交者 : 曲终人不见 于 PAOWANG.COM 北京时间 2006-04-10 11:25:44
客栈最近最轰动的一件事情是米米七月,让人们在大老黄大败LLM以及众多的八卦搞得有点乏味和无聊之际,获得了一点新鲜的气息。
其实米米七月来客栈已经有一段日子了。可以说在前些时候,关注她的更多的是女ID。而在米米七月贴出了自己的照片以后,XLM和LLM们闻风而动,激动异常,在客栈掀起了和米米同志对话的活动。
米米七月的异动,正好是研究Baidu客栈人气指数的最好机会。
好,首先我们看一下以“米米七月”为关键词的站内搜索,其人气指数为:384。人气指数不算高,这也很正常,因为客栈的人气指数是一个长期影响和短期效应结合的一个指数,不是一周指数,一月指数,甚至不是一年指数,而是在泡网的生存期内的某一时刻的综合指数。
但是,就这段时间米米七月之火,从感觉上384有点过于低了。其中一个原因,就是大家在提到米米七月的时候,很多时候都是用“米米“来称呼她的。
让我们以“米米“作为关键词,并选用完整的属性,以避免Baidu在收集其人气样本时产生自动拆分。结果是,”米米“的人气指数为5320。这是一个惊人的数字。谁能在这么段的时间以这么少的发帖量达到这样高的人气指数呢?
问泡网,包括MZM,董事长之流,没有一个人能。
其实米米七月也不能。
由于“米米七月”的人气只有384, 因此很难相信和米米七月有关的“米米”的人气指数可以达到5千多,这个比例太不协调了。
于是,对Baidu“米米“人气的取样样本进行了分析,发现,虽然采用了”完整“(整句)的属性,Baidu在进行取样分析的时候,仍然把“米米”拆开了,相当多的样本都是只有“米”,而没有“米米”。由此可以知道,Baidu的人气取样分析器在技术上还存在bug。
第三次分析采用了新的关键词“米米-米”,这样就在“米米”取样的基础上剔除了单个“米“的样本,得到人气指数为581。
那么581-384=197,也就是说在米米七月581的人气指数中,197是因为大家以”米米“来称呼她而获得的。如果要给Baidu客栈人气指数加权的话,那么,这197是她在大家心里的人气,加权指数至少为4。
写到这里,尝试用非完整(整句)属性的“米米”进行分析,结果其人气指数为584,与”米米-米“的人气指数几乎相等。这说明了,当使用完整属性查询”米米“的时候,返回的是被拆分了的指数,而当使用非完整属性查询”米米“的时候,返回的却是具有完整属性的数据。这再一次证明了Baidu取样器中的bug。
通过本次的分析说明,客栈Baidu人气指数,在通过ID站内查询后,需要根据经验和推理,对于返回数据的合理性进行初步的判定。如果发现异常,那么就要对样本进行抽样调查,并通过技术手段对数据进行处理,以排除各种干扰因素,获得尽可能准确的结果。
―――――――――――――――― PS,米米七月已经有了男朋友,而且长的颇为帅气。
|
|