如今预测市场开始成为发展大趋势。预测市场上,人们总是通过预测来做出不确定的决断,比如设想一部电影可能会热卖,猜测某位政治人士将成为下任总统,或是推断股市到底是上涨还是下跌。很多文章已经对预测市场的准确性进行了探讨,媒体也常撰文描述各种预测比所谓的内行还专业。
但预测市场还不够理想。市场需要人为经营和管理。被建立起来后,如果涉及到货币交易,例如在购买股票时,就必须有人来保证交易者的资金能够有序地在市场上流通。沃顿商学院教授阿尔伯特?塞兹(Albert Saiz)和尤里?西蒙逊(Uri Simonsohn)发现了一个更便宜的信息渠道,即网络搜索(Internet search),它在某种程度上具有和预测市场一样的功效。
房地产学教授塞兹和运营及信息管理学教授西蒙逊在最近的一篇论文中明确指出,在某个区域,网上所讨论话题发生的可能性与现实世界中的相关现象是有联系的。“我们对‘群体智慧’很感兴趣。这种群体智慧是大众对于某个值得探讨的问题的观点集合。”两位教授在文中写道,他们文章的题目叫做《通过在线群体下载智慧》(Downloading Wisdom from Online Crowds)。例如,若想了解人们认为哪些国家以及美国哪些州和大城市最腐败,他们就会在一个叫做Exalead的搜索引擎中输入相关信息,通过比较同一页面上各地含有“腐败”字样的条款数目,就可得出相应的腐败状况排行。
所得结果毫不惊人。人们普遍认为最腐败的国家是尼日利亚、塞尔维亚和海地,而美国最腐败的州是新泽西、纽约和伊利诺斯,最腐败的大城市为芝加哥和新奥尔良等。
西蒙逊指出,根本没办法确定这些地方到底是否腐败。他们的搜索结果显示,网上的很多信息表明这些地方和腐败现象联系密切。
但人们确实经常谈论某地常出现的问题,并为之忧心。比如人们会担心佛罗里达州的美洲鳄伤人事件,但不会担心缅因州出现类似问题。因为事实上,鳄鱼袭击在佛罗里达州更普遍,虽然自1984年以来只报道过一例鳄鱼致人死亡事件。
正如两位学者在文中所述,“试想,当一个现象发生得越频繁越持久时,那么它被关注并被记录下来的可能性就越大。通过统计有多少人对某个现象做出了记录,就可得知该现象发生的频率如何了。”
为尽可能多地搜集例子,塞兹和西蒙逊并不仅限于研究媒体报道。他们还研究了大量文献,并再次验证了自己的研究结果。“我们收集了许多新闻资讯,但同时也找了很多政府文献。”西蒙逊说到,“此外,当我们开始研究社会指标时,例如统计一个城市中非洲裔美国人或西班牙裔美国人的数量,我们发现很多文献都是由文化机构及博物馆撰写的。”
这也是为何西蒙逊认为他们的研究都是有据可查的,而不是无稽之谈,不是网络博客及聊天室里讨论的那些传闻。“传闻都很短暂,但我们看到的资料却都有长期记录。”他说到,“我本以为会收集到很多博客文章,但实际上却远没我们想象的那么多。”
度量社会趋势
事实上,很多城市和州的主要社会人口学特征两位学者的文章清晰地展现了一些固定模式,反应出。具体说来,塞兹和西蒙逊查看了网上各主要州和城市名下含有“非洲裔美国人”、“西班牙裔美国人”、“移民”、“贫困”以及“凶杀”等关键词的信息数量。他们发现,很明显,某地某种现象实际发生的频率与网上该信息讨论的频率有正相关的关系。例如,各城市中西班牙裔美国人的比例与该城市网上讨论相关信息的文章数量成正比。这种关联在美国各城市和各州都普遍存在。
因此,塞兹和西蒙逊指出,相关网络信息出现的频率可用来衡量当前主要社会现象在各城市或州发生的状况排行情况。两位学者还想知道,是否能用这种手段来衡量一个较难度量的变量,例如腐败现象。
西蒙逊表示,他与塞兹认为自己的研究成果证明了一种有用的技术,可以帮助社会学家及有兴趣度量城市社会趋势的人们进行研究,而不是为了确定地说明哪个地方有多少警察或政客在搞腐败。所以,在洛杉矶不适合出售房产,因为洛杉矶在塞兹和西蒙逊的腐败排行榜上高居榜首(但是圣诞节时向警察慈善协会(Police Benevolent Association)捐款却是明智之举)。
两位学者将他们制定的国家网上腐败排行与透明国际(Transparency International)发布的年度腐败情况排行结果做了对比。透明国际是柏林一家非营利性机构,通过对商界人士、专家等的民意调查得出腐败印象指数排行榜。透明国际得出的也是对各国腐败状况的感官认知,而不是针对某一确切的腐败事件。
塞兹和西蒙逊发现,他们的研究结果大多与透明国际的排行结果相同,只是在冰岛的排行问题上出现了例外。塞兹和西蒙逊将冰岛排在了最腐败的国家行列里,而透明国际却将其排为第二大最清廉国家,仅次于芬兰。“在冰岛问题上我们犯了个大错误。”西蒙逊承认,“我们认为,这是因为多年来冰岛一直被认为是最清廉的国家之一。虽然人们说了很多冰岛的腐败问题,但仍将它作为最佳清廉典范,而不是最腐败的国家之一。”
由于没有类似透明国际的机构对美国各州及各城市的腐败状况做出调查,因此塞兹和西蒙逊不得不寻找其他办法来支持自己在美国腐败问题上的研究。他们将研究结果与各州公务员的平均犯罪状况做了比较,并再次得到了积极的验证。他们将内布拉斯加州列为最清廉的州,同时还发现该州的公务员犯罪率相当低。与之相反,新泽西州的腐败状况就严重得多,并且公务员犯罪率也相对较高。换句话说,电视剧《黑道家族》(The Sopranos)将背景设在新泽西州不是没有道理的。
至于城市的腐败排行,塞兹和西蒙逊就要费更大的劲来验证自己的研究结果,因为没有其他来源的信息可作对比。但这也促使他们深入发掘人口统计学和社会经济学数据,并最终发现西蒙逊提到的信息关联性比腐败城市排行榜要更有说服力。
“鉴于之前的研究显示,读者在看腐败排行榜时,倾向于关注排行的名次,而忽略了造成各地腐败差异的内在连续变量。因此我们在评判城市腐败程度时,按10个城市一组进行排行,并不透露各组内城市的排行情况。”两位研究者写到。“前十位城市与我们之前的研究结果相符,其中包括圣地亚哥、新奥尔良、洛杉矶、费城以及芝加哥。”
随着不断深入研究数据,两位学者还以自己的衡量方式发现,贫困的城市更易出现腐败,比如东北部的城市即是如此。另外,大城市也更易腐败,但是,政府部门较大(按公共部门人数所占比例来算)的城市并不如此。
推出新的游戏平台
“种族繁多的城市(按非洲裔美国人和外籍居民划分)似乎腐败程度更严重。”他们补充到。“黑人和移民更易成为腐败政治的牺牲品。这种腐败官员借机剥削压迫少数民族及外籍移民的情况跟我们之前调查国家腐败状况时的研究结果一致,同时也与美国历史上对腐败事件的描述相符。美国政客一向肆意压迫种族隔离区的人们以获取收益。”
社会经济指标与腐败间的联系,使人们在衡量社会趋势时会对塞兹和西蒙逊的方法感兴趣。例如,可以通过统计网站上中国地区信息中出现了多少次“污染”这个词,来判断中国的污染状况。在中国污染问题上,尚不清楚目前的官方数据是否可靠,而使用塞兹和西蒙逊的方法,可以对中国各地污染引起人们关注的情况有个大致了解。
二人的研究表明了一种当不同的人以各种方式生成的大量文本信息的情况中,一种重复出现的数据模式。社会学家也许可以用网络信息出现的频度为代表,来研究当地的社会发展趋势,否则的话,采取其他方式则很难对这种趋势进行衡量。
而网络信息还有其他商业用途。西蒙逊谈到,一些精心设计的网络搜索可以使得经营者事先了解业务发展状况,从而帮助他们节省资金。像索尼(Sony)这样的公司在推出新版电子游戏主机之前,可以先对网络上的相关信息进行评估。“索尼推出新的游戏平台时,将涉及到庞大的物流问题。”西蒙逊说到,“比如他们要考虑应向哪个城市发送较多的机器。如果在新机上市前,索尼在网上对不同城市的需求信息做过评估比较,这样就能够调整送货数量,保证需求量最大的城市能得到最多的游戏主机。”事实上,像Nielsen Buzzmetrics之类的企业已经开始使用网上消费者信息,来协助公司的销售业务发展了。
而像政治顾问这样,最终是以推销人而非物为目的的职业,同样可以使用此项新技术。他们可以通过统计哪些人群在网上对候选人及其竞争对手使用的褒贬用语,来获知人们的观点看法。接着他们就可以进一步有重点地进行调查或使用焦点小组进行调研了。
此项研究的一大附带成果是,让我们有机会对塞兹和西蒙逊使用过的各种网络搜索引擎做一比较。首当其冲的就是Google。“Google无法进行单个项目的自动搜索。”西蒙逊说。最终他们选择了Exalead,这是个法国的搜索引擎,但可使用英语版本。他们认为Exalead和Ask.com最可靠。“我们发现Yahoo是最不可靠的。”西蒙逊又说到,“你今天查过某个信息后,下周再查相同的信息时,就会发现不同信息的数量能相差数百万页。我觉得这数百万条新文件是不可能在一周内产生的。”