今天下午有空,我打算做一些翻译介绍工作,向大家介绍一次国外真实发生过的、很有影响的盲听实验。应该说这次盲听实验是很有名的,经常在后来被引用到、讨论到,它是一次公开的、真实的、可信的盲听实验,设计比较考究、也具有一定的人数规模,所以可以说是一次很具有代表性的hi-fi盲听。当然,它的结果是非常有趣的,大家有时间的话,慢慢看下去就知。
这次盲听实验发生在上世纪八十年代的一次Audio Engineering Societyconvention,即AES年会上(AES是美国著名的专业音响协会)。我们大家熟悉的AES/EBU平衡数字接口,其得名就是因为这个标准是AES确立的。
盲听实验的测试目标是两台hi-fi放大器。因此这个盲听的目标,可以说成是研究人们在盲听状态下是否能区分两台很不同的放大器。对,必须是很不同的两台放大器,而不是风格类似、档次接近的两台放大器,因此盲听实验的组织者选择了这样两台放大器:
1)AdcomGFA555。现在的发烧友可能都不熟悉Adcom这个牌子了,但老资格人士会知道这是一个当年挺红的晶体管放大器牌子。555这个型号价格不贵,当年是750美金,属于Stereophile的C级榜单里的推荐制品。它的额定输出功率是200瓦(8欧姆),325瓦(4欧姆),是一台输出强劲的晶体管放大器。
2)VTL300W双单声道胆机。这个就比较高档了,一对的价格是4900美金。Stereophile把它列入了A级榜单。它每声道用了8只6550管,可以做到8欧姆时输出300瓦的功率。
很明显,这两台放大器既不是一个档次和价位,也不是一个类型(晶体管/电子管)。
盲听的方法是很重要的。这次盲听的方法是专家提出的,应该说是很科学的。具体是这样:
听众会听到2次播放同一段音乐素材。这2次播放可能是同一台放大器(都是Adcom或者都是VTL),也可能是不同的放大器(先Adcom后VTL或者反之)。在听完同样的音乐被重复播放2次后,受试者必须给出一个回答。回答很简单,就两个选择:Same,或者Different。盲听实验专家认为这样的方式是最为科学的。它不要求受试者去判断哪个声音更好、更喜欢哪个,这些问题都会掺入主观因素的成分,而只要求判断“相同”还是“不同”。和哪个好完全无关。哪怕你听下来觉得VTL声音不如Adcom好也无所谓,只要求判断出2段音乐是同一台放大器放的,还是不同的放大器。
具体演示时的播放次序,完全是随机生成的。由电脑程序来决定播放时究竟是用同一台放大器,还是不同的放大器。如果应该用不同的放大器,那么先放哪台、后放哪台,是由主办者用扔硬币的办法决定的。因此,我们可以看到,完全随机、完全客观,没有作弊可能,如果说先放后放存在心理影响,那也是随机分布的。
在整个测试的56次播放中,最终有26次采用了相同的放大器(其中13次都是Adcom、13次都是VTL),有30次采用了不同的放大器,其中17次是先Adcom后VTL,13次是先VTL后Adcom。
大家肯定关心整套系统是怎么样的呢?周边器材够档次吗?
喇叭:B&W Matrix801S是测试系统的喇叭。这是公认的业界优秀大喇叭,地位无人质疑。喇叭下面用了灌沙的Arcici专业喇叭底座(当年人们已经开始注意避震措施)。
音源:用到了2台CD播放器:1)AdcomGCD575。2)马兰士CD94。当然现在看起来都是古董级别的东西了,但在当年都是很不错的产品。
前级放大器:Hafler Iris。这是当年一台很棒的前级放大器,声音非常中性。
线材接法:我们知道上世纪八十年代音响发烧线材这个行业刚开始兴起,我们现在熟悉的线材牌子当年大多还不存在。测试中音源到前级放大器的信号线是MonsterM1000。从Hafler前级用AQLapis信号线,把信号接到一个铝制的分配盒。分配盒有一组直接输出,接到2台放大器中相对灵敏度较低的那台,另外一组输出,则经过一个25k的Bourns电位器后,接入另外一台放大器。测试前经过仔细的调整,使得两台放大器驱动喇叭能获得相等的音量。
分配器再用MonsterM1000信号线接到测试的2台放大器。放大器用Mission的多股喇叭线接到一组接线柱(在这里控制切换)。这里要注意一点,在整个系统开始播放时,两台放大器都是在同时工作的,也就是说即使在听Adcom放大器,也不是把VTL关掉,只是把它切换到一个10欧姆的假负载。也就是说具体播放时用哪个放大器,只是一个切换工作,并不涉及到开关机器。
控制接线柱最后用AQ LiveWire喇叭线接到B&W Matrix801S喇叭,采用了双线分音的发烧接法(Bi-Wiring)。
上面这个图标显示出了盲听测试时播放的7段音乐(每段播放2次)。我们可以看到,这里的音乐内容包含了人声(男女都有)、电子乐、古典、钢琴独奏、合唱、鼓,属于比较全面的。测试时并不是把音乐全部播完的,而是只播放90秒左右。
实际的测试每次耗时约一小时,参加者每次大约在60人左右(地点是召开会议的宾馆会议室)。测试开始前有一个熟悉系统的热身时间,先向受试者明着用2台放大器先后播放,之后才进入盲听的时段。
盲听的过程前面已经描述了,每段音乐播放2次后,受试者要求在答卷上写下“same”或“different”。7段音乐放完,盲听结束,答卷上应该有7个答案,然后收集答卷,进行统计分析。
这样形式的盲听测试在会议期间进行了8场,因此获得了可观的原始信息。
盲听测试总共进行了8场,参与总人次是505人次。搜集到的答案总共有3530个(same或different的答案)。按理说505人,每人听7段音乐,给出7个回答,应该总共是3535个回答,但有5个受试者只给出了6个回答,因此最后的总数是3530个。
从人口统计学的角度看,这505人次的具体情况不是特别详细。只知道:大多数在30-50岁,属于成年人,有男性、有女性,女性还为数不少。不过,从这些人排队来参加测试,可以看出至少他们对该测试是有兴趣的。
这次测试的答卷最后统计结果是什么呢?我可以说,假如你之前没有听说过这次有名的盲听测试的故事,你一定觉得难以置信。
受试的群体505人次,从整体来看,是否有效辨认出了2台放大器呢?
3530个回答中,正确的回答为1846个,准确率为52.3%,比瞎蒙只高出2.3%。下面这个图显示出了7个答案全部为错、对1个、对2个、对3个、对4个、对5个、对6个、全对的次数的分布。可以看到,对3个的比例最高,对4个的其次。7次里瞎蒙的话应该对3.5个,所以——这个结果作为瞎蒙的话非常合理和正常。确实有7次全部听对的人,但比例很小。同时可以看到甚至有7次全都答错的人(这个不光要靠木耳,更重要是靠运气了!),当然,比例也很小。
大家不要光是看总体的统计数字。具体的统计也是很有意思的,甚至更有意义。
首先是,实际播放时2次所用的放大器是相同、还是不同,会影响判断吗?很有意思的是,统计数字表明,会的。在2次用不同的放大器播放时,人们给出的正确答案比例更高(正确率64.4%),而2次如果用的是相同的放大器,则更容易答错(正确率38.3%)。也就是说,人的耳朵更容易把2次相同的声音,误听成不同的声音,而2次真正声音不同时,则相对更有把握判断出来。这是第一个有意义的结果。
第二个问题是:音乐类型和分辨的能力有干系吗?是否在播放某些音乐时,人们更容易得到正确的回答?
答案是,有关系的!比如,弗雷的安魂曲(属于古典)、披头士的歌曲PennyLane、钢琴独奏,人们就更容易给出正确的回答,而RR公司出品的鼓乐录音,正确率比较低。看来用打鼓来测试放大器,并不是如有些人想像的那么有效的。
说到底,这两台放大器在驱动B&WM801S喇叭时,究竟是声音相同、还是不同的呢?正确答案当然是——不同。问题只在于这个“不同”究竟如何反映出来,以及在盲听测试中能否反映出来。
90秒的每段音乐播放时间可能是一个因素。如果听更长的时间,人们会更为真切地感受到2台放大器的差异。主办这次盲听测试的人员自己曾仔细试听并对比了2台放大器的效果,很有把握地说,如果是长时间的聆听,那么2台放大器的声音是很不同的。起码来说,VTL300W会耐听很多。但这种“耐听很多”是不可能在每次90秒钟就切换掉的测试中表现出来的。
60人挤满一屋子也是一个因素。这样拥挤的情况下,不可能每个人都处于较佳的聆听位置。
听觉疲劳更是一个因素。盲听时大家为了要取得正确回答,都是听得很专注的,很容易疲劳,这个“竞技”状态,和平时欣赏音乐时的松弛状态,是差异很大的。
在7次里听对6次、7次的人群里,有一些业内熟知的名字,包括音响设计师、杂志评论员。这些人能得到较高的正确率,也是说明问题的。
Stereophile杂志的著名写手MichaelFremer在另一次盲听放大器的测试中(涉及Crown、VTL、Threshold三种放大器),5次全部答对,不仅如此,他甚至试图写出具体放大器的名字(这不是盲听要求的),而且5次里写对了4次。
关于这次盲听测试,每个人可以有自己的看法和解读。这里我不说下去了。希望看到更多数据的,可以研究以下链接:http://www.stereophile.com/features/113
从经验角度,我只多说一句:假如简单地盲听了一下,辨别不出差别,就认为两样东西真是没有任何差别的,这是有问题的。更为靠谱的是在自己熟悉的系统和环境中,进行长时间的深入体验、体会。当然这里的“长时间”不是说要用上1个月,但至少几个小时的熟悉、了解,最好是用熟悉的各种音乐素材试听,是十分必需的。
(完)