试验设计是数理统计学的一个重要的分支。多数数理统计方法主要用于分析已经得到的数据,而试验设计却是用于决定数据收集的方法。试验设计方法主要讨论如何合理地安排试验以及对试验所得的数据如何分析等。
试验设计方法,现今已被广泛地应用于各个领域。例如,在工厂,为了提高产品的产量,提高某有效成分的收率,改善产品的质量而进行的改变原料配比和工程条件的试验;在试验农场,为掌握作物取得最高产量和提高产品质量所需要的栽培条件而进行的品种对比试验、施肥方法对比试验、农药效果对比试验…等。这些试验的目的是一样的,都是要弄清楚试验过程中自变量对于因变量的影响的大小和趋势,有时还要寻找其最佳条件。试验设计方法常用的术语和符号定义如下:
1.试验指标指作为试验研究过程的因变量,常为试验结果特征的量(如收率、纯度等)。见图4-1所示的工厂试验时的例子。
图4-1 因素和试验指标的种类 (工厂试验的例子)
因素指作为试验研究过程的自变量,常常是造成试验指标按某种规律发生变化的那些原因。如图4-1中所列的成分、温度等。常用A、B、X等符号表示。
3. 水平 指试验中因素所处的具体状态或情况,又称为等级。
表4-1表示了因素和水平的一个例子。若温度用A表示,则用下标1、2、3……表示因素的不同水平,分别记为A1、A2、A3……
可见,有的因素的水平是由数量决定,有的因素的水平是由特定的质(品种,名牌,产地等)来决定。
4.1.1 正交试验设计方法的优点和特点
用正交表安排多因素试验的方法,称为正交试验设计法。我国60年代开始使用,70年代得到推广。这一方法具有这样的特点:①完成试验要求所需的实验次数少。②数据点的分布很均匀。③可用相应的极差分析方法、方差分析方法、回归分析方法等对试验结果进行分析,引出许多有价值的结论。因此日益受到科学工作者的重视,在实践中获得了广泛的应用。
例4-1某化工厂想提高某化工产品的质量和产量,对工艺中三个主要因素各按三个水平进行试验(见表4-2)。试验的目的是为提高合格产品的产量,寻找最适宜的操作条件。
对此实例该如何进行试验方案的设计呢?
很容易想到的是第一方案:(全面搭配法方案)
A2——…
A3——…
此方案数据点分布的均匀性极好,因素和水平的搭配十分全面,唯一的缺点是实验次数多达33=27次。(指数3代表3个因素,底数3代表每因素有3个水平)
想节省费用而又快出成果的人提出了第二方案:(简单比较法方案)。
先固定A和B,只改变C,观察因素C不同水平的影响。作了如下的三次实验:
发现C=C2的那次实验的效果最好,合格产品的产量最高,因此认为在后面的实验中因素C应取C2水平。
固定A和C,改变B的三次实验为:
发现B=B3的那次实验效果最好,因此认为因素B宜取B3水平。固定B和C,改变A的三次实验为:
发现因素A宜取A2水平。因此可以引出结论:为提高合格产品的产量,最适宜的操作条件为A2B3C2。与第一方案相比,第二方案的优点是实验的次数少,只需做9次实验。但必须指出,第二方案的试验结果是不可靠的。因为,① 在改变C值(或B值,或A值)的三次实验中,说C2(或B3或A2)水平最好是有条件的。在A≠A1,B≠B1时,C2水平不是最好的可能性是有的。② 在改变C的三次实验中,固定A=A2,B=B3应该说也是可以的,是随意的,故在第二方案中,数据点分布的均匀性是毫无保障的。③ 用这种方法比较条件好坏时,只是对单个的试验数据,进行数值上的简单比较,不能排除必然存在的试验数据误差的干扰。
第三方案是用正交试验设计方法,用正交表来安排试验。
对于例4-1适用的正交表L9(34)及其试验安排见表4-3。所有的正交表与L9(34)正交表一样,都具有下面两个特点 :
表4-3正交表L9(34)的应用
试验号 | 列号 | 1 | 2 | 3 | 4 |
因素 | 温度/℃ | 压力/(N/m2) | 加碱量/kg | ||
符号 | A | B | C | ||
1 | 1(A1) | 1(B1) | 1(C1) | 1 | |
2 | 1(A1) | 2(B2) | 2(C2) | 2 | |
3 | 1(A1) | 3(B3) | 3(C3) | 3 | |
4 | 2(A2) | 1(B1) | 2(C2) | 3 | |
5 | 2(A1) | 2(B2) | 3(C3) | 1 | |
6 | 2(A2) | 3(B3) | 1(C1) | 2 | |
7 | 3(A3) | 1(B1) | 3(C3) | 2 | |
8 | 3(A3) | 2(B2) | 1(C1) | 3 | |
9 | 3(A3) | 3(B3) | 2(C2) | 1 |
(1)在每一列中,各个不同的数字出现的次数相同。在表L9(34)中,每一列有三个水平,水平1、2、3都是各出现3次。
(2)表中任意两列并列在一起形成若干个数字对,不同数字对出现的次数也都相同。在表L9(34)中,任意两列并列在一起形成的数字对共有9个:(1,1),(1,2), (1,3), (2,1), (2,2), (2,3), (3,1), (3,2),(3,3),每一个数字对各出现1次。
这两个特点称为正交性。正是由于正交表具有上述特点,就保证了用正交表安排的试验方案中因素水平是均衡搭配的,数据点的分布是均匀的。这从图4-2中可以直观地看出。虽然数据点只有9个,却非常均匀地分布在图中的各个平面和各条直线上。与A轴垂直的三个平面,与B轴垂直的三个平面,与C轴垂直的三个平面等9个平面内,每一个平面内都正好含有3个数据点。图中与A、B、C轴平行的27条直线,每一条直线上都正好含有一个数据点。
可见,运用正交试验设计方法得出的第三方案,不仅试验的次数少,而且数据点分布的均匀性极好。兼有第一和第二方案的优点。不难理解,对第三方案的全部数据,进行数理统计分析引出的结论的可靠性肯定会远好于第二方案。 因素愈多,水平数愈多,运用正交试验设计方法,减少试验次数的效益愈明显。做一个6因素3水平试验,若用因素水平全面搭配方法,共需的试验次数=36=729次;若用正交表L27(313)来安排,则只需做27次试验。
(转贴)作者不详