1.定义
异常值分为统计异常值(高度异常值)和发散值(异常值)。异常值的划分和我们使用的水平有关。一般检测水平为0.05(规定的用于检测异常值的统计检验的显著性水平);而拒绝水平为0.01(规定的用于检验异常值是否为高度异常值的统计检验的显著性水平),而这个水平指的是误判的概率(把正常值误认为是异常值的概率)。参考这个标准GB 4883-2008。一般都可以免费下载到,大家可以下载看看。这个标准具体讲解了异常值的定义,异常值的方法及方法的选择,以及对应方法的临界值表。
一般情况下,同一实验室内重复性试验的检测水平为0.05,以及方法的重复性或先前确认的精密度数据;不同实验室之间的重复性试验,拒绝水平一般为0.01。
两个异常分布
1-单侧分布:更高值为异常值;
2-单侧分布:更低值为异常值;
2-双侧分布:异常值可能出现在更高值或更低值。
三种异常值检测方法
将一组测量数据从小到大排列:X1,X2,…,Xn
3.1 Nair 检验(样本量为3-100,相对较少使用)
只有知道历史经验积累的标准差(重复性或再现性)才可以使用此方法。
公式如下:
则Xn,X1为异常,α为显著性水平,n为测量次数。如果是单侧检验,只需要根据α和n查临界表R(α,n)即可;如果是双侧检验,即怀疑更大值和最小值都异常时,需要查临界值表,此时的临界值应该是R(α/2,n)。剔除一个数据后,需要继续用Nair检验对可疑值进行检验。
3.2 莱达检验(将一组测量数据从小到大排列为:X1,X2,…,Xn)
可以找到平均值并计算标准差s。
当n>10时,可疑值|Xp-X平均值|>2s;(偏差大于2s的概率只有5%左右)
当n>5时,可疑值|Xp-X平均值|>3s;(偏差大于3s的概率只有0.3%左右)
一般我们以2s和3s作为统计分析允许的合理误差范围。
3.3 格拉布斯检验()
将一组测量数据从小到大排列:X1,X2,…,Xn
这种方法应用比较广泛,一般用于存在离群值,且检验次数较少,或数据比较分散,样本主体不在直线上的数据附近时进行检验。无论方差已知与否,都可以使用此方法。
当一侧的更大值可疑时,若Gn>G(α,n),则为异常值。α的选择在之一部分已经解释过。
当单边最小值可疑时,若G1>G(α,n),则为异常值,否则为正常值。
如果是双侧的(更大值和最小值都是可疑的),
1-分别计算Gn和G1;
2- 比较Gn和G1的大小,若Gn>G1,且Gn>G(α/2, n),则更大值Xn为异常值;若G1>Gn,且G1>G(α/2, n),则最小值X1为异常值;
下图为格拉布斯临界值查询表
例子:
为校准某种还原物质,10家实验室进行了协作测试,测试数据分别为1.98;1.97; 1.95 ;1.94;1.97;1.98;1.98;1.90;2.00;2.08(单位:mL)。请检查测量数据中是否存在异常值?
1- 从小到大依次为 1.90;1.94; 1.95 ;1.97;1.97;1.98;1.98;1.98;2.00;2.08。平均值为 1.975;标准差为 0.046
2-计算 Gn 和 G1
G10=(2.08-1.975)/0.046=2.283;G1=(1.975-1.90)/0.046=1.631,临界表G(0.005,10)=2.482
G10>G1,但是
3.4 Dixon 检验
此方法应用也比较广泛,一般测量次数较少,可检查不少于一个可疑值的重复性,不需要计算平均值和标准差,简单实用。
例如,我们使用 Dixon 检验:
为校准某种还原物质,10家实验室进行了协作测试,测试数据分别为1.98;1.97; 1.95 ;1.94;1.97;1.98;1.98;1.90;2.00;2.08(单位:mL)。请检查测量数据中是否存在异常值?
1-从小到大排列:1.90;1.94; 1.95 ;1.97;1.97;1.98;1.98;1.98;2.00;2.08。n=10
2-计算 Dn 和 Dn'
Dn=r11=(2.08-2.00)/(2.08-1.94)=0.572;Dn'=r11'=(1.94-1.90)/(2.00-1.90)=0.4
3-检查临界值表α=0.01;D(0.01,10)=0.635>Dn,无异常值。
3.5 罗曼诺夫斯基检验(t检验)
将可疑值设为单独总体Xp,剔除可疑值的测量值作为一个总体(均值x-,标准差s-)。
k=|Xp-x-|/s->k(α,n),则Xp为异常值。
3.6 偏度和峰度检验方法
该方法适用于正态分布的数据,用于检查单个可疑值,也可用于重复性检查,可信度高,依赖于正态分布的数据。
1-偏度检验
确定α后,若bs>b(α, n),则更大值为异常值,若-bs>b(α, n)1.95,则最小值为异常值
下图是临界值表
2-峰度检验用于检查两端测量值是否异常
确定α后,若bk>b(α,n),则距离均值最远的测量值即为异常值;否则,不存在异常值。
例如,在上述情况下,我们使用偏度-峰度检验:
为校准某种还原物质,10家实验室进行了协作测试,测试数据分别为1.98;1.97; 1.95 ;1.94;1.97;1.98;1.98;1.90;2.00;2.08(单位:mL)。请检查测量数据中是否存在异常值?
1- 从小到大依次为 1.90;1.94; 1.95 ;1.97;1.97;1.98;1.98;1.98;2.00;2.08。平均值为 1.975
使用双侧检验:
bk=4.196(计算过程全部在EXCEL中完成),检查临界值b(0.01,n)=5.0>bk,因此不存在异常值。
三个统计结果都是一样的。
四种统计检验选择
、Dixon 和 考虑了测量数据的次数,将数据的分布与 α 联系起来,做出客观判断。 和 考虑了一种更严格的方法来测量数据的分布。偏度-峰度检验方法只能用于检查数据是否为正态分布。如果使用几种统计检验方法得到的结果不一致,则通常增加测量次数以提高数据的可靠性。
5.处理异常值
一般情况下,如果异常值不是由过失误差引起的,需要考虑技术原因和实验误差。如果不同实验室之间没有异常值,但分布范围较广,可能说明重复性较差,特别是在进行标准物质均匀性检验和定值分析的数据处理时,还需要考虑重复性或者以前经验积累的精密度数据,判断是否有漏判。
未经允许不得转载! 作者:admin,转载或复制请以超链接形式并注明出处天心神途传奇手游发布网。
原文地址:《1.95 2019-10-04数据结果分析-异常值》发布于:2024-08-10





还没有评论,来说两句吧...