GB/T6380-2019

数据的统计处理和解释Ⅰ型极值分布样本离群值的判断和处理

Statisticalinterpretationofdata—DetectionandtreatmentofoutliersinthesamplefromtypeⅠextremevaluedistribution

本文分享国家标准数据的统计处理和解释Ⅰ型极值分布样本离群值的判断和处理的全文阅读和高清PDF的下载,数据的统计处理和解释Ⅰ型极值分布样本离群值的判断和处理的编号:GB/T6380-2019。数据的统计处理和解释Ⅰ型极值分布样本离群值的判断和处理共有14页,发布于2020-07-01
  • 中国标准分类号(CCS)A41
  • 国际标准分类号(ICS)03.120.30
  • 实施日期2020-07-01
  • 文件格式PDF
  • 文本页数14页
  • 文件大小920.18KB

数据的统计处理和解释Ⅰ型极值分布样本离群值的判断和处理


国家标准 GB/63802019 代替GB/T63802008 数据的统计处理和解释 I型极值分布样本离群值的判断和处理 statstitelinterpretautonfdalta一IDetetionandtreatmentfotiersinthesmple extremevaledistribution fromtypeI 2019-12-10发布 2020-07-01实施 国家市场监督管理总局 发布 国家标涯花警理委员会国家标准
GB/T6380一2019 次 目 前言 引言 范围 规范性引用文件 术语、定义和符号 3.1术语和定义 3.2符号 离群值判断 4.1离群值的来源与判定 4.2检出离群值个数的上限 4.3单个离群值情形 多个离群值悄形 4.4 离群值处理 5 5.1处理方式 5.2处理规则 5.3备案 单个离群值的判断规则 6.1检验方法的选择 6.2狄克逊(ID)ixon)检验法 6.3欧文(Irwin)检验法 多个离群值的判断规则 7.1检验步骤 7.2多个离群值检验示例 附录A规范性附录)狄克逊检验的临界值表 附录B(规范性附录欧文检验的临界值表 参考文献
GB/6380一2019 前 言 本标准按照GB/T1.1一2009给出的规则起草 本标准代替GB/T63802008《数据的统计处理和解释I型极值分布样本异常值的判断和处 理》,与GB/T6380-2008相比主要技术内容变化如下 -修改了术语I型极值分布(见3.1.1,2008年版的3.1.1); -修改了术语I型极小值分布(见3.1.2,2008年版的3.1.2); 修改了术语离群值见3.1.3,2008年版的3.1.3); -增加了次序统计量的定义及说明见3.1.8); -修改了离群值的处理规则(见5.2,2008年版的5.2) -增加了威布尔分布型极小值分布)取对数后转化为I型极小值分布的说明及离群值计算示 例见6.2.3); 增加了参考文献ISo16269-4;2010(见参考文献) 本标准由全国统计方法应用标准化技术委员会(sAc/Tc21)提出并归口 本标准起草单位;天津大学、北京理工大学珠海学院、宁波工程学院 本标准主要起草人马逢时.许其州,史道济,用广珠 本标准所代替标准的历次版本发布情况为 GB/T6380-1986,GB/T6380-2008.
GB/T6380一2019 引 言 从事科学研究、工农业制造以及管理工作都离不开数据,而对这些数据的整理、分析和解释都离不 开统计方法 统计学是研究数字资料的整理、分析和正确解释的一门学科 人们各自从不同的来源取 得各种数字资料,这些数字资料通常都是杂乱无章的,经过整理和简缩才能利用,使用完善的统计方法 就可使数据整理、排列得有条有理,用图形或少量的几个重要参数,就可将大量数据的特征表达出来,这 样既可避免不正确的解释,又可将获得满意数据的成本降到最低限度,提高了经济效益 根据收集到的样本观测值,可以大体上确认样本来自为某种分布 这时发现样本中的一个或几个 观测值,它们离开其他观测值较远,暗示它们可能来自不同的总体 是否为实际的离群值,需要统计检 验 在离群值的检验中特别要注意数据来自哪一种基本分布,假定来自I型极值分布与假定来自正态 分布在检验时是非常不同的,对分布的错误假定会导致观测值被错误地归类为离群值 国家标准《数据的统计处理和解释》包含以下各项 统计容忍区间的确定(GB/T3359); -均值的估计和置信区间GB/T3360)1 -在成对观测值情形下两个均值的比较(GB/T3361); 二二项分布参数的估计与检验(GB/T4088); 泊松分布参数的估计与检验(GB/T4089); 正态性检验(GB/T4882 正态样本离群值的判断和处理(GB/T4883); 正态分布均值和方差的估计与检验(GB/T4889); 正态分布均值和方差检验的功效(GB/T4890); 型极值分布样本离群值的判断和处理(GB/T6380) r分布皮尔逊型分布)的参数估计(GB/T8055), 指数样本离群值的判断和处理(GB/T8056).
GB/6380一2019 数据的统计处理和解释 I型极值分布样本离群值的判断和处理 范围 本标准规定了判断和处理I型极值分布的样本中的上侧离群值和I型极小值分布的样本中的下侧 离群值的一般原则和实施方法 本标准适用于来自I型极值分布或I型极小值分布总体的样本,以及样本量为5一50的情形 注1:由于经过变换Y=-x后.I型极小值分布的随机变量将服从I型极值分布,所以只对I型极值分布给出检 出上侧离群值的方法 注2:由于型极小值分布(威布尔分布)经过对数变换Z=lnx后将服从I型极小值分布,所以本标准实际上对l 型极小值分布威布尔分布)给出检出下侧离群值的方法 注3:I型极值分布在水文、气象、地震、可靠性以及金融等很多领域有着广泛的应用 规范性引用文件 下列文件对于本文件的应用是必不可少的 凡是注日期的引用文件,仅注日期的版本适用于本文 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 件 GB/T3358.1统计学词汇及符号第1部分一般统计术语与用于概率的术语 GB/T3358.2统计学词汇及符号第2部分;应用统计 术语、定义和符号 3.1术语和定义 GB/T3358.1和GB/T3358.2界定的以及下列术语和定义适用于本文件 3.1.1 I型极值分布typeIextremevaluedistributionm 具有下述分布函数 -(,-a)/M F(r)=exp(一e 的连续型分布,其中b>0,-oGB/T6380一2019 注2:I型极值分布是指I型极大值分布,也称为Gummbel分布 3.1.2 I型极小值分布typeIminimumvaluedistributiom 具有下述分布函数 (一)a F(.r=1一exp(一e 的连续型分布,其中b>0,一oGB/6380一2019 注2:改写GB/T3358.1一2009,定义1.9 r xeo 注ro是样本中的最小值,r是样本中的最大值 图3次序统计量图 3.2符号 下列符号适用于本文件 D,;狄克逊统计量 D-.(n);检出水平为a时,用统计量D,作检验时的临界值 I.欧文统计量 I-.(n):检出水平为a时,用统计量1 作检验时的临界值 n;样本量 ;观测值自小到大排序后的第i个值 Z a;检出水平 剔除水平(a”GB/T6380一2019 4.4多个离群值情形 在允许检出离群值的个数大于1的情况下,重复使用4.3规定的检验规则进行检验,并按下述规则 决定检验停止的时机: 若没有检出离群值,则整个检验停止; a b 若检出离群值,当检出的离群值总数达到上限(4.2)时,检验停止,否则,采用相同的检出水平 和相同的规则,对除去已检出的离群值后余下的观测值继续检验 5 离群值处理 5.1处理方式 处理离群值的方式有: 保留离群值并用于后续数据处理 a b) 在找到实际原因时修正离群值,否则予以保留; 剔除离群值,不追加观测值; c d 剔除离群值,并追加新的观测值或用适宜的插补值代替 5.2处理规则 对检出的离群值,应尽可能寻找其技术上和物理上的原因,作为处理离群值的依据 应根据实际问 题的性质,权衡寻找和判定产生离群值的原因所需代价、正确判定离群值的得益及错误剔除正常观测值 的风险,以确定实施下述三个规则之 若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,不得剔除或修正 a D)若在技术上或物理上找到产生离群值的原因,则应剔除或修正;否则,保留歧离值,剔除或修正 统计离群值 在重复使用同一检验规则检验多个离群值的情形,每次检出离群值后,都要再检 验它是否为统计离群值 若某次检出的离群值为统计离群值,则此离群值及在它前面检出的 离群值都应被剔除或修正 检出的离群值(统计离群值和歧离值)都应被剔除或修正 5.3备案 被剔除或修正的观测值及其理由应予记录.,以备查询 o 单个离群值的判断规则 6.1检验方法的选择 当样本量5GB/6380一2019 r一工d (n-l ,5ns8 .Z'(ny .'(1 D. r(n .Zn 习 ,,9D-.(n)时,判定r.为离群值,否则不能判定 d)对于检出的离群值r,确定剔除水平a”,按照表A1查出临界值D- n) 当D,.>D-.n) 时,判定r为统计离群值,否则不能判定.r是统计离群值(判定rn为歧离值). 6.2.2狄克逊(Dixom)检验法示例1 自动剪床切断钢料,每日记录最初剪下的100根钢料的长度,作为一批数据,一周内记录了6批,得 到每日最大值数据如下(单位;mm): 821.46,319.62,320.44,319.51,329.73,320.41 根据经验,可以认为总体为I型极值分布 假如使用者关心的是数据中是否有上侧离群值,可采用 本节中的方法 本例中,n=6,最小观测值为r=319.51最大观测值为xn=329.73,次大观测值为x=321.46,按 式(1)计算统计量D 的值 329.73一321.46 Z(6》Z(5 D. =0.8092 329.73一319,51 .Z'6》 Z1 确定检出水平a=0,.05,按照表A.1查出D,的临界值D(6)=0,.681 由于D=0,.8092>0.681一 Dg(6),故判定ro=329.73为离群值 对于检出离群值zo=329.73,进一步给出剔除水平a”=0.01,按照表A.1查出D 的临界值 D6)=0.796,由于D,=0.809>0.796- -D.n(G),散判断工w=3829.73为统计离群值 经复核查实,此数据系误记,实际值为319.73 6.2.3狄克逊检验法示例2 取20只新型电容器进行加速寿命试验,其寿命数据(单位:h)按由小到大的次序排列后结果为 1.234.5 59.671.694.099.8105.61l0.0 120.8134.6 139.6 158.2 167.0178.6199.2 208.6 231.2 268.2 307.4 428. 容易看出,此寿命W服从威布尔分布,但图形显示,最小寿命远离其他数据,需检验最小值1.2是 否为离群值 将数据按次序统计量符号给出,w=1.2,,w=428.4 将w取对数后,Y=In(Ww)即为I型极小值分布,因此,I型极小值分布Y的次序统计量观测值为: lnl.2,ln34.5,ln59.6,,ln428.4 这里y',=lnl.2.ye=In34.5.ys=ln59.6,.ye=ln428.4 令X=-Y则x为I型极值分布,x的次序统计量观测值为: -hn59.6.c(m=-ln34.5.k(e=一lnl. .r()=一ln428.4,,r(1s) 本例中威布尔分布w最小值的离群值检验,即化为I型极值分布X的最大值离群值检验 本例 样本量为20,狄克逊检验统计量按式(1)应为 工e0二工 =0.664 -合--"子-二H D20= .Z'(20 确定检出水平a=0.05,按照表A1查出D临界值0.558 由于 D0=0.664>0.558=Dw20
GB/T6380一2019 因此拒绝原假设,可以判定re=一lnl.2=一0.182确实是离群值,即可以判定w=1.2确实是 离群值 对于剔除水平a=0.01,按照表A.1查出D临界值0.654 由于 D=0.664>0.654=Dn20) 因此拒绝原假设,即可以判定.x=一lnl.2=一0.182是统计离群值,即可以判定w=1.2是统 计离群值 经仔细检查,发现此电容器是在加压过程中绝缘层被击穿,不是正常的老化失效,因此 =1.2是统计离群值,应予以剔除 1 6.3欧文(Irwin)检验法 6.3.1检验步骤 当样本量30I-.(n)时.判定r 为离群值,否则不能判定; c 对于检出的离群值r,确定剔除水平a”,按照表B.1查出临界值I-.(n) 当1,>I,.(n) d 时,判定.rn为统计离群值,否则不能判定.r,是统计离群值判定.r(为歧离值) 6.3.2欧文(Irwin)检验法示例 某地某河流年最大径流量的逐年观测数据如下(单位:km'/s): 1.22 1.26 1.74 1.69 0,75 1.73 3,09 1.97 2.23 .57 2.03 1.58 0.90 1.65 1.96 2.30 1.79 2.22 2.40 1.48 1.91 3.,06 2.08 1.06 1.56 1.88 2.10 2.02 1.74 4.31 1.38 0.90 1.78 1.97 2.27 2.34 2.44 1.18 2.12 1.45 经验表明此年最大径流量的逐年观测数据近似地服从I型极值分布,需要判断最大值r(o,=4.31 是否为离群值 对上述观测数据稍加整理可以看出,其最小观测值为z,=0.75、最大观测值为x(0)=4.31、次大 观测值为.r9=3.09 对除去最小观测值r,最大观测值r后的所有观测值,先按式(3)计算》的 值,再按式(2)计算统计量1 的值: 4.31一3.09 r40)-Z39y =2.43 O.502 确定检出水平a=0.05,按照表B.1查出临界值Iws(40)=2.88 由于lw=2.43<2.88=In(40). 故不能判定r(o=4.31是离群值
GB/6380一2019 多个离群值的判断规则 7.1检验步骤 当样本中可能有多个离群值需要检验时,按照4.4的规则执行 具体判断离群值的方法,可根据样 本量的大小分别按6.2,6.3的步骤实施 7.2多个离群值检验示例 从某种绝缘材料中随机地取出11个样品,在一定条件下进行寿命试验,其失效时间分别为(单位:h): 4.09,17.31,60,78,62.16,64.15,70,67,71.85,75.50,79.35,80,00,88,01 经验表明这种绝缘材料的寿命T服从I型极小值分布,因此X=一T,服从I型极值分布 一88.01, -80.00,,.r8=一62.16, 一60.78, 此处 17.31, .r(= ,.r(2) .Z(9,= ,.Z(0= ,.z1 -4.09,若规定检出离群值个数上限为2,可采用本条的方法 Em是否是离群值进行判断,因为n=1u,按式(1)计算统计量D的值 首先,对" (一4.09)一(一60.78) x二.ro =0.675 D= 4.09 (一88.01 r ra1 确定检出水平a一0.05按照表A.1查出临界值D.(I1)=0.656,由于D一0.675>0.656- Dg(1l),故判定z(n)=一4.09为离群值,即判定原数据中4.09为离群值 对于检出的离群值.r -4.09,确定剔除水平a”=0.01,按照表A.1查出临界值D(11)= 0.748,由于D=0.675<0.748=D.n(11),故不能判定rmm -4.09是统计离群值,即可以认为 r=一4.09为歧离值(即认为原数据中4.09为歧离值). 再对余下的10个数据继续检验,此时样本量变为10,按式(1)计算统计量D的值 工0二.z8 =0.634 D0= 88.OT r(0一.r4 仍取检出水平a=0.05,按照表A.1查出临界值D,(10)=0.676,由于D0=0.634<0.676- D,(10),故不能认为ro=-17.31为离群值(即不能认为原数据中17.31是离群值 至此整个检验停止
GB/T6380一2019 附 录 A 规范性附录) 狄克逊检验的临界值表 狄克逊检验的临界值表见表A.1 表A.1狄克逊检验的临界值表 统计量 0.90 0.95 0.99 0.665 0.739 0.850 0.796 0.606 0,681 工o二e- D Zr'n一,zr 0.564 0.639 0.756 0.534 0.608 0.726 0,.700 0.790 0,644 10 0,619 0.676 0.767 11 0,.597 0.656 0.748 12 0.581 0.638 0.731 0.567 0.717 13 0.624 0.554 0.61m 0.705 l4 15 0.543 0.600 0.694 6 0.533 0.590 0.684 17 0.524 0.581 0.675 18 0.516 0.573 0.667 19 0.509 0.565 0.660 Z《n一.Zn一2 D rn一,r' 20 0,502 0,558 0.654 0.552 0.496 0.648 心 22 0.490 0.546 0.642 23 0,485 0.541 0.636 24 0.536 0.631 0.48o 25 0.475 0,.531 0.626 26 0.471 0.527 0.622 27 0.467 0.523 0.618 28 0.519 0.614 0.463 29 0.459 0.515 0.610o 30 0.456 0.511 0.606
GB/6380一2019 附录 B 规范性附录 欧文检验的临界值表 欧文检验的临界值表见表B.1 表B.1欧文检验的临界值表 统计量 0,.90 0.95 0.99 31 2.29 3.03 4.71l 32 2.28 3.01 4.68 2.27 2.99 4.65 33 34 2.26 2.97 4.62 35 2.25 4.6o 2.95 36 2.24 2.93 4.58 37 2.23 2.91 4.56 38 2.22 2.90 4.54 《那一 工m 2.21 2.89 39 4.52 其中 4.5o 2.0 2.88 40 -云 习" 41 2.19 2.87 4.48 42 2.18 2.86 4.46 f 43 2.17 2.85 4.44 44 2.16 2.84 4.42 45 2.16 2.83 4.40 46 2.15 2,82 4.39 47 4.38 2.15 2.81 48 2.14 2.8o 4.37 49 2.14 2.79 4.36 50 4.35 2.13 2.78
GB/T6380一2019 参 考文献 [1 1SO16269-4;2010Statistiealinterpretationofdata一Part4;Deteetionandtreatmentof outliers [2]马逢时,许其洲.极值分布的异常值检验].数理统计与应用概率,1986,1(1).81-91 [3]费鹤良极值分布和威布尔分布异常数据的检验方法].应用数学学报,1998,21(4).549-561 [打 F.EGrubbs.Sar riterionfortest wmplee [].Statistics.AnnalsofMathematieal tingob servation Statistics,1950,21.27-58. [5” Olrwin.Onacriterionfortherejectionof outlying observations[].Biometrics,1925 17.238-250. [6W.JDixon.Analysisofextremevalue.AnnalsofMathematicalStatistics,1950,21.488-506. [[7]w.JDixon.Processingdataforoutliers.Biometries,1953,9(I).74-89. 0

数据的统计处理和解释:Ⅰ型极值分布样本离群值的判断和处理GB/T6380-2019

随着大数据时代的到来,数据的采集和分析变得越来越重要。然而,由于数据的复杂性和多样性,数据中常常会存在一些异常值或者离群值,这会影响数据的准确性和可靠性。因此,在数据的统计处理和解释中,必须对样本的离群值进行判断和处理,以保证数据的正确性。

为此,我国在2019年发布了《数据的统计处理和解释:Ⅰ型极值分布样本离群值的判断和处理GB/T6380-2019》标准,该标准是在国际上普遍应用的数据离群值处理方法的基础上制定的,旨在适应我国数据分析的特点和需求。

该标准主要包括五个部分:背景、范围、引用文件、定义和离群值检测和处理方法。其中,离群值检测和处理方法是该标准的核心内容,它涉及到数据的统计学原理和计算方法,主要包括箱线图法、Grubbs准则、Dixon准则等方法。这些方法都可以用来判断数据中的异常值或者离群值,并进行相应的处理。

值得一提的是,该标准规定了数据的样本容量、显著水平和置信系数等参数的选择和设置,以保证数据处理结果的可靠性和精确性。此外,该标准还考虑了不同类型数据的特点和应用场景,为数据分析提供了更加全面和细致的指导。

总之,《数据的统计处理和解释:Ⅰ型极值分布样本离群值的判断和处理GB/T6380-2019》是我国数据分析领域的一项重要标准。它的发布将促进我国数据分析技术的发展,提高数据分析的准确性和可靠性,为我国科学技术的创新和进步做出积极贡献。

和数据的统计处理和解释Ⅰ型极值分布样本离群值的判断和处理类似的标准

图书在版编目数据

CAD/CAM数据质量

机车车辆动力学性能评定及试验鉴定规范
上一篇 本文分享国家标准机车车辆动力学性能评定及试验鉴定规范的全文阅读和高清PDF的下载,机车车辆动力学性能评定及试验鉴定规范的编号:GB/T5599-2019。机车车辆动力学性能评定及试验鉴定规范共有27页,发布于2020-07-01
建筑外门窗气密、水密、抗风压性能检测方法
本文分享国家标准建筑外门窗气密、水密、抗风压性能检测方法的全文阅读和高清PDF的下载,建筑外门窗气密、水密、抗风压性能检测方法的编号:GB/T7106-2019。建筑外门窗气密、水密、抗风压性能检测方法共有30页,发布于2020-11-01 下一篇
相关推荐