国家标准 GB/T70272002 代替GB027 -1986 信息分类和编码的基本原则与方法 Basicprinciplesandmethodsforinformationm dlassifyingandeoding 2002-07-18发布 2002-12-01实施中华民共，和国发布国家质量监昏检验检疫总篇国家标准
GB/T70272002 目次前言引言范围规范性引用文件术语和定义信息的分类与编码信息分类 4.l 4.2信息编码信息分类的基本原则 5.1科学性 5.2系统性 5.3可扩延性 5.4兼容性 5.5综合实用性信息分类的基本方法概述 6l 6.2线分类法 6.3面分类法 6.4混合分类法信息编码的基本原则唯一性 7.2 合理性可扩充性简明性适用性 7.6规范性信息编码的基本方法 8.1通则 8.2代码类型 8.3代码特征 8.4代码表现形式 10 8.5代码设计代码赋值约定 8.6 11 附录A(资料性附录各种信息分类编码方法的优缺点 12 A.1信息分类方法优缺点 12 各种类型代码编码方法优缺点 12 A.2
GB/T70272002 前言本标准是对GB/T70271986《标准化工作导则信息分类编码的基本原则和方法》的修订在信息编码部分内容上,本标准参考了国际技术报告IsO/IECTR9789;1994(E)《信息技术数据交换用数据元素组织与表示指南编码方法与原理》,采纳了其中比较成熟的相关技术内容本标准代替GB/T7027一1986《标准化工作导则信息分类编码的基本原则和方法》同 GB/T7027一1986相比,本次修订所作的主要修改是修改了标准的名称标准名称改为《信息分类和编码的基本原则与方法》标准的总体编排和结构按GB/T1.1一2000进行了修改,增加了目次,前言、引言和附录A 对原标准的内容进行了相应的增删增补的内容包括:第2章“规范性引用文件”、第3章“术语和定义”和第4章“信息的分类与编码”概述删除的内容是;原标准的第2.4条“代码的校验”的有关算法对原标准的结构进行了调整;原标准的第1.1条“信息分类的基本原则”调整为第5章,原标准的第1.2条“信息分类的基本方法”调整为第6章,原标准的第2.2条“编码的基本原则”调整为第7章，原标准的第2.3条“代码的种类”和第2.5条“代码的类型”与ISO/IECTR9789的相关技术内容经过整理共同构成第8章“信息编码的基本方法”,原标准中分散叙述的各个信息分类和编码方法的优缺点集中汇总调整为“附录A各种信息分类编码方法的优缺点” 对原标准中的代码名称进行了若干项调整;原标准中的“特征组合码”对应于本标准的“并置码”,原标准中的“复合码”对应于本标准的“组合码”,原标准中的“数值化字母顺序码”被本标准的“约定顺序码”所涵盖在信息分类编码标准化领域,本标准应与GB/T20001.3一2001《标准编写规则第3部分:信息分类编码》和GB/T10113《分类编码通用术语》两项标准配套应用本标准的附录A是资料性附录本标准由标准研究中心提出并归口本标准主要起草单位:标准研究中心本标准主要起草人;李小林、冯卫,胡嘉璋 GB/T7027于1986年11月首次发布,本次修订为第一次修订
GB/T7027一2002 引言在通常情况下,人们对信息的理解是;一切有含义的具体或抽象事物或概念的真相及相关陈述,通过数据、消息及其进一步细节表达出来在信息分类编码领域信息的表现形式是数据客观、明确的信息是计算机建立信息系统以及数据在其中进行交换的先决条件在信息系统中,数据是用字符(通常为数字或字母),算术符号以及描述来表示,这些表示形式应该对其所涉及的每一个数据都有一个明确稳定的含义.从而达到处理与交流的目的信息要被不同用户组或应用系统所共享,就必须有一致认可的定义,举例来说,要有概念的语义含义(内涵、概念的全部实例(外延)以及一致认可的表示法对各类信息概念的正确理解需要依赖于信息分类;对各类信息作出一致认可的表示需要依赖于信息编码 N
GB/T70272002 信息分类和编码的基本原则与方法范围本标准规定了信息分类编码的基本原则和方法,适用于各类信息分类编码标准的编制规范性引用文件下列文件中的条款通过本标准的引用而成为本标准的条款凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本凡是不注日期的引用文件,其最新版本适用于本标准 GB/T1988一1998信息技术信息交换用七位编码字符集(eqIsO/IEC646;1991) GB2312一198o信息交换用汉字编码字符集基本集 GB/T2260一2002行政区划代码 GB/T26592000世界各国和地区名称代码(eqvIsO3166-1:1997) GB/T4657一2002中央党政机关、人民团体及其他机构代码 GB/T7408一1994数据元和交换格式信息交换日期和时间表示法(eqvIsO8601:1988) GB/T10113分类编码通用术语 GB11643一1999公民身份号码 GB/T13745一1992学科分类与代码 GB/T14721.1一1993林业资源分类与代码森林类型 GB/T14805一1993用于行政,商业和运输业电子数据交换的应用级语法规则(idt1SO9735: 1988) GB/T17710-1999数据处理校验码系统(dtISO7064:l983) 术语和定义 GB/T10113中确立的术语适用于本标准信息的分类与编码 4.1信息分类信息分类是根据信息内容的属性或特征,将信息按一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序信息分类有两个要素:一是分类对象,二是分类的依据分类对象由若干个被分类的实体组成分类依据取决于分类对象的属性或特征信息内容属性的相同或相异,形成了各种不同的类在信息分类体系中,类可称为类目 4.2信息编码信息编码是将事物或概念(编码对象)赋予具有一定规律、易于计算机和人识别处理的符号,形成代码元素集合代码元素集合中的代码元素就是赋予编码对象的符号,即编码对象的代码值所有类型的信息都能够进行编码.如关于产品、人,国家,货币、程序,文件、部件等各种各样的信息信息编码包含的内容有:数据表达成代码的方法、数据的代码表示形式,代码元素集合的赋值信息编码的主要作用有;标识、分类,参照
GB/T70272002 标识的目的是要把编码对象彼此区分开,在编码对象的集合范围内,编码对象的代码值是其唯一性标志;信息编吗的分类作用实质上是对类进行标识;信息编码的参照作用体现在编码对象的代码值可作为不同应用系统或应用领域之间发生关联的关键字信息分类的基本原则 5.1科学性宜选择事物或概念即分类对象)最稳定的本质属性或特征作为分类的基础和依据 5.2系统性将选定的事物、概念的属性或特征按一定排列顺序予以系统化,并形成一个科学合理的分类体系 5.3可扩延性通常要设置收容类目,以保证增加新的事物或概念时,不打乱已建立的分类体系,同时,还应为下级信息管理系统在本分类体系的基础上进行延拓细化创造条件 5.4兼容性应与相关标准(包括国际标准)协调一致 5.5综合实用性分类要从系统工程角度出发,把局部问题放在系统整体中处理,达到系统最优即在满足系统总任务、总要求的前提下,尽量满足系统内各相关单位的实际需要信息分类的基本方法 6.1概述信息分类的基本方法有三种:线分类法、面分类法、混合分类法其中线分类法又称层级分类法、体系分类法;面分类法又称组配分类法 6.2线分类法 6.2.1方法线分类法是将分类对象(即被划分的事物或概念)按所选定的若干个属性或特征逐次地分成相应的若干个层级的类目,并排成一个有层次的,逐渐展开的分类体系在这个分类体系中,被划分的类目称为上位类,划分出的类目称为下位类,由一个类目直接划分出来的下一级各类目,彼此称为同位类同位类类目之间存在着并列关系,下位类与上位类类目之间存在着隶属关系 6.2.2示例 GB/T14721.1一1993《林业资源分类与代码森林类型)是采用线分类法,并用五位数字代码进行一层级用第一、二位数字码表示森林植被型,第二层级用第表示的.谈标准将森林类里分成三个层级,第- 三位数字表示森林类型组,第三层级用第四,五位数字表示森林类型部分代码表见表1 表1 类型名称码 3000 经济林饮料林 31600 茶叶林 3161 31612 咖啡林 31613 可可林鲜果林 31800 3181l 苹果林 31812 梨树林桃树林 31813 在表1中,经济林相对于饮料林、鲜果林为上位类类目,饮料林、鲜果林相对于经济林为下位类类
GB/T70272002 目,饮料林,鲜果林是同位类类目;同理,饮料林相对于茶叶林,咖啡林、可可林是上位类类目,茶叶林,咖啡林,可可林是饮料林的下位类类目,茶叶林,咖啡林,可可林是同位类类目 6.2.3要求 a)由某一上位类划分出的下位类类目的总范围应与该上位类类目范围相等，当某一个上位类类目划分成若干个下位类类目时,应选择同- b 一种划分基准同位类类目之间不交叉、不重复,并只对应于一个上位类 c d)分类要依次进行,不应有空层或加层 6.3面分类法 6.3.1方法面分类法是将所选定的分类对象的若干属性或特征视为若干个“面”,每个“面”中又可分成彼此独立的若干个类目使用时,可根据需要将这些“面”中的类目组合在一起,形成一个复合类目 6.3.2示例服装的分类可采用面分类法,选服装所用材料、男女式样、服装款式作为三个“面”,每个“面”又可分成若干个类目,见表2 表2 男女式样服装款式材料男式纯棉中山装西服纯毛女式中长纤维猎装连衣裙 ** 使用时,将有关类目组配起来如纯毛男式中山装,中长纤维女式西服等 6.3.3要求 a根据需要选择分类对象本质的属性或特征作为分类对象的各个“面” bb 不同“面”内的类目不应相互交叉,也不能重复出现; e)每个“面”有严格的固定位置 “面”的选择以及位置的确定,根据实际需要而定 d 6.4混合分类法混合分类法是将线分类法和面分类法组合使用以其中一种分类法为主,另一种做补充的信息分类方法信息编码的基本原则 7.1唯一性在一个分类编码标准中,每一个编码对象仅应有一个代码，一个代码只唯一表示一个编码对象 7.2合理性代码结构应与分类体系相适应 7.3可扩充性代码应留有适当的后备容量,以便适应不断扩充的需要 7.4简明性代码结构应尽量简单,长度尽量短,以便节省机器存储空间和减少代码的差错率 7.5适用性代码应尽可能反映编码对象的特点,适用于不同的相关应用领域,支持系统集成 7.6规范性
GB/T70272002 在一个信息分类编码标准中,代码的类型代码的结构以及代码的编写格式应当统一信息编码的基本方法 8.1通则编码方法应以预定的应用需求和编码对象的性质为基础,选择适当的代码结构在决定代码结构的过程中,既要考虑各种代码的编码规则,又要考虑各种代码的优缺点(参见附录A),还要分析代码的一般性特征,选取合适的代码表现形式,研究代码设计所涉及的各种因素,避免潜在的不良后果 8.2代码类型图1根据代码的含义性(参见8.3.2条)给出了各种常用代码的类型代码无含义代码有含义代码顺序码无序码码系 6 " 码图1 8.2.1顺序码 8.2.1.1规则从一个有序的字符集合中顺序地取出字符分配给各个编码对象这些字符通常是自然数的整数如;以“1”打头;也可以是字母字符,如;AAA,AAB,AAC, 8.2.1.2应用顺序码一般作为以标识或参照为目的的独立代码来使用,或者作为复合代码的一部分来使用,后一种情况经常附加着分类代码在码位固定的数字字段中,应使用零填满字段的位数直到满足码位的要求示例:在3位数字字段中,数字1编码为001,而数字15编码为015 8.21.3类型顺序码有三种类型;递增顺序码、分组顺序码,约定顺序码 8.21.3.1递增顺序码编码对象被赋了的代码值,可由预定数字递增决定例如,预定数字可以是1(纯递增型),或者是10 只有10的倍数可以赋值),或者是其他数字(如;偶数情况下的2),等等用这种方法,代码值不带有任何含义相类似的编码对象的代码值不作分组为了以后原始代码集的修改,可能需要使用中间的代码值,这些中间代码值的赋值根据不必按1 递增示例;GB/T26592000《世界各国和地区名称代码》)中,部分国家和地区的数字代码(见表3).
GB/T70272002 表3 国家和地区名称代码阿富汁汗AFGHANISTAN 004 阿尔巴尼亚ALBANA 008 阿尔及利亚ALGERI1A 012 美属萨摩亚AMERICANSAMOA 016 安道尔ANDORRA 02o 安哥拉ANGOL.A 024 该标准中,后来增加的地区名称南极洲(ANTARCTICA)使用了中间代码值010,属于对原始代码集的增补 8.2.1.3.2系列顺序码这种代码首先要确定编码对象的类别,按各个类别确定它们的代码取值范围,然后在各类别代码取值范围内对编码对象顺序地赋予代码值示例:GB/T4657一2002《中央党政机关、人民团体及其他机构代码》,就采用了三位数字的系列顺序码 100199表示全国人大,全国政协、高检、高法机构 200299表示中央直属机关及直属事业单位 300399表示国务院各部委 700799表示全国性人民团体、民主党派机关系列顺序码只有在类别稳定并且每一具体编码对象在目前或可预见的将来不可能属于不同类别的条件下才能使用 8.2.1.3.3约定顺序码约定顺序码不是一种纯顺序码这种代码只能在全部编码对象都预先知道并且编码对象集合将不会扩展的条件下才能顺利使用在赋予代码值之前,编码对象应按某些特性进行排列,例如:依名称的字母顺序排序,按(事件、活动的)年代顺序排序等这样得到的顺序再用代码值表达,而这些代码值本身也应是从有序的列表中顺序选出的示例;按英文字母顺序排列的数值化字母顺序码(见表4) 表4 代名称码 01 Ale率果 02 s(香蕉 Bananas 03 Cheries(樱桃 04 Dates( , 8.2.2无序码 8.2.2.1规则无序码是将无序的自然数或字母赋予编码对象此种代码无任何编写规律,是靠机器的随机程序编写的 8.2.2.2应用无序码既可用作编码对象的自身标识,又可作为复合代码的组成部分(复合代码的其他部分则以其他编码规则为基础).
GB/T7027一2002 8.2.3缩写码 8.2.3.1规则这种代码的本质特性是依据统一的方法缩写编码对象的名称,由取自编码对象名称中的一个或多个字符赋值成编码表示 823.2应用缩写码能有效用于那些相当稳定的、并且编码对象的名称在用户环境中已是人所共知的有限标识代码集示例:GB/T2659一2000(《世界各国和地区名称代码》中,部分国家的字母代码见表5 表5 国家名称代码奥地利AUSTRIA AT 加拿大CANADA CHINA 法国FRANCE FR us 美国UNITEDSTATEs 8.2.4层次码 8.2.4.1规则层次码以编码对象集合中的层级分类为基础,将编码对象编码成为连续且递增的组(类). 位于较高层级上的每一个组(类)都包含并且只能包含它下面较低层级全部的组(类) 这种代码类型以每个层级上编码对象特性之间的差异为编码基础每个层级上特性必须互不相容细分至较低层级的层次码实际上是较高层级代码段和较低层级代码段的复合代码层次码的一般结构如图2所示: 第三层代码 -第二层代码 -第一层代码图2 8.2.42应用层次码通常用于分类的目的层级数目的建立依赖于信息管理的需求层次码较少用于标识和参照的目的层次码非常适合于诸如统计目的、报告货物运转、基于学科的出版分类等情况在实践中既有固定格式,也有可变格式固定格式比可变格式更容易处理一些示例1;固定递增格式 GB/T13745-1992(学科分类与代码》中学科代码格式由7个数字位组成下 -级学科相对于上一级学科按固定的2位代码段递增,其部分代码见表6. 表6 学科名称代码 l10 数学 11014 数理逻辑与数学基础 1101410 演绎逻辑学示例2;可变递增格式在通用十进制分类法(UDC)中,字符的数目和编码表达式的分段是可变的、其细节描述的程度能被延伸到想要达到的层级 “建筑学的屋顶坡度”这样一个概念可被编码表达式表达成624.024.13
GB/T70272002 624 土木工程建筑物成分 624.02 624.024 屋顶,屋顶用材料 624.024.13 屋顶坡度 8.2.5矩阵码 8.25.1规则矩阵码以复式记录表的实体为基础赋予这个表中行和列的值用于构成表内相关坐标上编码对象的代码表示这种方法的目的是对矩阵表中的编码对象赋予有含义的代码值,这些编码对象在不同的组合中具有若干共同特性 8.2.5.2应用矩阵码可有效地用于标识那些具有良好结构和稳定特性的编码对象示例:GB2312一1980《信息交换用汉字编码字符集基本集》根据矩阵码编码方法对汉字信息交换用的基本图形字符编制了区位码,其中区号为矩阵表中的行号,位号为矩阵表中的列号汉字字符 “啊”用区位码16-01编码表示,在这里,l6为区号,01为位号;同理,拉丁字符“A”用区位码0313编码表示,图形字符“”用区位码01一13编码表示 8.2.6并置码 8.2.6.1规则并置码是由一些代码段组成的复合代码,这些代码段提供了描绘编码对象的特性.这些特性是相互独立的这种方法的编码表达式可以是任意类型(顺序码,缩写码、无序码)的组合 8.2.6.2应用并置码非常适用于那些具有若干共同特性的商品分类应用代码段是要作出描绘性编码(何种产品、何时何地生产)或者是用作开发制造业方面的成组技术方法示例轨道编码 ×××X ×X 等级形状尺寸等级、形状和尺寸这三个特性在很大程度上是相互独立的 8.2.7组合码 8.2.7.1规则组合码也是由一些代码段组成的复合代码,这些代码段提供了编码对象的不同特性与并置码不同的是,这些特性相互依赖并且通常具有层次关联 8.2.7.2应用组合码经常被用于标识目的.以覆盖宽泛的应用领域示例:GB11643一1999《公民身份号码》公民身份号码含义 ×××××××××××××××××× 公民身份号码的18位组合码结构 ×××××× 行政区划代码 ×××××××X 出生日期 ××x 顺序号,其中奇数表示男性,偶数表示女性校验码整个18位组合码共分4段,前两个代码段标识了编码对象(公民)的空间和时间特性,第三个代码段则依赖于前两个代码段所限定的范围,第四个代码段依赖于前三个代码段赋值后的校验计算结果 8.3代码特征
GB/T7027一2002 8.3.1概述代码的一般性特征除第了章"信息编吗的基本原则"所论述的唯一性.合课性,可扩允性,简明性.运用性以外,还包括稳定性、含义性、代码长度,结构与格式,容量等特征 8.3.2稳定性当代码为设计的变化留有余地而不必修改其结构时.代码就是稳定的用户需要稳定的代码代码值的赋值必须考虑相对于代码值自身以及代码结构作偶然修改的最小可能性当某个代码元素从代码元素集合中撤销时,原编码表示不应再为其他编码对象所用 8.3.3含义性如果代码的编码表达式直接(例如;缩写码)表达或间接根据一个或多个表(例如;层次码、矩阵码、并置码)来表达它们的含意,则代码就被认为是有含义的在使用编码表达式时,有含义也与根据编码对象特性进行的归类和分组(类)有关在以分类为目的情况下,有含义是尤其重要的对于以标识和参照为目的者,宜用无含义代码 8.3.4代码长度代码长度是指编码表达式位置的数目代码长度可被规定成固定的或可变的字符数目注:可变的代码长度有两条主要缺欠:其一是当存储代码值的数据字段所容纳的字符数比使用的代码值字符数多时,字符数目的不可预知会产生排列对齐问题其二是由于字符冗余或增加引起的错误不能被人工或机器容易地检测出来因此,代码长度宜使用固定的字符数目 8.3.5结构与格式代码结构定义包括;构成编码表达式的位置或位置组的数目,以及每一位置上有效字符的集合其中空格可以作为结构的组成部分检查语法错误的输人确认主要与结构相关就各个位置组来说编码表达式的每个位置都可以这样定义其格式;字母的、数字的、字母数字的、特殊字符的 8.3.6容量容量是指编码表达式的数量,它是在选定的基数范围内,由每个位置上全部可用的字符组合构成的示例:(C表示容量 a)对于位置数目是1,基数是2,使用二进制字符 C=2 bb 对于位置数目是3,基数是10,使用十进制数字字符 C=1000 对于位置数目是2,基数是26,使用字母字符 c C=676 理论容量以全部字符的所有组合都得到使用为前提.由于实践或理论原因造成的初始限制,减少了这些理论容量实际上,容量的抉择是在以下各因素之间折衷的结果对扩充系统的预见; a 组成代码表达式的字符数目的限制 b 书写和使用代码表达式的容易程度 ce d 系统的期望使用寿命; 操作代价,等等 e 8.4代码表现形式 8.4.1数字格式代码数字格式代码是用一个或若干个阿拉伯数字表示编码对象的代码,简称为数字码数字码的特点是结构简单,使用方便,排序容易并且易于国内、外推广,但是对编码对象特征描述不直观在数字格式代码值赋值时,不宜使用全部是0或全部是9的值,如“o000”和“9999” 这些值应当保留用于特殊情形
GB/T70272002 8.4.2字母格式代码字母格式代码是用一个或多个拉丁字母表示编码对象的代码,简称为字母码字母码的特点其一是容量大,如用二位拉丁字母代码最多可表示676(28)个类目,而二位数字代码最多只可表示101o>个类目.其二是字母码有时可提供便于人们识别的信息如在GB/T220中， BJ表示北京;TJ表示天津字母码便于人们记忆-但不便于机器处理信息特别是当编码对象数目较多或添加、更改频繁以及编码对象名称较长时,常常会出现重复和冲突的现象因此,字母码常用于编码对象较少的情况为字母格式代码赋值时,应注意 a)无含义字母码应当避免采用那些在发音时可能引起混淆的字符(听觉上的相似性);例如:字母 B,D.,G,P和T,或者字母M和N b在字母代码中,或者在代码的一部分有3个或更多的连续字母字符时,要避免使用元音字母 A,E,IO和U),以免无意间形成易被误认的简单语言单词在同一编码方案中,字母代码宜使用单一形式的大写或小写字母,而不宜大小写字母混用 c 8.4.3混合格式代码混合格式代码是由数字、字母组成的代码,或由数字、字母、特殊字符组成的代码可以简称为字母数字码或数字字母码混合格式代码的特点是基本兼有了数字型代码、字母型代码的优点,结构严密,具有良好的直观性，同时又有使用上的习惯但是,由于代码组成格式复杂也带来了一定的缺点,即计算机输人不方便,录人效率低,错误率增高,不便于机器处理 8.4.4特殊字符特殊字符(如:&.,@,)可以用于数字与字母混合格式代码中以补充字母系统的字符;用这种方法,容量得到增加,并且可以为特殊处理保留语种字符的有效字符在代码结构中应使用常用的字符,并且应避免那些非字母或数字的字符(例如;连字符、句号,间隔、星号,等等),只是在分隔代码段时,才可以使用连字符或空格用于规定代码系统的词表应当只含有尽可能少的字符种类下列字符应避免使用: 不属于GB/T1988七位编码字符集的字符 a b)可能引起曲解或不正确转录的字符例如;应注意排除空格,“123ABC”应写成“123ABC",因为空格没有含义,并且空格在转录时可能被忽略对于数据交换来说,在语法结构中可被当作服务性字符使用的那些字符例如:冒号(:),加号十),问号(?),星号关,撇号(')在GB/T14805标准中是被当作服务字符使用的,应避免使用这类字符 8.4.5代码格式规则代码值的格式(或字符结构)最好采用全数字或全字母格式只有在特殊位置上例如;首位或末位)始终要用字母或数字格式时,才能使用字母数字混合格式,而随机的字母数字格式则不宜使用在不存在助记特性的情况下,人工记录数字格式的代码值通常比记录字母格式或混合格式的代码值要更加可靠些受控的混合格式代码值(例如:在确定的位置上永远采用字母格式或者永远采用数字格式)比随机的混合格式代码值更加可靠些例如:AA999(前两位字符永远采用字母格式,后三位字符永远采用数字格式)就比字母或数字有可能出现在任意位置上的情形具有更加可靠的格式在混合格式中,同类的字符类型应当作分组处理并且不要分散于代码表达式的各个位置上例如: 在三位字符代码中," ,“字母字母一数字”的结构如:HW5)就比“字母一数字字母”这样的顺序如 H5w)所发生错误的要少很多当需要使用字母数字混合代码结构时,应当避免那些容易理解成其他字符或者容易同其他字符相
GB/T7027一2002 混淆的字符例如;字母1与数字1,字母O与数字0,字母Z与数字2、字母G与数字6,字母B和s与数字8,以及字母0与Q 为了避免对照排序时互不相容,任何特定字符的位置上应当要么只用字母,要么只用数字 8.4.6编码表达式的显示对于手工处理,宜优先采用人工易读的编码显示方式在这种情况下,代码值将以拉丁字母和阿拉伯数字方式出现这种表达方式也常用于计算机输出的纸质文件和表册当中当需要采用机械或电子方式进行处理时,应采用易于自动识别的编码显示方式其中,以若干个条排列编码成符号表示的条码编码方法得到了广泛使用此外,其他自动化标识方法,如光学字符识读 (OCR)设备或磁条、集成电路的智能卡等在实践中也已得到了使用 8.5代码设计 8.5.1概述代码设计过程中,应注意那些常常可能造成彼此相互冲突的要求例如;如果一种代码结构对于未来的需要有充足的扩充能力,那么它就会在某种程度上牺牲其简明性因此,每个方面的问题都必须考虑周全,制定折衷办法,以达到相关应用领域获得最佳效率代码分组和分段应当根据用户对信息的需求作格式安排,要考虑在准确性和完备性方面进行查看的最大限度宽松性.以及数据内容的紧凑性 8.5.2现有代码的使用宜使用现有的代码如果不是绝对需要,就不必设计新的代码 8.5.3代码含义在使用恰当时,有含义代码为附加信息提供了一个基础,并且在人工使用方面比无含义代码更加容易、更为可靠些然而,在有含义代码的开发过程中应当谨慎,以确保有含义的部分与稳定的实体相关联例如,当地点的改变将会引起代码的改变时,某个组织的有含义代码就不宜与地点相关联无含义代码宜用于大多数标识目的以及所有的参照目的 8.5.4代码字符数目的确定代码值应当由最少的字符数目组成以节省空间并减少数据通信时间,但同时还应根据代码用户的能力进行优化固定长度代码(例如:只采用三位字符,而不是一位、二位和三位字符同时混用)在使用上比可变长度代码更加可靠且更加容易为了记录的可靠性,多于4位字母字符或5位数字字符的代码值宜分解成较小的代码段,例如 ×××X-×××-××××就比××××××××××更为可靠在不必对已有代码元素重新编码或者扩大编码表达式格式的前提下,代码结构应当能为代码集合增添新的代码元素提供支持 8.5.5代码段的分隔如果位置或代码段是完全相互独立并且能够独自成立即:对于它们的含义来说,不需要其他的代码),代码段应能被连字符(当需要显示时)所隔离 8.5.6代码的位置顺序如果一个编码方案把一个完整实体集分成比较小的分组,那么高阶位置应当是显著的、全面的分类;低阶位置应当最具选择性和差别性(包括后缀) 一个例子就是GB/T7408规定的日期数字表达式 YYYYMMDD) 如果一个复合代码被设计成由两个或更多的独立代码段组成,则出现在高阶位置上特有的代码段应当是基于惯用要求和处理效率来考虑的 8.5.7代码命名代码或其各个所有独立的代码段都必须有自己的标准化的.唯- 一的、与应用标志相适应的命名 8.5.8代码容量计算 10
GB/T70272002 在计算涵盖全部位置的给定代码容量并且要保持代码唯一性时,应使用下列公式假定使用24个字母字符和10个数值数字,因为要避免使用字母I和0可能引起的混淆) C=2410 式中: 全部可能的有效代码组合数即容量; 代码中字母位置的数目; N 代码中数字位置的数目《在组合的情况下,A十N等于代码的全部位置数目. 注:上面的公式假定给定的位置要么是字母的,要么是数字的,但决不是二者都适用如果特定的位置允许字母字符和数字字符二者都适用,则公式变成为 C=26'1036"或 C'=24l10N34"(当字母1和O被禁用时式中;M为代码中字母字符和数字字符二者都适用的位置数目,A+N十M等于代码的全部位置数目在计算容量时,不应考虑校验码所占的位置 8.5.9校验码为了避免抄录和键人过程中的错误,当代码较长时,应考虑设置校验码校验码由构成编码表达式的字符经过一定的算术运算而得到它可以检测出以下类型的错误单替代错误:一个单一字符被另一个单一字符替换 a b)单一对换错误;单个字符的对换,相邻的(d=1)两个字符或相隔一个字符的(d=2)两个字符之间的互换错误; 双替代错误:;在同一个编码表达式中,两个分隔的单一字符的替换错误; c d 位移错误;编码表达式整体向左或向右的位移 e)其他错误参见GB/T1771o 8.6代码赋值约定 8.6.1赋码规则赋码规则应叙述清晰并且具有一致的适用性例如;一个助记缩写词可以通过从编码条目的名称中删除全部元音而形成,象“日期(date)”编码为DT或“绿色(green)”编码为GRN;也可以用构成元素的各个单词的第一个字母编码而成,象“文件结束(EndofFile)”编码为:OF 8.6.2定量数据数量或货币数额不宜赋码例如;当数量199能被编码为A,100~199被编码为B时,就会失去统计价值,因为一旦数字被编码,就不能得到真实的数字了分类可以放在数据处理靠后的阶段进行,而不是放在输人数据预先编码的过程中进行 8.6.3“自然”数据的使用假如具体的数据以其自然形态(例如:具体的百分比数量)就已经是适当并且够用的话,那么就不宜再为其开发代码结构 8.6.4收容类的使用应注意辨别代码的类别是“混杂”类或是“其他”类不宜在这样的类别中放置那些实际上是属于另外一个具体类别的实体代码元素 11
GB/T7027一2002 A 录附资料性附录各种信息分类编码方法的优缺点 A.1信息分类方法优缺点信息分类方法优缺点见表A.1 表A.1 点点分类方法优缺层次性好,能较好地反映类目之间的逻辑结构弹性较差,分类结构一经确定，不易关系; 改动; 线分类法实用方便,既符合手工处理信息的传统习 -效率较低,当分类层次较多时,代码位数较惯,又便于电子计算机处理信息长,影响数据处理的速度具有较大的弹性，一个“面”内类目的改变，不会影响其他的“面" 不能充分利用容量,可组配的类目很多,但面分类法 -适应性强,可根据需要组成任何类目,同时有时实际应用的类目不多; 也便于机器处理信息难于手工处理信息易于添加和修改类目各种类型代码编码方法优缺点 2 A. 各种类型代码编码方法优缺点见表A.2 表A. .2 优点点代码类型缺能快速赋予代码值; 编码对象的分类或分组不能由编码表达式递增顺序码简明; 来决定; 编码表达式容易确认不能充分利用最大容量能快速赋予代码值; 系列顺序码简明; 不能充分利用最大容量编码表达式容易确认能快速赋子代码值不能充分利用最大容量; 约定顺序码简明; 不能适应于将来可能的进一步扩展编码表达式容易确认容易并且快速赋予代码值,或许还是自动编码对象的分类或分组不能依据编码表达化的; 式显示出来; 无序码如果要排除号码的复制,需要用某种预先设简明; 可利用最大容量定的表或运算法则产生随机数编码依赖编码对象的初始表达(语言、度量用户容易记忆代码值,从而避免频繁查阅代系统,等等)方法; 缩写码码表; 在每次增加代码值之后,如果不重新检查全可以压缩冗长的数据长度部的代码值,则缩写过程的结果就不能保证代码值的唯一性 12
GB/T70272002 表A.2续缺代码类型优点点限制了理论容量的利用因精密原则而缺乏弹性; 易于编码对象的分类或分组需要随代码层级的顺序从最高层级向下赋层次码能在较高的合计层级上汇总; 予代码值或者解释代码值; 代码值可以解释 -复杂性,它取决于层级数目,并导致要重新介绍已经应用于较高层级上的特性需要预先建立表，覆盖编码对象的全部代码值可以解释特性; 矩阵码代码值容易赋予难于适应新的要求,诸如新的或更改的特性、以及新的组合等等以代码值中表现出一个或多个特性为基础可以对编码对象容易地进行分组; -因需要含有大量的特性可导致每个代码值容量与每个特性可能带有的值的数量相有许多字符; 并置码难于适应新特性的要求联系; 代码值可以解释代码值容易狱予有助于配置和维护代码值; 组合码理论容量不能充分利用能够在相当程度上解释代码值; 有助于确认代码值

声明： 本站所有资源均来源于互联网，本站仅作为观摩学习的环境，将不对任何资源负法律责任。如果无意侵犯了您的权利，请及时发送邮件到“abc@gbbz.net”，本站会第一时间进行改正或删除处理，保证您的权利！本站资源仅供学习和参考，请勿用于商业用途，并请于下载后24小时内删除，否则产生的一切后果将由您承担！

GB/T7027-2002

信息分类和编码的基本原则与方法

Basicprinciplesandmethodsforinformationclassifyingandcoding

以图片形式预览信息分类和编码的基本原则与方法

信息分类和编码的基本原则与方法

相关推荐

信息分类和编码的基本原则与方法

仓储服务质量要求

实验室质量控制规范动物检疫

实验室质量控制规范植物检疫

实验室质量控制规范食品分子生物学检测

标签