GB/T15387.2-2014

术语数据库开发指南

Guidelinesforthedevelopmentofterminologicaldatabase

本文分享国家标准术语数据库开发指南的全文阅读和高清PDF的下载,术语数据库开发指南的编号:GB/T15387.2-2014。术语数据库开发指南共有15页,发布于2014-11-01
  • 中国标准分类号(CCS)A22
  • 国际标准分类号(ICS)01.020
  • 实施日期2014-11-01
  • 文件格式PDF
  • 文本页数15页
  • 文件大小389.08KB

术语数据库开发指南


国家标准 GB/T15387.2一2014 代替GB/T15387.22001 术语数据库开发指南 Guidelinesforthedevelopmentofterminologieal database 2014-05-06发布 2014-11-01实施 国家质量监督检监检疫总局 发布 国家标准花管理委员会国家标准
GB/T15387.2一2014 目 次 前言 范围 规范性引用文件 术语和定义 术语条目结构 术语库的功能 数据规范化 术语库的扩充 其他要求 附录A(资料性附录)建立术语数据库常用的国家标准和国际标准
GB/T15387.2一2014 前 言 GB/T15387《术语数据库开发》分为两个部分 -第1部分:术语数据库开发文件编制指南; 第2部分;术语数据库开发指南 本部分为GB/T15387的第2部分 -2009给出的规则起草 本部分按照GB/T1.1一 本部分代替GBy/T15387.2一20o1《术语数据库开发指南》. 本部分与GB/T15387.22001相比主要技术变化如下 更新了规范性引用文件 -更新了所有术语的定义; 根据已经发布的相关标准,对引用部分进行了修改; 修改了部分技术内容 本部分由全国术语与语言内容资源标准化技术委员会(sAc/Tc62)提出并归口 本部分起草单位;标准化研究院、厦门鼎标企业管理服务有限公司、公安部第一研究所、北京大 学、北京语言大学,山东交通学院、大百科全书出版社,北京信息科技大学 本部分主要起草人;程永红、张金山,王海涛,张晓宇、陈梨明、苟恩东、王雷、朱晓莉、肖玉敬、周长青 蒋碧蓉、吕学强、田野 本部分所代替标准的历次版本发布情况 -GB/T15387.2一2001
GB/T15387.2一2014 术语数据库开发指南 范围 GB/T15387的本部分规定了术语数据库(简称“术语库”)术语条目的结构、术语库的功能、术语数 据规范化、术语库扩充等内容 本部分适用于术语库的研究、开发、维护及其管理工作 其他涉及术语数据库的工作也可参照 使用 规范性引用文件 下列文件对于本文件的应用是必不可少的 凡是注日期的引用文件,仅注日期的版本适用于本文 件 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 文献著录第1部分;总则 GB/T3792.1 GB/T3860文献主题标引规则 信息技术软件生存周期过程(IsoIEC12207.1995.,.Iso)/IEC12207;1995/Amd. GB/T8566 1:2002、ISO/IEC12207:1995/Amd.2:2004,MOD 文字杀目通用排序规则(nq1so715al183) GB/T13418 建立术语数据库的一般原则与方法 GB/T137252001 GB/T13745学科分类与代码 GB/T15237.1一2000术语工作词汇第1部分;理论与应用 GB/T15387.1一2014术语数据库开发文件编制指南 术语工作计算机应用数据类目(IsO12620;1999,NEQ GB/T167862007 GB/T175322005术语工作计算机应用词汇(Is(1087-2;2000,MoD) 术语和定义 GB/T15237.1一2000,GB/T16786一2007,GB/T17532一2005界定的术语和定义以及下列术语 和定义适用于本文件 3.1 术语 tem 在特定专业领域中一般概念的词语指称 [GB/T15237.12000,定义3.4.3] 3.2 数据库database 按照预定结构组织成的数据集合 [GB/T17532一2005,定义7.5] 3.3 术语数据库 te rminoogiealdatahase 包含术语数据的数据库
GB/T15387.2一2014 [GB/T17532一2005,定义7.6 3.4 数据元dataelement 在一定的上下文中具有不可分割的数据单元 [GB/T17532一2005,定义7.11 3.5 记录reeord 作为一个单位来对待的数据元的集合 [GB/T17532一2005,定义7.9] 3.6 数据字段datafied 为特定的数据元而保存在一个记录中的变长或定长的部分 [GB/T17532一2005,定义7.12] 数据类目 datacategory 数据元类型dataelementtype 关于给定数据字段的类型说明 [GB/T175322005,定义7.1们 3.8 标识符identifier 用于标识或命名某个数据类目的一个或多个字符 [GB/T175322005,定义7.15 3.9 术语条目termmougtealentry 术语数据集合中所包含的与一个概念相关的术语数据 [[GB/T175322005,定义3.22] 术语条目结构 在术语库中,根据不同的使用目的、每个术语条目由描述该术语的一组数据元构成 所有术语条目 中具有相同元属性的数据元形成数据字段 4.1 字段数量 应根据术语库应用的需求确定字段数量,既要按照规范化的要求,最大程度地满足用户需要,又要 避免浪费 4.2字段名称 字段名称应使用易记、易识别的字符串,如拼音或对应的英文单词,或者其简写 示例1 字段名称;序号(xuhao/number) 缩写:xh汉语拼音)或No.(英语 示例2: 字段名称;定义(dingyi/ i/definition
GB/T15387.2一2014 缩写;dy(汉语拼音)或def(英语缩写 4.3字段标识符 字段标识符可使用字母或数字,以字母开头,可使用下划线 字段标识符及其编制原则与方法,应 在提供给用户的文件中注明 4.4字段数据类型 4.4.1字符型 可以是汉字、字母、数字、特殊符号等 术语、定义等应使用字符型字段 4.4.2数字型 可以是整数、小数,正数和负数等 序号等应使用数字型字段 4.4.3日期型 日期型数据字段结构为:CCYYMMDD. 示例:20010515表示2001年5月15日 术语源的生成日期(例如标准发布日期、辞书出版日期等)、术语记录的生成日期等应使用日期型 字段 4.4.4其他 术语数据还可能涉及其他字段数据类型,例如逻辑数据类型等 4.5字段长 术语库应尽可能使用变长字段,使用定长字段时应考虑使用方便及节约存储空间等因素 4.6字段间关系 根据术语数据元之间关系的特点,字段间的关系可以是一对一(1;1、一对多(1;N)或多对多关 系(M:N) 字段的强制级别 4.7 4.7.1设定依据 字段的强制级别,应根据该术语库的使用目的而确定 4.7.2必选字段 当术语数据类目是构成术语条目所必备的最小信息时,使用此类字段 例如,面向概念的术语库中 的“术语”“定义”等;面向翻译的术语库中的“术语”“外文对应词”等 每个术语库都应设立必选字段,且 不允许空缺 4.7.3可选字段 当术语数据类目是构成术语条目所必要的信息时,使用此类字段,但允许空缺 例如,面向翻译的 术语库中的同义词、术语的缩略形式等
GB/T15387.2一2014 4.7.4补充字段 当术语数据类目并非是构成术语条目的必要信息时,使用此类字段 例如,词性语法信息、语境等 4.8字段的可重复性 当属于相同的术语数据类目的术语数据元(如同义词)需要在一个记录中出现几次时,可重复使用 同一字段 4.9字段的组合性 术语库中,任意个数据字段可根据需要进行组合,构成新的条目 4.10相互参照 不同记录之间(如一条术语参照另一条术语,不同的文件之间(如主文件与倒排文件)、不同数据库 之间(如图形数据库与文本数据库之间,不同语种数据库之间)均宜相互关联参见 术语库的功能 5.1用户界面 5.1.1用户界面功能要求 术语库应能提供良好的文字处理环境和友好的用户界面 界面应具备下列功能 5.1.2人机交互功能 使用者通过键盘或其他输人设备向机器输人提问、控制或其他有关信息,机器通过显示屏幕或其他 输出设备给使用者提供解答,提示或其他有关信息 5.1.3选单驱动功能 应根据需要设置系统管理和用户查询使用的不同选单,应设计一个选单系统为用户显示多重选择 根据需要可设计多级选单 示例 -级选单;主功能选择 例如数据输人、数据维护与更新、数据检索、排序和打印等; 二级选单;子功能选择,单项功能中的子项,条件等 例如数据检索功能中的浏览,设定检索式,显示检索结果等 三级选单:需要设计的下一层细化功能选择 5.1.4提示功能 提示的内容主要包括 出错提示:指示错误的性质和类型,以至于如何改正 拒绝接收提示;指示、告警无效或错误的操作 操作步骤提示 5.1.5求助功能 求助功能可使用窗口技术或调用辅助库,辅助屏予以实现,此状态应易于进人和退出,返回原操作 状态 主要包括
GB/T15387.2一2014 正确操作的具体、详细的说明 -有关内容的资料,如出现的代码及其含义说明 -有关屏幕显示内容的解释,参数值的含义与范围,命令或功能选择描述 5.1.6其他功能 为满足用户操作所提供的其他功能,如浏览等 5.2数据检索 5.2.1检索形式 术语库除应能检索单一术语及相应信息(定义,外文对应词等)外,还应根据需要设计下列几种类型 的检索 5.2.2内部属性检索 根据分类语言叙词语言进行检索 分类语言检索得出的是适合某一分类的某一领域内成体系的 全部术语;叙词语言检索出的是某一术语可能涉及的所有术语,包括其他领域内的相关术语 5.2.3外部属性检索 主要包括 按术语源书目编目数据检索出该文献所包含的所有术语; -按源机构(或责任者)检索出该机构所编纂(制定)的所有术语 -按年代检索出术语编纂的年度变化情况 5.2.4组合属性检索 主要包括同属性或不同属性的组合检索 检索技术应满足GB/T13725一2001中8.2的规定 5.3查重与数据校验 应设计查重功能,数据校验功能应按GB/T13725一2001中8.1.2的规定设计 5.4术语库重组与重构 根据需要,设计数据库重组功能,自动的回收已删除记录所占的存储空间,并重新加以利用 必要时,可改变存取控制、硬件配置、数据库分布以及修改数据结构等 恢复、备份和重新启动 5.5 应支持术语库的恢复、备份和重新启动 由于误操作、程序出错或其他意外原因(例如掉电)需要重 新启动时,使用备份 由于人为或意外原因造成术语库的破坏时,应能 a)查明错误的原因; 查明错误的影响 b c)纠正错误; d) 纠正后继续工作 5.6定义默认值 应按照GB/T13725一2001中8.1.3的要求根据需要定义默认值,便于字段内容的自动或半自动生
GB/T15387.2一2014 成与修改 5. 数值处理 应根据需要设计数值处理功能,例如,术语和定义的平均长度,某一长度的术语数量及百分比,年术 语生成量和使用量,某一用户使用术语库的情况、某一机构编纂术语的情况等 5.8排序和打印 数据排序应符合GB/T13418的规定 根据需要设计排序和打印功能以满足下列要求: a 应能生成和打印按概念体系排序的术语词汇或词典; 应能生成和打印按外文字母顺序或汉语拼音排序的英-汉、汉-英对照词汇或词典,或其他外语 与汉语对照词汇或词典; 应能生成和打印同义(近义)词汇或词典; d)应能生成和打印反义词汇或词典; 如果需要,还应能生成语料的有关信息,例如,按术语使用频率排序,按术语与其他术语组配频 率排序等; 其他功能 5.9程序设计语言接口 应能提供某种常用程序设计语言的接口,允许使用该程序设计语言编写自己的应用程序,开发某些 特殊功能 5.10网络支持 应能实现网络查询,数据搜索和数据下载等网络应用的基本功能 5.11其他 其他功能包括: a)数据输人应符合GB/T13725一2001中8.1的规定; b)数据显示应符合GB/T13725一2001中8.3的规定; 数据安全性和保密性应符合GB/T13725一2001中6.1.7和8.6的规定; c d数据传递和数据交换应符合GB/T13725一2001中7.7和第10章的规定 数据规范化 6.1 数据采集 6.1.1采集原则 应从需要和可能两个方面,并根据GB/T13725一2001中7.2.1的规定,确定数据采集的要求 6.1.2采集需求 数据采集需求包括 拟收录术语的范围及总数量(可分期安排) a b)拟使用的语种及使用程度(如是仅收录相应语种的外文对应词,还是也收录该术语的定义、同
GB/T15387.2一2014 义词等其他数据); 拟确定的数据类目 6.1.3数据保障 主要内容包括: a)术语源的类型,例如标准、百科全书、词典、专业文献等; b 术语源的权威性,充足性 c)专家构成,包括专业领域的专家、术语学家、语言学家等, 工作人员水平,包括专业水平,外语水平等 应根据GB/T15387.1一2014中5.14~5.16的规定编写数据加工技术规则 应根据GB/T15387.1一2014中5,18的规定编写数据加工工作规程 应规定数据验收标准和验收方式,包括对各项数据和各加工过程的质量要求、检验方法、依据 和程序等 6.1.4数据的采集方法 确定数据采集的统一格式(采集卡片或工作单),并根据该格式收集、挑选、登录数据 该格式应满 足术语库对数据的要求,并与术语库结构一致 6.2标引 6.2.1分类法 为了便于标引工作和国内外术语数据的交换,应根据所属的学科领域,尽量采用以下通用的分类 法 如 国际标准分类法(ICS); a b)标准文献分类法(cCS) 按GB/T13745所确立的学科分类与代码 6.2.2叙词表 为了表示某一概念主题特性,可使用以下叙词检索语言 如: a)汉语主题词表及与其兼容的有关专业性主题词表 b) 标准文献主题词表(RO0TTHESAURUS). 6.2.3分类标引和叙词标引 标引原则 a)对于通用、基础性术语或选自综合性文献的术语应根据该术语的分类和定义的主题特性进行 标引 b)某些术语条目的分类标引和叙词标引也可以采取与数据源一致的方法,某一术语条目取自某 -术语标准,则该条目的分类标引和叙词标引与该标准一致; 多重标引 某一概念属于若干个专业领域时,或术语库需要同时使用多种分类法和叙词表时, 需重复标引 6.2.4标引规则与标引内容 应符合GB/T3860的规定,分类标引的内容包括分类法的源码、该术语(或数据源)所属专业领域
GB/T15387.2一2014 的分类代码及专业领域名称 示例1:GB/T13745源码)520.4050(分类代码)×××数据库(专业领域名称). 示例2:UDc(源码)681.3.01(分类代码)×××数据处理原理(专业领域名称). 叙词标引的内容包括叙词表的源码,叙词代码及叙词 示例3:IsO-RO0T(源码)MJG.JM(叙词代码)×××数据库(叙词. 应向用户提供所使用的分类法和叙词表以及标引规则说明,必要时,还应提供不同分类法和叙词表 的对照(或转换)说明 6.3代码 术语库中所使用的代码(例如,语种代码、学科代码、源码、责任者机构代码等)应符合相应的国家标 准;如无国家标准可参照时,可自行定义,但应在向用户提供的技术文件中详细说明 必要时,建立辅助 的代码数据库,供用户随时查询 6.4著录 应规定统一的著录项目,规则和格式以及编写著录细则 术语条目著录应符合GB/T3792.1及相关国家标准的规定 术语库的扩充 下述情况可能需要扩充术语库 a)增加新的专业领域; b 增加新语种 增加新的数据类目; 增加新条目 d 增加新的数据类型(如图、公式、特殊符号等) e f 增加新功能 g改变软,硬件配置,变换机型; h数据传递,数据转换等 其他要求 术语库开发要求还包括 建库过程与工作步骤应符合G;B/T13725一2001第7章的规定; b)术语库计算机系统应符合GB/T13725一2001中6.2的规定; 术语库有关的软件开发,应符合GB/T8566的规定; c D 术语库开发过程中需编制有关技术文件,文件内容及编写要求应遵照GB/T15387.1一2014 的规定; 少数民族语言文字的术语库应尽可能利用拉丁文转写,以便于使用 e 建立术语数据库常用的国家标准和国际标准参见附录A
GB/T15387.2一2014 附 录A 资料性附录 建立术语数据库常用的国家标准和国际标准 A.1术语工作 A.1.1国家标准 文献著录第1部分;总则 GB/T3792.1 GB/T3860文献主题标引规则 GB/T4880.2语种名称代码第2部分:3字母代码 术语工作原则与方法 GB/T10112 汉语叙词表编写规则 GB/T13190 文字条目通用排序规则 GB/T13418 信息处理用现代汉语分词规范 GB/T13715 建立术语数据库的一般原则与方法 T GB 13725 GB/T15237.1术语工作词汇第1部分;理论与应用 术语工作辞书编纂基本术语 GB/T15238 术语数据库开发文件编制指南 GB/T15387.1l GB/T15417 文献多语种叙词表编制规则 术语数据库技术评价指南 GB/T15625 GB/T15933辞书编集常用汉语缩略语 辞书编纂符号 GB/T11617 概念与术语的协调 GB/T16785术语工作 计算机应用数据类目 GB/T16786 术语工作 术语工作计算机应用词汇 GB/T17532 术语工作计算机应用机器可读术语交换格式(MARTIF)协商交换 GB/T18155 GB/T20001.1 标准编写规则第1部分:术语 A.1.2国际标准 IsO860术语工作概念和术语的统一 ISO10241标准中的术语条目系列标准 so12200术语中的计算机应用可机读术语转换格式(MARTIF)谈判交换 1sO12620术语、其他语言和内容资源.语言资源用数据目录登记的数据目录和管理规范 A.2字符集 A.2.1 国家标准 GB/T1988信息处理信息交换用七位编码字符集 GB/T2311信息处理七位和八位编码字符集代码扩充技术 GB2312信息交换用汉字编码字符集基本集
GB/T15387.2一2014 GB/T6513文献书目信息交换用数学字符编码字符集 GB/T7589信息交换用汉字编码字符集第二辅助集 GB/T7590信息交换用汉字编码字符集第四辅助集 G;B8045信息处理交换用蒙古文七位和八位编码图形字符集 GB/T8565信息处理(所有部分文本通信用编码字符集 GB/T11383信息处理信息交换用八位代码结构和编制规则 GB12050信息处理信息交换用维吾尔文编码图形字符集 G;B12052信息交换用朝鲜文字编码字符集 GB/T12345信息交换用汉字编码字符集辅助集 信息技术通用多八位编码字符集(Ucs) GB13000 信息交换用汉字编码字符集第三辅助集 GB/T13131 信息交换用汉字编码字符集第五辅助集 GB/T13132 GB13134信息交换用钵文编码字符集 书目信息交换用希腊字母编码字符集 GB/T13141 GB/T13142书目信息交换用拉丁字母代码字符扩充集 国际标准 A.2.2 文献目录信息交换用斯拉夫字母编码字符集的扩充 ISO5427 5so6438文献文献目录信息交换用非洲字母编码字符集 Iso6630文献目录的管理用字符集 Iso6861信息和文献目录信息交换用格拉哥里(Glagolitie)字母编码字符集 Iso/IEc8859信息技术8位单字节编码图形字符集(系列标准) IS08957信息和文献目录信息交换用希伯来字母编码字符集 A.3代码与数据元的表示 A.3.1国家标准 GB/T2659世界各国和地区名称代码 GB/T3304各民族名称的罗马字母拼写法和代码 GB/T3469信息资源的内容形式和媒体类型标识 GB/T488o(所有部分语种名称代码 GB/T4881语种代码 GB/T7156文献保密等级代码与标识 GB/T7408数据元和交换格式信息交换日期和时间表示法 GB/T13745学科分类代码 A.3.2国际标准 1sO6093信息处理信息交换用字符串的数值表示 ISO/IEC6523信息技术组织和组织各部分标识用的结构(系列标准 IsO/IEC7064信息技术安全技术校验字符系统 10
GB/T15387.2一2014 A.4字符转写 1sO9信息和文献从西里尔字符到拉丁字符的译音斯拉夫语和非斯拉夫语 1sO233信息和文献从阿拉伯字母到拉丁字母的译音 IsO259信息和文献从希伯来字母到拉丁字母的译音 1SO843信息和文献希腊字符对拉丁字符的转换 ISsG3602文献日文的罗马字体(假名手写体) ISO7098信息和文献汉语拉丁化 IsO9984信息和文献从乔治亚字符到拉丁字符的译音 ISO9985信息和文献从亚美尼亚字符到拉丁字符的译音 A.5系统开发 A.5.1国家标准 (GB/T1526信息处理数据流程图,程序流程图、系统流程图、程序网络图和系统资源图的文件 编制符号及约定 GB/T8566信息技术软件生存周期过程 GB/T8567计算机软件文档编制规范 GB/T9385计算机软件需求规格说明 GB/T9386计算机软件测试文件编制规范 GB/T12504计算机软件质量保证计划规范 GB/T15205计算机软件配置管理计划规范 A.5.2国际标准 ISso/IEC-6592信息技术计算机应用系统文件导则 A.6其他相关标准 国家标准 A.6.1 GB/T5271数据处理词汇(部分 信息处理系统开放系统互连基本参考模型(第2部分和第4部分) GB/T9387 信息处理文本和办公系统标准通用置标语言(sGML GB/T14814 A.6.2国际标准 Iso/1Ec8613信息技术开放文件体系结构(oDA)和交换格式(系列标准 信息技术计算机图形存储和传送图片描述信息的元文卷(系列标准》 ISO/IEC8632 Iso/IEC9066信息处理系统文本通信可靠传送(系列标准 so/IEC9072信息处理系统文本通信远距离操作(系列标准》 ISP/IECTR9294信息技术软件管理守则 Iso/IEC9592信息技术计算机图形和图像处理程序员分级交互图形系统(PHIGS)(系列标 准 11
GB/T15387.2一2014 ISO/IEC9593信息处理系统计算机图形程序员分级交互图形系统(PHIGS)语言联编系列 标准 ISO9636信息处理系统计算机制图系列标准 ISO9660信息处理信息交换用CD-ROM的卷和文件结构 ISO/IEC10021信息技术消息处理系统(MHS)(系列标准 信息技术信息资源字典系统(IRDs)框架 ISO/IECl10027 IsO/IECTR10032数据管理参考模型 信息技术文本和办公系统文件归档和检索(FR(系列标雅 ISO/IEC10166 12

术语数据库开发指南GB/T15387.2-2014

一、定义

术语数据库是指对某一个领域内使用的术语及其定义进行系统化收集管理的数据库。它是保证该领域内术语使用规范性和信息共享的基础。

二、分类

根据收集的术语内容不同,术语数据库可以分为专业术语数据库和通用术语数据库两种类型。

  • 专业术语数据库:收录某个专业领域内相关的术语及其定义,例如医学术语数据库、计算机术语数据库等。
  • 通用术语数据库:收录通用术语及其定义,例如汉语词汇大全、英语词汇大全等。

三、设计原则

术语数据库的设计应该遵循以下原则:

  • 准确性:术语及其定义必须准确无误。
  • 统一性:术语命名和定义应该统一,避免重复、混淆。
  • 规范性:术语的标准化是保证信息共享的前提。
  • 易用性:术语数据库的检索功能应该便于使用。

四、开发流程

术语数据库的开发一般包括以下步骤:

  1. 需求分析:明确术语分类、收集标准和检索方式等要求。
  2. 设计数据库结构:设计数据库表、字段和关系,并进行逻辑分析。
  3. 制定收录标准:确定收录标准,包括术语命名规范、定义格式等。
  4. 数据采集:对各种资源进行采集,如书籍、论文、网页等。
  5. 数据录入:将采集到的术语及其定义录入数据库中。
  6. 数据清洗:对录入的数据进行去重、检查、整理。
  7. 数据维护:对数据库进行更新、维护、备份等操作。

和术语数据库开发指南类似的标准

增强材料术语及定义

经济类型分类与代码

术语数据库开发文件编制指南
上一篇 本文分享国家标准术语数据库开发文件编制指南的全文阅读和高清PDF的下载,术语数据库开发文件编制指南的编号:GB/T15387.1-2014。术语数据库开发文件编制指南共有12页,发布于2014-11-01
科技报告编号规则
本文分享国家标准科技报告编号规则的全文阅读和高清PDF的下载,科技报告编号规则的编号:GB/T15416-2014。科技报告编号规则共有11页,发布于2014-11-01 下一篇
相关推荐