GB/T36338-2018

信息处理用藏文文献文本信息标记规范

SpecificationonTibetanliteraturetextmarkupforinformationprocessing

本文分享国家标准信息处理用藏文文献文本信息标记规范的全文阅读和高清PDF的下载,信息处理用藏文文献文本信息标记规范的编号:GB/T36338-2018。信息处理用藏文文献文本信息标记规范共有22页,发布于2019-01-01
  • 中国标准分类号(CCS)L70
  • 国际标准分类号(ICS)35.240.01
  • 实施日期2019-01-01
  • 文件格式PDF
  • 文本页数22页
  • 文件大小1.77M

以图片形式预览信息处理用藏文文献文本信息标记规范

信息处理用藏文文献文本信息标记规范


国家标准 GB/T36338一2018 信息处理用藏文文献文本信息标记规范 Speeifieationonibetaliteraturetextmarkupftorinfrmationprossing 2018-06-07发布 2019-01-01实施 国家市场监督管理总局 发布 币国国家标准化管理委员会国家标准
GB/T36338一2018 目 次 前言 范围 2 规范性引用文件 术语和定义 藏文文献的标记框架 藏文文献文本基本属性的标记 藏文文献文本结构信息的标记 藏文文献文本标记规范 附录A(资料性附录》《更敦群培文集)的TEI标记范例
GB/36338一2018 前 言 本标准按照GB/T1.1一2009给出的规则起草 请注意本文件的某些内容可能涉及专利 本文件的发布机构不承担识别这些专利的责任 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口 本标准起草单位:电子技术标准化研究院、西北民族大学、西藏自治区藏语文工作委员会办公 室、西藏大学,青海师范大学、西藏自治区工业与信息化厅、标准化研究院、科学院软件研究所、 青海民族大学、藏学研究中心、民族出版社、北京北大方正电子有限公司、潍坊北大青鸟华光照排有 限公司 本标准主要起草人:多拉、扎西加、熊涛尼玛才让、杨本加,多杰卓玛、索南才让、冷本扎西、刘汇丹、 仁青卓么、项见措、格桑多吉,黄鹤鸣、才让加
GB/36338一2018 信息处理用藏文文献文本信息标记规范 范围 本标准规定了藏文数字文献的文本信息标记. 本标准适用于藏文语料库建设及藏文各种文献的数字化标记 规范性引用文件 下列文件对于本文件的应用是必不可少的 凡是注日期的引用文件,仅注日期的版本适用于本文 件 凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件 GB/T14814一1993信息处理文本和办公系统标准通用置标语言(sGML 术语和定义 下列术语和定义适用于本文件 3.1 藏文文献Tibetanliterature 由藏文(包括古藏文及梵文转写)构成的各种文献 3.2 文本置标语言textencodinginitiative;IE1 -种定义电子文档结构和描述其内容的国际标准语言 注1:目前在信息处理界电子图书馆相关计划中普遍使用的置标语言 适用于对电子形式的全文的编码和描述 注2;TEI元数据标准同时也规定了可供数据交换的标准编码格式,采用sGiM1.文件格式 3.3 班智达Bantita 梵语,意为学识渊博的学者,专指参与经典翻译的印度等地学者 注:班智达和译师分为藏文文献厘定前与厘定后两种 藏文文献的标记框架 TEI适用于对电子形式的全文的编码和描述 TEI元数据标准同时也规定了可供数据交换的标准 编码格式,使用GB/T14814一1993规定的sGMI作为其编码语言 TEI格式具有很大限度的灵活 性、综合性、,可扩展性,能支持对各种类型或特征的文档进行编码 TEI元数据标记可以对语料库的文 本属性信息与文本结构信息进行规范的标记 TEI文档,也是一个sGML.文档,一般有四个部分teHleader(题名),front(文本前的信息),body 正文),back(文本后的信息) TeiHeader:对电子文本对象的描述 front:对正文前的信息描述,包含 位于文件最前端的项目标头、题名页,前言、献词等 ) body:对正文信息的描述,单篇文章的整体部 分,不包含正文前及正文后信息 back;对正文后的信息描述,包含附录等 TEI标头的第一层可以包含(ileDesc》文档描述、 odingDesc》编码描述、(profileDesc)文件背 enco
GB/T36338一2018 景描述,〈revisionDesc>》修订描述四个区段,其中只有第一个[(fileDesc>(文档描述)]是必要元素 fleDese)可以包含七个子元素(titlestmt>(题名描述).(editionstmt>(版本描述),(extent>(档案 大小).出版描述).〈seriesStmt>从编描述)、(notesStmt>附注描述》及 ourceDee>(来源描述) 其中,只有《tilstmr>(题名描述.(pwbieationsimt>(出版描述及 《Sou rrceDesc>(来源描述)是必要元素 因此最小的TEI标头只包含中 依次包含(titleStmt)、('publieationStmt)和(soureeDesc) 藏文TEI标记范例参见附录A 根据以上规范,te标记的整体架构可以表示如下 tei teiheader fileDesc)文档描述修订描述(,文本作者可以是个人或机构,如果无作者此项可以不填 新暂"555即gFaRs" “5a5可缸raa”都,可以标记为《ahor 示例: 或 刮ata/adtan 新不一暂虾我y只吓何ra对E/aunan或.amhan,5节 5.3来源属性信息 文本来源信息用TEI标记为(source)(/source),来源可以是报纸、期刊、书籍等,若来源不详此 栏可以不填 .ae 示例 A悄--丐爸领朝新网”-萨”等可以标记" 《source
GB/36338一2018 e,f"5/soure),source 可N=可V/esyle.威 者可以标记为(style,可",年代可以是出版日期,创作时间 -"碗周Ii5"等""1敞弯天去",可以标记为(dae>2a.1/do.(dae19/dae. 示例" 5.9译者属性信息 文本译者信息用TE标记为(translator)(/translator) “叮香g女",可以标记为trmslator;四"弯" 示例:" translator) 5.10编者属性信息 文本编信息用TE标记为sdior ,版本信息可以是不同的版本 示例“守女两","苍5",可以标记为(edion买树/ediion)>.(eion》爸E网/edition
GB/T36338一2018 5.12地方属性信息 文本地方信息用TEI标记为(pwbliace),语言信息是指文献的语言文种 河",可以标记为(a眼uee千叫河Aan 示例 nguage 5.15国家属性信息 文本的国家信息用TEI标记为(nationality),指不同国家的信息 “零一诃",可以标记为(mtionalty)零一新 示例 /nationality 5.16作者性别属性信息 文本作者的信息用TEI标记为(auhor)GB/36338一2018 学术专著 文本前的信息 序言 正文后记 文本后的信息 章l 章n 节1 节n 节2 段n 段1 段1 段n 段 段n 段1 段n 句1 句句1句句1句n句1句n句1句n句1句n 句1句n句1句n 图1学术专著的结构树形示例图 树形图上的每一个非终极结点叫做“元素”,一个元素的子结点,叫做这个元素的“内容” 在学术著 作的树形图结构中,“章”是“著作本体”的内容,“节”是“章”的内容,“段”是“节”的内容,“句”是“段”的内 容,“词”是“句”的内容 树形图上的每一个终极结点没有内容,这些没有内容的终极结点,叫做“数据” 此树形图可以用来仿造书籍的传统结构 书籍的传统结构可依照阶层分解为许多单位 普遍来说 TEI文件都符合这个简单的阶层模式 6.2页数,页面与行数标记 页面标记是用来区分或记录藏文典籍类文献即梵夹本的阳页与阴页,用字母A表示阳页,字母B 表示阴页,其标记位置在页码值前,页码用page表示,页码值应是数值,其后标记行数值,行用line表 示,行数值也应是数值,一般梵夹本每页总行数为5或7行 示例:标记举例如下 teiHeader text》 body divl head45a"勺N间GB/T36338一2018 milestoneunit="ine”n= -"h叮*寒5swER5食事天噜可叮s r智4代四i和s你风宵新对新吓g女四R天j对 /nmilestone) /milestone>(nmilestoneunit="page”n="2a" milestoneunit="me"n="2a.1"羔a"'GB/36338一2018 p)内部,而不应在其内部出现p)标记或者是和(p)标记发生交叉 示例:在某个藏语文本第20个段落中出现了4个句子,标记情况如下: text》 body pid=“20" aid=“10”no=“1”》 sid=“1”"y 新忿s派飘四"誓=s利/s)(a) aid=“10”no=“1”y sid=“2” ywF/)() aid=“10”no=“1” =“3”y sid=" s兮s笆金年1葱都会那wa吓劳4太忘旁河希5于新w欢乓5wEN/9/e" aid=“10”no=“l”)》 sid=“4”y 乎"ss郑把5/s>(wpos=“”)(/w) wpos=“n”)/w “n”")/w) p0s "",不/ p0s "”)5'可a(/w p0s ")渴"勾(/ w pos=“n” ",,吓/) wp0s -"";感/ wp0S /titlle>(/a>

GB/T36338一2018 藏文文献文本标记规范 7.1藏文文献文本标记项名称 本规范规定的藏文文献文本标记项分大类39项,小类55项 小类中除作者,译者、厘定审校3项 外,实际小类标记项为51项,如表1所示 表1藏文文献文本标记项及藏汉译名表 序列号大类序 号 标记项 藏文译名 汉文译名 字符长度(字符 开闻 etter 字母序号 20 开Ey letterno 字母数号 20 因x闻 ree 20 - 30 类别 category "s 30 case 粥 河" 文种 20 languages 51 itle 题名 200 马叫" short_name 缩名 100 只志四渐 年代 decade 20 a 50 10 10 place_of_creation 创作地点 矛 11 1 author 作者 此为大类 天活' 12 11-1 ull_name 100 全名 别名 l00 13 头s可 l1-2 another_name 意对洒雪N l4 about_the_author 5000 1-3 作者简介 郑 15 12 译者 此为大类 translator 嘴5曰对 前班智达 16 12-1 tbantita 100 嗡万当s焖还 17 12-2 t_about_the_bantita 前班智达简历 5000 矛受<'刮 18 12-3 前译师 100 t_lotsawa
GB/36338一2018 表1(续 序列号 大类序号 标记项 藏文译名 汉文译名 字符长度(字符 矛受<当sa西雪 19 12-4 5000 前译师简历 taboutthelotsawa T 20 12-5 翻译年代 20 year_o_translationm y 21 12-6 place_of_translation 翻译地点 100 B5 22 transeribedl 12-7 抄录者 50 13 23 可灭勾还5 厘定审校 此为大类 text_determining 喀g列 24 13-1 d_bantita 后班智达 100 嗡弯a河雪 25 13-2 d_about_the_bantita 后班智达简历 5000 矛呀'B 26 13-3 100 后译师 dlotsawa 部受ga沂y 27 13-4 后译师简历 5000 d_about_the_Iotsawa e网5y 28 13-5 审校年代 100 reviseyear 29 13-6 Reviseplace 审校地点 100 aN"" 部 14 30 掘藏师 100 Tibetanpriest 15 T零虾 31 teachorally 耳传 100 "x 32 16 Applicant 请求著述者 100 33 1" 100 资助者 Funders 事新5 5T'囚诵闪 雕版 l00 34 18 Engraving 5R呵 35 19 版种 70 version_specieSs Rj 36 2o 版型 version_of_the_typ6 30 37" 附可 纸张 21 30 paper 对习5y 30 38 22 number_o_sheets 张数 cm 39 规格cm 23 20 format_cm 3s1 行数 40 24 numberofrows 20 25 100 53列 唐卡 41 thang-ga
GB/T36338一2018 表1续 序列号 大类序号 标记项 藏文译名 汉文译名 字符长度(字符 42 20 26 墨 刮 ink 5Ri可v'勺R"旁可刚y 43 21 speeially_marked 特殊记号 100 Fe 4!4 20 28 版本 version 45 R"到 29 publication 出版情况 100 5N 46 30 coleetionm 馆藏 500 西"5 47 37 残损情况 30 damaged_case 48 是5听感萄 32 关键词 200 kkeyword 49 33 5" 四5号叫 内容提要 5000 abstract x 50 34 正文 不限 text FIK'R 51 35 各种版本 500 various_versions 一啊听和" 52 36 版本比较 不限 version_comparision 53 37 啊对 录人 100 entry_people 5可 54 38 校对 100 proofreader 55 39 寻T' 备注 5000 remmark 7.2藏文文献文本标记项名称定义 7.2.1字母序号 指用藏文字母或字丁组合而成的部、卷标记字母顺序号 注1:不加元音的30个字母以及它们分别与四个元音组合而成的字母序号总计有150个 注2:不加元音的藏文字母及梵文等字母还可以构成更多字母组合 注3:在各学科名称之前加上这样的字母标号,可代替书名、易于记忆、不必直接登记书名,能防止遗失等特征 7.2.2字母数号 指某一通经典共有多少个字母构成.姐."5*母响"闪叫-等构成沉禁经典的字母总数 10
GB/36338一2018 7.2.3 卷 指一个大纸卷的容量 注:在藏文中以4句为一颂,散文以20字为偶,9600字作为一卷 如藏文大藏经目录里清楚地记载了各部类的卷 数和偶颂数,这是为了防止佛学家和译师们翻译经典时会有增减 7.2.4类别 指文献内容的传统学科分类 注按照藏文文献分类方法,《大藏经》可分为甘珠尔和丹珠尔两大类 国外学者根据文献所论述的内容,又 分为显宗和密宗 显宗类若加以细分,有律、经、论三部分;密宗可细分为无上瑜伽部、瑜伽部、行部、事部 四部分 这样,加上密宗总续根本八大部类分法是甘珠尔和丹珠尔的共同分类法 在这根本的八大分类 之上,加上大五明里除了内明的另外四明,再加上小五明.一共分为19个根本大类 在此基础上,各类又 分为若干分类 7.2.5 函 函是指不同主题的一个完整经典,它有时包括在“部”里面,每个“部”里包含多个“函”,有时一个 “部”即是一个“函” 7.2.6文种 指藏文或梵文 像《心咒集》全部为梵文,但一般文献基本都为藏文,只是偶尔夹杂梵文,这部分不 作为记录对象 7.2.7题名 指文献全名称 7.2.8缩名 指文献缩略名 7.2.9年代 指文献撰写年代 7.2.10 创作地点 指文献撰写地点 7.2.11作者 泛指学者 注许多藏族学者有不同的名字,例如;作者自己经常使用的署名;作者学习声明后上师给起的通用名称;作者自己 记载不同教派的各种佛教著作中的名称;其学生们根据各自的意愿表示赞扬和崇拜的称呼;秘密名称等 7.2.11.1全名 指填写作者经常使用的署名 7.2.11.2别名 指填写作者常用的别名 11
GB/T36338一2018 7.2.11.3作者简介 指作者简介 7.2.12前译者 泛指文献的译者 7.2.12.1前班智达 指藏文厘定前参加文献翻译工作的外来学者 7.2.12.2前班智达简历 指藏文厘定前参加文献翻译工作的学者简介 7.2.12.3前译师 指藏文厘定前参加文献翻译工作的翻译师,或第一译者 7.2.12.4前译师简历 指藏文厘定前参加文献翻译工作的翻译师简历,即第一译者简介 7.2.12.5翻译年代 指第一次翻译工作时间 7.2.12.6翻译地点 指第一次翻译的地点 7.2.12.7抄录者 指文献抄录者 7.2.13厘定审校 指藏文厘定规范之后的审校 注:据藏文史籍记载,藏文在历史上曾进行过三次较大规模的厘定规范.分别是8世纪中叶一9世纪初叶,9世纪中 叶,ll世纪初叶 厘定审校项主要记录文献成书后进行的第二次大规模语言厘定的信息 7.2.13.1后班智达 指藏文厘定后参加文献翻译工作的外来学者 7.2.13.2后班智达简历 指藏文厘定后参加文献翻译工作的学者简介 7.2.13.3后译师 指藏文厘定后参加文献翻译工作的译师,第二译者 7.2.13.4后译师简历 指藏文厘定后参加文献翻译工作的译师简历,即第二译者简介 12
GB/36338一2018 7.2.13.5审校年代 指该文献文本厘定审校工作的年代或时间 7.2.13.6审校地点 指厘定审校工作的地点 7.2.14掘藏师 指从某处找寻挖掘到该文献的第一人 7.2.15耳传 以口耳相传的方式将该文献的口碑资料保存和传承的人 7.2.16请求著述者 根据文献创作传统,须有一名或多名请愿者向作者请求著书立说,请求著述者指该请愿者 7.2.17资助者 指将作品付梓印刷提供赞助的人,古籍文献多为木刻板本,资助者也指赞助刻板的施主 7.2.18雕版 指木刻板本的雕版或刻板人 7.2.19版种 指该书是否是从梵文和汉文等文字译成藏文的,以及该书的底本和来源的详细记载 7.2.20版型 藏文典籍总体上可以分为书写本和印本两大类 注1;书写本每部版本形态都具有样式迥异,风格别样的特点,每一个书写本的书写人,书写地点,书写时间、书写字 体、纸张墨料、书写底本,都有所差异甚至根本不同 注2印本除了木刻本以外,有铅印本,复印本、影印本,现代印本等不同版本类型的区别 木刻本在同一木版可以 印若干次复本,这些复本的内容和版框形式基本相同 7.2.21纸张 指藏文书籍用的是什么纸张材料 7.2.22张数 指藏文书籍的张数 7.2.23规格 指藏文书籍的抄本和印版纸面的大小,以cm为计算单位 7.2.24行数 指藏文书籍每页的行数值 13
GB/T36338一2018 7.2.25唐卡 指藏文书籍插图(唐卡). 7.2.26墨 指墨汁、金汁、银汁等 7.2.27特殊记号 指书籍上的特殊记号 7.2.28版本 指藏文典籍的版本 注,如对《大藏经)而言,有拉萨版、北京版、德格版等十几种版本,一般典籍也因寺院印经院不一样而版本不同 7.2.29出版情况 指书籍是否出版 注,出版主要反映解放后的文献整理信息 7.2.30馆藏 指登记书籍馆藏地点 7.2.31残损情况 指登记书籍是否完整 7.2.32关键词 指藏文书籍的关键词,不能少于三个 7.2.33内容提要 指具体文献的内容提要 7.2.34原文 电子文献的源文本,一般为扫描件,将源文件扫描后对应到相应录人文本页 7.2.35各种版本 指藏文文献的各种版本,如藏文《大藏经》各种版本的图片(扫描 7.2.36版本比较 相同典籍不同版本的简要比较 是为收录其他散失版本的信息 7.2.37录入 指电子文档录人人员姓名 7.2.38校对 指电子文档校对人员姓名 14
GB/36338一2018 7.2.39备注 需要做说明的其他事宜内容记录 7.3藏文文献文本标记模式 《teiheader (fledese) titlestmt leter)m间(字母序号)冈'5题名)GB/T36338一2018 dabouLhelwntia)噗ga祈雪(后班智达简历爹予(关键词)GB/36338一2018 (encodingdesey aur-.IolbH录人 /entry_people r?gN5T(校对GB/T36338一2018 附 录 A 资料性附录) 《更敦群培文集)的TEI标记范例 A.1 说明 下面以《更敦群培文集》为范例,详细描述具体的标记方法 本范例描述了电子文本的标题、作者 来源、语式、载体、语言谁负责建立这个数字文本、出版日期、修订、编码、来源等方面做了详细的描述, 这对藏文文献标记提供了详实的参考依据 A.2《更敦群培文集》的TEI标记结果 teiHeader 《fileDesc titleStmt》 r45可raRaw明闪N(/respStmt 版" language》 language V/addtrces) =-5不吁E对5-=叫g不g刮/p(awalhuny availability)(p)5 GB/36338一2018 /fileDescy encodingDesc 《normalization 》;对可矿c哥"病来Cuniroah.5寸《p p)中寸不司5N'四Na'天N'5可一勾a5/p) /normalization》 /encodingDes Sc》 revisionDesc -"EMB")(p)"g"四内总对可列/p)>

信息处理用藏文文献文本信息标记规范GB/T36338-2018

在当今数字化时代,文献信息的处理和管理变得越来越重要。而对于一些特殊文字,比如藏文,在信息处理中的标记规范也显得尤为关键。因此,国家标准化管理委员会发布了《信息处理用藏文文献文本信息标记规范GB/T36338-2018》。 这个标准主要适用于对藏文文献进行数字化处理的场合。它规定了藏文文献信息的基本元素、数据格式、命名规则等方面的内容,为藏文文献信息的数字化处理提供了统一的标准。 在具体实施过程中,根据不同的需求,可采用多种方式进行标记。比如,可以使用XML、HTML等标准格式,标记出标题、作者、出版社、页码等信息,进而方便进行文献信息的检索、存储、共享等工作。 同时,标准还规定了藏文各种文献类型的特定标记方式,如藏经、史书、方志等,都有具体的标记方法。这对于不同类型文献的数字化处理提供了指导和规范。 总之,标准的制定为藏文文献信息的数字化处理提供了依据,有助于提高其管理效率和使用价值,也为其他语言文字的数字化处理提供了参考。

信息处理用藏语词类标记集
上一篇 本文分享国家标准信息处理用藏语词类标记集的全文阅读和高清PDF的下载,信息处理用藏语词类标记集的编号:GB/T36337-2018。信息处理用藏语词类标记集共有24页,发布于2019-01-01
智能客服语义库技术要求
本文分享国家标准智能客服语义库技术要求的全文阅读和高清PDF的下载,智能客服语义库技术要求的编号:GB/T36339-2018。智能客服语义库技术要求共有21页,发布于2019-01-01 下一篇
相关推荐