说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
ICS35.240.01 L 70 中华人民共和国国家标准 GB/T36452—2018 信息处理用藏文分词规范 Specification on Tibetan segmentation for information processing 2019-01-01实施 2018-06-07发布 国家市场监督管理总局 发布 中国国家标准化管理委员会 GB/T36452—2018 目 次 前言 引言 II 1 范围 2规范性引用文件 3术语和定义 4 分词规范 参考文献 15 GB/T36452—2018 前言 本标准按照GB/T1.1一2009给出的规则起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本标准起草单位:中国电子技术标准化研究院、西藏大学、西北民族大学、西藏自治区藏语文工作委 员会办公室、青海师范大学、青海民族大学、中国科学院软件研究所、西藏自治区工业和信息化厅 本标准主要起草人:扎西加、欧珠、尼玛扎西、熊涛、格桑多吉、多拉、拉巴泽仁、大罗桑朗杰、高定国、 拉琼、仁青诺布、索南尖措、旺堆、小尼玛扎西、普次仁、顿珠次仁、赵栋材、边巴嘉措、 1 GB/T36452—2018 引言 本标准以现代藏语的词类和分词研究成果为基础,根据藏文词汇特点与构词规律,并参考汉语分词 及词类标记相关标准(见参考文献)的部分内容,规定了信息处理用藏文分词规范。 Ⅱ GB/T 36452—2018 信息处理用藏文分词规范 1范围 本标准规定了信息处理用藏文分词规范 本标准适用于藏文信息处理各领域,其他行业和有关学科可参照使用。 2规范性引用文件 2 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T36337—2018信息处理用藏语词类标记集 术语和定义 3 下列术语和定义适用于本文件。 3.1 词 word 区别事物意义的最小的语法单位。 3.2 词组 1phrase 两个或更多词组合成的语言单位。 注:词组可以是实词与实词的组合,也可以是实词和虚词的组合。 3.3 藏文信息处理 Tibetan information processing;TIP 用计算机对藏文的音、形、义等信息进行处理。 3.4 分词单位 segment unit 在分词过程中出现的词。 注:分词单位不仅限于语法词,其中也包含了信息处理所需的一部分结合紧密、使用稳定的词组。 3.5 藏文分词 Tibetan segmentation 将连续的藏文音节序列按照一定的规范重新组合词序列的过程。 4分词规范 4.1 藏文分词单位和词类的标记 本标准以"/”作为藏文分词单位的标记,藏语词类标记依据GB/T36337一2018的规定。 4.2 4.2.1由单音节名词和单音节形容词组成的词为一个分词单位 1 GB/T36452—2018 示例: 示例: 4.2.3由名词性分词单位和专职词“引"组成的名词为一个分词单位 示例: 4.2.4名词性的构词后缀“”不单独切分。 示例: /e.. /e./.e. . .. 4.2.5四音节构成的复合词为一个分词单位。 示例: 4.2.6五音节构成的复合词为一个分词单位。 示例: 4.2.7三音节构成的固定词组为一个分词单位。 示例: 4.2.8四音节构成的固定词组为一个分词单位。 示例: 4.2.9五音节及以上音节构成的固定词组为一个分词单位。 示例: 4.3人名<(nr) 4.3.1不易区分姓和名的笔名通常作为一个分词单位。 示例: 4.3.2人名的译名按其习惯形式作为一个分词单位。 示例: 4.3.3人名(包括带格助词的人名)作为一个分词单位 2 GB/T36452—2018 示例: 4.4地名>(ns) 4.4.1山丘河流等名称作为一个分词单位。 示例: 4.4.2地名后有表示自然区划的普通名词,如“a1”等,作为一个分词单位。 示例: 4.4.3地址叙述中的大小地名分别作为一个分词单位,如其中地名或路名是一个音节则不予切分。 示例: 4.5国名(ng) 国名不论长短,作为一个分词单位。 示例: 4.6族群名(ne) 4.6.1表示民族、人种的词作为一个分词单位。 示例: 4.6.2表示部落、部族的词作为一个分词单位。 示例: 4.6.3表示文种、语种的词作为一个分词单位。 示例: 4.7团体机构名<>(na) 4.7.1行政区划称谓中两个音节及以上做切分,地名或行政区划名如其中一个是单音节,则不切分,将 地名与行政区划名合起来作为一个词。 示例: 3
GB-T 36452-2018 信息处理用藏文分词规范
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 思安 于
2023-01-26 17:30:38
上传分享
举报
下载
原文档
(2.4 MB)
分享
友情链接
GB-T 32040-2015 石化企业节能量计算方法.pdf
T-CAS 673—2022 汽车用户投诉处理服务质量评价通则.pdf
DB42-T 1854-2022 咸鸭蛋加工技术规程 湖北省.pdf
GB-T 14986.4-2018 软磁合金 第4部分:铁铬合金.pdf
GB-T 11969-2020 蒸压加气混凝土性能试验方法.pdf
MySql数据库安全配置基线.doc
CSA 实现安全应用容器架构的最佳实践.pdf
GB-T 7260.503-2020 不间断电源系统 UPS 第5–3部分:直流输出UPS 性能和试验要求.pdf
GB-T 20988-2007 信息安全技术 信息系统灾难恢复规范.pdf
GB-T 18916.56-2021 取水定额 第56部分:毛皮.pdf
JY-T 0581-2020 透射电子显微镜分析方法通则.pdf
GB-T 43493.3-2023 半导体器件 功率器件用碳化硅同质外延片缺陷的无损检测识别判据 第3部分:缺陷的光致发光检测方法.pdf
GB-T 42445-2023 工业自动化和控制系统安全 IACS环境下的补丁管理 IEC TR 62443-2-3-2015.pdf
GB-T 17799.2-2023 电磁兼容 通用标准 第2部分:工业环境中的抗扰度标准.pdf
GB-T 2572-2005 纤维增强塑料平均线膨胀系数试验方法.pdf
GB-T 27648-2011 重要湿地监测指标体系.pdf
GB-T 19267.1-2008 刑事技术微量物证的理化检验 第1部分:红外吸收光谱法.pdf
YD-T 4075-2022 以太网交换机多机虚拟化系统技术要求.pdf
GB-T 38634.1-2020 系统与软件工程 软件测试 第1部分:概念和定义.pdf
GB-T 12727-2023 核电厂安全重要电气设备鉴定 IEC IEEE 60780-323-2016.pdf
交流群
-->
1
/
3
19
评价文档
赞助2元 点击下载(2.4 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。