中文分词技术-世界杯的历史-亚洲区世界杯预选赛_世界杯c罗

admin 2026-02-27 20:28:24 世界杯的历史

中文分词技术 1. 中文分词概述 1.1 什么是词？词的性质--齐夫定律：一个单词的词频与它的词频排名成反比。

1.2 分词流派中文分词目前可归纳为

规则分词：简单高效，难以处理新词统计分词：能够较好地应对新词发现混合分词（规则+统计）：实践中常采用 2. 规则分词主要基于词典，常见词典：

互联网词库(SogouW， 15万个词条) 清华大学开放中文词库(THUOCL)、 HanLP词库(千万级词条) 局限很大，3种方法没有哪种最优。此外，词典的细粒度不一对分词结果的影响很大

1.1正向最大匹配法顾名思义，从头到尾扫描分词 Python-正向最长匹配

1.2 逆向最大匹配法顾名思义，从后往前扫描分词 Python-逆向最长匹配

1.3 双向最大匹配法同时执行正向和逆向最长匹配，若两者的词数不同，则返回词数更少的那一个。若两者的词数相同，返回两者中单字更少的那一个。当单字数也相同时，优先返回逆向最长匹配的结果。 Python - 双向最长匹配

基于字典的其他应用：停用词过滤繁简转换拼音转换 3. 统计分词步骤：

1）建立统计语言模型（N元）

2）单词划分及结果概率计算

2.1 语言模型n-gram N越大，词序信息越丰富，但数据稀疏问题越严峻，计算量也越大 2.2 HMM（隐性马尔可夫）模型将分词作为字在字串中的序列标注任务来实现 2.3 其他统计分词算法采用CNN、LSTM等深度学习网络自动发现一些模式和特征，然后结合CRF、softmax等分类算法进行分词预测。 4. 混合分词最常见的方式就是先基于词典的方式进行分词，然后再用统计分词方法进行辅助。在保证词典分词准确率的基础上，对未登录词和歧义词有较好的识别。

5. 准确率评估在P、R、F1基础上进行改进，以单词在文本的区间构建元素，如：

分词结果：[1,2],[3,3],[4,5],[6,7,8][9,9]

标准结果：[1,2],[3,3],[4,4],][5,6],[7,8],[9,9]

分词结果∩标准结果：[1,2],[3,3],[9,9]

P = 分词结果∩标准结果/分词结果 = 3/5 = 60% R = 分词结果∩标准结果/标准结果 =3/6 = 50% F1 = 55% 6. 中文分词语料库语料库字符数词语种数总词频平均词长《人民日报》语料库 PKU 183万 6万 111万 1.6 微软亚洲研究院语料库MSR 405万 9万 237万 1.7 台湾中央研究院 AS(繁体) 837万 14万 545万 1.5 香港城市大学 CITYU(繁体) 240万 7万 146万 1.7 一般采用MSR作为分词语料的首选，有以下原因：

标注一致性上MSR要优于PKU。切分颗粒度上MSR要优于PKU，MSR的机构名称不予切分，而PKU拆开。 MSR中姓名作为一个整体，更符合习惯。 MSR量级是PKU的两倍。最后更新: January 18, 2023