“的话” 用在假设复句的前一个分句的后面,引出下文。
句1分的没问题,句2应该分开。
“的话” 用在假设复句的前一个分句的后面,引出下文。
句1分的没问题,句2应该分开。
非执行董事 与 “是” 能正确分
非企业法人 与 “是” 不能正确分
词限 ——> 词,限
胳膊肘儿朝外拐 被识别为一个词
胳膊肘朝外拐 未被识别为一个词
实际上还有不少这种 “儿” 化音的词 有类似识别问题,不一一列举
胳膊肘儿朝外拐虽然是个熟语,还是拆开比较好。
自个 / 自个儿
自个 应该还是算做一个词的
成语现在基本上都是当成一个词了。
有一些四字成语以外的 俗语、历史名词,其意义已经固化,我倒是觉得就当成一个词也无妨,或者也可提供NER的方式。
的解 读人
种具 ——> 种 、具
机关团
; NR
: CD
半角标点符号被错误标注词性
AABB / ABAB / ABB 之类的构词模式能否 训练训练?
把门 ——> 把 . 门
把 . 门 ——> 把门
这个是语料库所致。
传真件 或当成一个词, 或 传真 . 件
此处 “一口” 似乎不应标记为 数量词
类似的还有很多 以“一”开头的词,有其特殊性……
的一方 ——> 的 . 一方
hanlp v1.7.7(StandardTokenizer) / v2.0 将 " 和 " 标记为 “cc”, 应为 名词
根据 The Lancaster Corpus of Mandarin Chinese,一口
还可以被标注为副词。
紫云/nr 真人/n 意识/n 到/v 她/r 喜欢/v 陈/nr 王庭/nr 立即/d 一口/d 答应/v 了/u
同事/n 们/k 松/v 了/u 一口/m 气/n