HanLP2.0里面能用于繁体分词的模型 是只有SIGHAN2005_PKU_BERT_BASE_ZH 这个么,那个能处理100多个语种的模型是UD_ONTONOTES_TOK_POS_LEM_FEA_NER_SRL_DEP_SDP_CON_XLMR_BASE这个么
所有模型都支持繁体,以UD开头的都是多语种模型。
谢谢 大佬的回答 想问下 所有模型支持繁体 ,是还是像1.0版本的hanlp的那种 直接逐字convert转化为 繁体,然后再利用简体分词的方法么? 有没有是通过繁体语料训练而来的模型,因为现在HanLP都是直接加载的方式,看不到具体模型是怎么来的 所以不太清楚,谢谢大佬回答
非UD模型都是逐字转简体的,毕竟NER、树库等语料都是简体。这种转换对语言的负面影响可能并不大,甚至小于语料库量级的增多带来的正面影响,因为简繁中文的在语法和语义上的相似性实在太高了。UD语料的中文部分本来就只有繁体,也就不存在转的问题了。如果你很追求繁体能力的话,建议自行购买繁体语料训练。
嗯嗯 谢谢您的回答 感觉很有道理 哈哈哈~~ 主要是现在我面对的问题是在电商领域 香港那边主要是繁体 可能主要能做的就是只能是增加垂直领域的繁体词典了。还有个问题想请加下,对于繁简转换 这个需求 我是不是也就是完善词典就好了,主要是有些多对多 一对多的词组这种,是不是没有必要去找训练语料什么的
对,简繁转换基本靠词典就够了。
还有个问题没有想到好的方法 不知道您能不能给我提一些建议,就是对于繁简转换的任务,如果我这边只是完善领域词典,就是繁简词对应的词典,对于那种并不是逐字进行繁简转换的词语,我需要通过什么方式来找到领域内的那种多对多的繁体简体互换的词呢(比如公車对应的简体 并不是 公车 而应该是公共汽车),没有想到什么方法 我可以获得这种两者间的对应关系,希望能得到您的指点,谢谢~~
我对此没有什么研究,你可以看看论文。
好滴~谢谢您的回复~~