请问HanLP2.0里面的繁体分词模型有哪些

caijiangyao1991 · February 4, 2021, 10:50am

HanLP2.0里面能用于繁体分词的模型是只有SIGHAN2005_PKU_BERT_BASE_ZH 这个么，那个能处理100多个语种的模型是UD_ONTONOTES_TOK_POS_LEM_FEA_NER_SRL_DEP_SDP_CON_XLMR_BASE这个么

hankcs · February 4, 2021, 4:19pm

所有模型都支持繁体，以UD开头的都是多语种模型。

caijiangyao1991 · February 5, 2021, 1:29am

谢谢大佬的回答想问下所有模型支持繁体，是还是像1.0版本的hanlp的那种直接逐字convert转化为繁体，然后再利用简体分词的方法么？有没有是通过繁体语料训练而来的模型，因为现在HanLP都是直接加载的方式，看不到具体模型是怎么来的所以不太清楚，谢谢大佬回答

hankcs · February 5, 2021, 1:52am

非UD模型都是逐字转简体的，毕竟NER、树库等语料都是简体。这种转换对语言的负面影响可能并不大，甚至小于语料库量级的增多带来的正面影响，因为简繁中文的在语法和语义上的相似性实在太高了。UD语料的中文部分本来就只有繁体，也就不存在转的问题了。如果你很追求繁体能力的话，建议自行购买繁体语料训练。

caijiangyao1991 · February 5, 2021, 8:50am

嗯嗯谢谢您的回答感觉很有道理哈哈哈~~ 主要是现在我面对的问题是在电商领域香港那边主要是繁体可能主要能做的就是只能是增加垂直领域的繁体词典了。还有个问题想请加下，对于繁简转换这个需求我是不是也就是完善词典就好了，主要是有些多对多一对多的词组这种，是不是没有必要去找训练语料什么的

hankcs · February 5, 2021, 4:42pm

对，简繁转换基本靠词典就够了。

caijiangyao1991 · February 7, 2021, 1:45am

还有个问题没有想到好的方法不知道您能不能给我提一些建议，就是对于繁简转换的任务，如果我这边只是完善领域词典，就是繁简词对应的词典，对于那种并不是逐字进行繁简转换的词语，我需要通过什么方式来找到领域内的那种多对多的繁体简体互换的词呢（比如公車对应的简体并不是公车而应该是公共汽车），没有想到什么方法我可以获得这种两者间的对应关系，希望能得到您的指点,谢谢~~

hankcs · February 8, 2021, 3:34pm

我对此没有什么研究，你可以看看论文。

caijiangyao1991 · February 9, 2021, 2:26am

好滴~谢谢您的回复~~