原文链接: https://www.hankcs.com/nlp/hanlp-ancient-chinese-processing-model-released.html
在陆续支持了简繁中英日俄法德在内的130种语言后,HanLP今日正式发布开源古汉语模型,以支持古汉语自动分词、…
您好,
您提到 HanLP 古汉语分词在 EvaHan TestB 上的 F1 值为 93.98% v.s. 93.60%。请问您是参加了第一届古代汉语分词和词性标注国际评测吗?您的队伍叫什么名称?或者您是在开放的 EvaHan TestB 上测试的?
没有恶意,我在做古汉语相关的研究,关于 HanLP 的古汉语分词部分想介绍得更清晰一些。
我没有参加该项shared task,分数是在公开的数据集上跑出来的。HanLP是开源开放透明的,你可以在模型zip解压后的路径( kyoto_evahan_tok_bert-ancient-chinese_tau_0.5_20250111_234146
)中找到训练日志train.log
,和测试日志tst.log
:
1 / 2 Building tst dataset for tok/fine ...
2 / 2 Building tst dataset for tok/coarse ...
481/481 loss: 0.1203 {tok/fine P: 98.85% R: 99.00% F1: 98.92%}{tok/coarse P: 94.93% R: 93.05% F1: 93.98%} ET: 5 s
speed: 99 batches/second
你也可以自己测试一下模型,只要方法正确就可以复现分数。
好的好的,谢谢您!