HanLP古汉语处理模型发布

hankcs · January 13, 2025, 12:51am

原文链接： https://www.hankcs.com/nlp/hanlp-ancient-chinese-processing-model-released.html

在陆续支持了简繁中英日俄法德在内的130种语言后，HanLP今日正式发布开源古汉语模型，以支持古汉语自动分词、…

WangTaotao · March 7, 2025, 2:17pm

您好，

您提到 HanLP 古汉语分词在 EvaHan TestB 上的 F1 值为 93.98% v.s. 93.60%。请问您是参加了第一届古代汉语分词和词性标注国际评测吗？您的队伍叫什么名称？或者您是在开放的 EvaHan TestB 上测试的？

没有恶意，我在做古汉语相关的研究，关于 HanLP 的古汉语分词部分想介绍得更清晰一些。

hankcs · March 8, 2025, 2:10am

我没有参加该项shared task，分数是在公开的数据集上跑出来的。HanLP是开源开放透明的，你可以在模型zip解压后的路径（ kyoto_evahan_tok_bert-ancient-chinese_tau_0.5_20250111_234146）中找到训练日志train.log，和测试日志tst.log：

1 / 2 Building tst dataset for tok/fine ...
2 / 2 Building tst dataset for tok/coarse ...
481/481 loss: 0.1203 {tok/fine P: 98.85% R: 99.00% F1: 98.92%}{tok/coarse P: 94.93% R: 93.05% F1: 93.98%} ET: 5 s
speed: 99 batches/second

你也可以自己测试一下模型，只要方法正确就可以复现分数。

WangTaotao · March 9, 2025, 2:09am

好的好的，谢谢您！