Hanlp2.1 Bug 报告列表

首先说说最近的使用感受,2.1在分词上的准确率已经很高了,很难挑出太大的毛病,这个要大大的:+1:
比较了https://hanlp.hankcs.com/docs/api/hanlp/pretrained/mtl.html 上列出的几个模型,感觉效果最好的还是
**hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH**

下面进入找茬时间
1、SRL 标记错误 ,同样一句话, 加了个句号 ARG0 发生了 飘移(句号被标为ARG0, 显然是错误)
屏幕快照 2021-08-20 下午5.08.05
屏幕快照 2021-08-20 下午5.08.36

1 Like

2、句子中如果没有动词,就没有SRL(暂时发现的形式都是: 名+数量)
屏幕快照 2021-08-20 下午5.25.37

屏幕快照 2021-08-20 下午5.25.08

屏幕快照 2021-08-20 下午5.30.33

3、“被” 字句 受动对象 ARG1 未标记
屏幕快照 2021-08-20 下午7.33.16

4、相同的部分,时而被标记,时而未标记
屏幕快照 2021-08-20 下午7.27.20

感谢反馈。下个模型继续突破记录。

这两个问题其实都跟句号有关系

这是正常的,CPB3的谓词大部分都是动词,少数名词都是类似“开发”“建设”之类有动词用法的名词。

调查发现预处理CPB3的时候有些错误,已经修正并且开始训练新模型。估计需要两周左右时间训练完毕。

1 Like

期待新模型的发布 :partying_face:

5、部分并列结构的 ARG1 未被完全识别,如下图
屏幕快照 2021-08-23 下午6.10.49

有一些语句则是可以识别出来的:
屏幕快照 2021-08-23 下午6.32.47

6、部分句子在 “粗分” 状态下无 SRL, 在“非粗分” 状态下 有SRL
屏幕快照 2021-08-23 下午11.48.36

这个新模型应该可以修复。

CPB是细分标准,所以粗分时SRL性能不会很好。

謝謝大家的心血以及分享, Hanlp 2.1 是個很棒的產品。

不過看到效能這兩字想順便跟大家請教。我在使用 Hanlp 2.x 時,

即使連分詞都有很明顯的效能不是很好的感覺

想請問大家,有沒有什麼可以提升效能的建議呢?

你指的是运行速度吗?建议用GPU跑2.x,或者我们的公益云服务
通常模型越大准确率越高但速度越慢,你可以试试小模型。我们也在试验一些模型压缩、裁剪和蒸馏的技术,但在HanLP的大语料库上没有体现出论文里那么好的效果,还需要一段时间去研发。

是的,效能是指運行速度的意思。

很感謝回覆,我們再嘗試看看,有問題再跟您請教。

7、部分相同文字的 SRL 标注 不一致或丢失


(1)红绿标注两个 ARG1 与 后图 不一致 (第一个ARG1 应为ARG0); (2)紫色部分, 前图有而后图没有。

新模型正确标注了这个例子:https://hanlp.hankcs.com/?sentence=参谋长昨天说,空军已组成专案小组调查事件原因。

ERNIE模型也解决了这个例子:https://hanlp.hankcs.com/?sentence=一些小孩和大人在游泳,其中有男孩20入、女孩10入。

长句子目前还很难解决。

新版在处理速度上有很大提升:+1:

“被”字句的SRL结果好像还和以前一样 :cowboy_hat_face:

发现其它情况再继续报告:grinning_face_with_smiling_eyes:

“把(将)”字句 中的 ARG1 时而能识别,时而无法识别。

屏幕快照 2021-09-07 下午6.44.32
屏幕快照 2021-09-07 下午6.43.26


屏幕快照 2021-09-07 下午6.41.20
屏幕快照 2021-09-07 下午6.45.22

同样文字,“红花” 时而被标为 ARG1、时而被标为 ARG0
第一图标了两个ARG1,应该是错的。
屏幕快照 2021-09-13 上午12.45.12

屏幕快照 2021-09-13 上午12.44.55