Hanlp2.1 Bug 报告列表

AliBug August 20, 2021, 9:22am #1

首先说说最近的使用感受，2.1在分词上的准确率已经很高了，很难挑出太大的毛病，这个要大大的
比较了https://hanlp.hankcs.com/docs/api/hanlp/pretrained/mtl.html 上列出的几个模型，感觉效果最好的还是
**hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_BASE_ZH**

下面进入找茬时间
1、SRL 标记错误，同样一句话，加了个句号 ARG0 发生了飘移（句号被标为ARG0，显然是错误）
屏幕快照 2021-08-20 下午5.08.05
屏幕快照 2021-08-20 下午5.08.36

1 Like

AliBug August 20, 2021, 9:33am #2

2、句子中如果没有动词，就没有SRL（暂时发现的形式都是：名+数量）
屏幕快照 2021-08-20 下午5.25.37

屏幕快照 2021-08-20 下午5.25.08

屏幕快照 2021-08-20 下午5.30.33

AliBug August 20, 2021, 11:37am #3

3、“被” 字句受动对象 ARG1 未标记
屏幕快照 2021-08-20 下午7.33.16

AliBug August 20, 2021, 11:40am #4

4、相同的部分，时而被标记，时而未标记
屏幕快照 2021-08-20 下午7.27.20

hankcs August 21, 2021, 12:42am #5

感谢反馈。下个模型继续突破记录。

这两个问题其实都跟句号有关系。

这是正常的，CPB3的谓词大部分都是动词，少数名词都是类似“开发”“建设”之类有动词用法的名词。

调查发现预处理CPB3的时候有些错误，已经修正并且开始训练新模型。估计需要两周左右时间训练完毕。

1 Like

AliBug August 21, 2021, 2:17am #6

期待新模型的发布

AliBug August 23, 2021, 10:36am #7

5、部分并列结构的 ARG1 未被完全识别，如下图
屏幕快照 2021-08-23 下午6.10.49

有一些语句则是可以识别出来的：
屏幕快照 2021-08-23 下午6.32.47

AliBug August 23, 2021, 3:52pm #8

6、部分句子在 “粗分” 状态下无 SRL，在“非粗分” 状态下有SRL
屏幕快照 2021-08-23 下午11.48.36

hankcs August 23, 2021, 4:17pm #9

这个新模型应该可以修复。

hankcs August 23, 2021, 4:18pm #10

CPB是细分标准，所以粗分时SRL性能不会很好。

1 Like

u8621011 August 27, 2021, 10:51pm #11

謝謝大家的心血以及分享， Hanlp 2.1 是個很棒的產品。

不過看到效能這兩字想順便跟大家請教。我在使用 Hanlp 2.x 時，

即使連分詞都有很明顯的效能不是很好的感覺

想請問大家，有沒有什麼可以提升效能的建議呢？

hankcs August 27, 2021, 11:29pm #12

你指的是运行速度吗？建议用GPU跑2.x，或者我们的公益云服务。
通常模型越大准确率越高但速度越慢，你可以试试小模型。我们也在试验一些模型压缩、裁剪和蒸馏的技术，但在HanLP的大语料库上没有体现出论文里那么好的效果，还需要一段时间去研发。

u8621011 August 28, 2021, 10:40pm #13

是的，效能是指運行速度的意思。

很感謝回覆，我們再嘗試看看，有問題再跟您請教。

AliBug September 1, 2021, 8:31am #14

7、部分相同文字的 SRL 标注不一致或丢失

（1）红绿标注两个 ARG1 与后图不一致 (第一个ARG1 应为ARG0)；（2）紫色部分，前图有而后图没有。

hankcs September 4, 2021, 8:13pm #15

新模型正确标注了这个例子：https://hanlp.hankcs.com/?sentence=参谋长昨天说，空军已组成专案小组调查事件原因。

hankcs September 4, 2021, 8:15pm #16

ERNIE模型也解决了这个例子：https://hanlp.hankcs.com/?sentence=一些小孩和大人在游泳，其中有男孩20入、女孩10入。

hankcs September 4, 2021, 8:17pm #17

长句子目前还很难解决。

AliBug September 5, 2021, 12:16pm #18

新版在处理速度上有很大提升

“被”字句的SRL结果好像还和以前一样

发现其它情况再继续报告

AliBug September 7, 2021, 10:54am #19

“把（将）”字句中的 ARG1 时而能识别，时而无法识别。

屏幕快照 2021-09-07 下午6.44.32
屏幕快照 2021-09-07 下午6.43.26

屏幕快照 2021-09-07 下午6.41.20
屏幕快照 2021-09-07 下午6.45.22

AliBug September 13, 2021, 11:13am #20

同样文字，“红花” 时而被标为 ARG1、时而被标为 ARG0
第一图标了两个ARG1，应该是错的。
屏幕快照 2021-09-13 上午12.45.12

屏幕快照 2021-09-13 上午12.44.55