哈哈恭喜HanLP 发书了 已经购买了~~ 最近在研究实体抽取,整了一个纯NER的语料 训练出现问题 应该是语料格式问题

语料库是TXT 一行行公司名称
我的思路是是通过通过标记词性后
把没有被成功识别的实体用 [***]/nt 标注后 让机器识别一遍
但是最后训练好的模型会把任意语句均完整识别成为一个实体 [
]/nt
所以我现在怀疑是不是一行行语料格式不对

感谢支持。语料必须是句子而不是公司名,你可以在《自然语言处理入门》的第8章命名实体识别中找到更详细的答案,还附带了一个战斗机名称识别的案例。

怪不得~~OK 等明个书到了 研究一下

握手同买,等到了拜读

1 Like

今天已购,只待书到

2 Likes