哈哈恭喜HanLP 发书了已经购买了~~ 最近在研究实体抽取，整了一个纯NER的语料训练出现问题应该是语料格式问题

DukeCP · October 17, 2019, 3:12am

语料库是TXT 一行行公司名称
我的思路是是通过通过标记词性后
把没有被成功识别的实体用 [***]/nt 标注后让机器识别一遍
但是最后训练好的模型会把任意语句均完整识别成为一个实体 []/nt
所以我现在怀疑是不是一行行语料格式不对

hankcs · October 17, 2019, 4:12am

感谢支持。语料必须是句子而不是公司名，你可以在《自然语言处理入门》的第8章命名实体识别中找到更详细的答案，还附带了一个战斗机名称识别的案例。

DukeCP · October 17, 2019, 4:37am

怪不得~~OK 等明个书到了研究一下

lan2720 · October 17, 2019, 7:54am

握手同买，等到了拜读

guanyuhai · October 18, 2019, 6:41am

今天已购，只待书到

haojun186 · July 1, 2020, 6:42am

握手同买，等到了拜读

zhou-wjjw · August 4, 2020, 5:17am

前几天刚刚入手一份，还送知识图，拜读一下

哈哈恭喜HanLP 发书了 已经购买了~~ 最近在研究实体抽取，整了一个纯NER的语料 训练出现问题 应该是语料格式问题