不同于学术界部分paper的“为赋新词强说愁”,工业界的paper往往更注重实用性。美团提出了一种利用含噪音的半标注数据的方法,在NLPCC2020命名实体识别比赛中拿下了冠亚军。虽然有种思潮认为中文分词和词性标注越来越不重要,字标注的BERT等才是主流。但美团的方法相较于BERT基线模型提升了2倍的准确率,可做参考。该论文使用了HanLP分词和词性标注,论文链接。
3 Likes
赶紧学习,稍不学习又要落后了
美团6的加粗示例
1 Like
shared task就是这个样子,跟Kaggle比赛差不多。NLPCC肯定比不了国外会议,但在国内是第一,国内公司参加国内第一的比赛,掉价言重了。
请问有没有sogou的解决方案的论文资源呢,谢谢 网上搜了很久没找到,好像也是排名靠前的,用了bert
自动信息抽取在实际中如何落地?