HanLP2.0测试版在线演示已上线

经过开学前的冲刺,基于深度学习的2.0已经上线了在线演示。1.x已经发展了6年,而2.0刚刚启程远航。正如同蒸汽机刚刚发明的时候,跑得没有马车快,而且还浓烟滚滚。2.0也需要一段时间打磨才能达到生产级别,但长江后浪终究会超越前浪。我将测试版的演示放上去,便于大家直观对比两个版本的效果。但目前并没有说哪个版本一定比另外一个好。2.0需要时间打磨,1.x将会持续维护,保证稳定性。

2.0测试版的开发进度位于:

1 Like

Hi! HanLP 2.0版本持续关注中,希望能有一个地方,有 hanlp.pretrained. 系列模型所使用数据集的说明?当版本或模型更新后,简要说明相关改进和变动或特性,比如 tokenizer = hanlp.load(‘CTB6_CONVSEG’) 其中 CTB6_CONVSEG 是由哪些数据集采用大概哪类模型结构得到的?就像《自然语言处理入门》书中100页介绍了 PKU、MSR、AS、CITYU 4个数据集。

因为我在测试分词等效果时,发现模型结果和在线演示上有区别,而且,这么多模型,不知道该如何取舍,虽然自己也会测试效果,但没有相关说明,自己测试找不到重点。

国家主席习近平8月6日就埃及开罗发生恐怖袭击向埃及总统塞西致慰问电
[‘国家’, ‘主席’, ‘习近’, ‘’, ‘8月’, ‘6日’, ‘就’, ‘埃及’, ‘开罗’, ‘发生’, ‘恐怖’, ‘袭击’, ‘向’, ‘埃及’, ‘总统’, ‘塞西致’, ‘慰问’, ‘电’]

2020年2月20日《习近平治国理念》系列书籍发布会
[‘2020年’, ‘2月’, ‘20日’, ‘《’, ‘习近’, ‘平治国’, ‘理念’, ‘》’, ‘系列’, ‘书籍’, ‘发布会’]

国务院关税税则委员会对8月3日后新成交的美国农产品采购暂不排除进口加征关税
[‘国务院’, ‘关税税’, ‘则’, ‘委员会’, ‘对’, ‘8月’, ‘3日’, ‘后’, ‘新’, ‘成交’, ‘的’, ‘美国’, ‘农产品’, ‘采购’, ‘暂’, ‘不’, ‘排除’, ‘进口’, ‘加征’, ‘关税’]

2017年11月14日,环境保护部党组书记、部长李干杰在京主持召开部党组会议,会议指出,习近平总书记高度重视禁止洋垃圾入境工作,亲自主持中央全面深化改革领导小组会议审议通过《禁止洋垃圾入境推进固体废物进口管理制度改革实施方案》,多次作出重要批示指示。
[‘2017年’, ‘11月’, ‘14日’, ‘,’, ‘环境’, ‘保护部’, ‘党组’, ‘书记’, ‘、’, ‘部长’, ‘李干杰’, ‘在’, ‘京’, ‘主持’, '召开部’, ‘党组’, ‘会议’, ‘,’, ‘会议’, ‘指出’, ‘,’, ‘习近’, ‘平’, ‘总书记’, ‘高度’, ‘重视’, ‘禁止’, ‘洋’, ‘垃圾’, ‘入境’, ‘工作’, ‘,’, ‘亲自’, ‘主持’, ‘中央’, ‘全面’, ‘深化’, ‘改革’, ‘领导’, ‘小组’, ‘会议’, ‘审议’, ‘通过’, ‘《’, ‘禁止’, ‘洋’, ‘垃圾’, ‘入境’, ‘推进’, ‘固体’, ‘废物’, ‘进口’, ‘管理’, ‘制度’, ‘改革’, ‘实施’, ‘方案’, ‘》’, ‘,’, ‘多’, ‘次’, ‘作出’, ‘重要’, ‘批示’, ‘指示’, ‘。’]

韩正在浙江调研
[‘韩’, ‘正’, ‘在’, ‘浙江’, ‘调研’]

新华社发布《习近平谈治国理念》
[‘新华社’, ‘发布’, ‘《’, ‘习近’, ‘平谈’, ‘治国’, ‘理念’, ‘》’]

多谢!或是是否可以从 GitHub 中哪里找到一些线索?

感谢关注。

目前的命名规则是语料库+模型,所以语料库是CTB6,模型是CONVSEG。

这个会是常态,因为语料、词典、模型每时每刻都在变化。未来目标是做一个永不停止学习的线上模型,每分每秒都在自动学习自我进化。近期会推出RESTful API,到时候直接调RESTful API就能得到跟线上一致的结果了。

如果你对语料库和模型都不熟悉的话,目前的建议是PKU_NAME_MERGED_SIX_MONTHS_CONVSEG。其他语料库比较小,而且陈旧,一般学术上用。

后面会写文档的,现在开学了比较忙顾不上。

2 Likes