实现了将一些模型转化为pytorch,但是分词上遇到了一些问题。

您好, 由于一些个人使用的原因需要对一些接口做频繁的改动,因此试着把一些模型转化为了pytorch版本。其中词性分类,实体抽取,句法分析,语义分析都运作正常。但是在分词的时候遇到了一些问题。

主要是以下2点:

  1. 英文分词不正常:[‘H’, ‘an’, ‘L’, ‘P’, ‘是’, ‘一’, ‘系列’, ‘模型’, ‘与’, ‘算法’, ‘组成’, ‘的’, ‘自然’, ‘语言’, ‘处理’, ‘工具包’, ‘,’, ‘目标’, ‘是’, ‘普及’, ‘自然’, ‘语言’, ‘处理’, ‘在’, ‘生产’, ‘环境’, ‘中’, ‘的’, ‘应用’, ‘。’]
  2. 繁体中文分词不正常,好像词表中是不存在繁体中文的:[‘H’, ‘an’, ‘L’, ‘P’, ‘支援’, ‘臺’, ‘灣’, ‘正’, ‘體’, ‘、’, ‘香港’, ‘繁’, ‘體’, ‘,’, ‘具有’, ‘新’, ‘詞’, ‘辨’, ‘識’, ‘能力’, ‘的’, ‘中文’, ‘斷’, ‘詞’, ‘系’, ‘統’]

但是我直接尝试tf2.0的版本是能够正常分词的,请问这个问题是因为我转错了,还是pipline有误?

项目demo地址

1 Like

哈哈,这真是非常有趣的项目,谢谢你为PyTorch用户做出的贡献。

有一些小模型(ctb、msr之类)也无法较好地处理英文,但large模型可以。未来的想法是将统计和规则分开,套一层pipeline加一些正则表达式去处理英文和数字。

因为在训练时做了字符的归一化处理,(大小写简繁)说不定第一个问题也是因为这个原因。

关于tensorflow和PyTorch的选择,欢迎参与讨论 TensorFlow 2.0 VS PyTorch?

非常感谢快速的解答,我明天再改进下。

非常感谢,问题已经解决

2 Likes