您好, 由于一些个人使用的原因需要对一些接口做频繁的改动,因此试着把一些模型转化为了pytorch版本。其中词性分类,实体抽取,句法分析,语义分析都运作正常。但是在分词的时候遇到了一些问题。
主要是以下2点:
- 英文分词不正常:[‘H’, ‘an’, ‘L’, ‘P’, ‘是’, ‘一’, ‘系列’, ‘模型’, ‘与’, ‘算法’, ‘组成’, ‘的’, ‘自然’, ‘语言’, ‘处理’, ‘工具包’, ‘,’, ‘目标’, ‘是’, ‘普及’, ‘自然’, ‘语言’, ‘处理’, ‘在’, ‘生产’, ‘环境’, ‘中’, ‘的’, ‘应用’, ‘。’]
- 繁体中文分词不正常,好像词表中是不存在繁体中文的:[‘H’, ‘an’, ‘L’, ‘P’, ‘支援’, ‘臺’, ‘灣’, ‘正’, ‘體’, ‘、’, ‘香港’, ‘繁’, ‘體’, ‘,’, ‘具有’, ‘新’, ‘詞’, ‘辨’, ‘識’, ‘能力’, ‘的’, ‘中文’, ‘斷’, ‘詞’, ‘系’, ‘統’]
但是我直接尝试tf2.0的版本是能够正常分词的,请问这个问题是因为我转错了,还是pipline有误?
项目demo地址