求助! 用hanlp 2.0分词的时候报错: RuntimeError: expected scalar type Float but found Long

hz7715 · February 22, 2021, 3:40pm

求助！我在用hanlp 2.0运行分词的时候，总是会报错：RuntimeError: expected scalar type Float but found Long
而且是大量的长文本都会导致如下错误。。
谷歌搜说是pytorch的问题。。但我也不确定是不是源码的问题。。

版本：
hanlp==2.1.0a20
hanlp-common==0.0.6
hanlp-trie==0.0.2
torch==1.7.1
transformers==4.3.2

代码如下：

import hanlp

HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH) # 世界最大中文语料库
tok = HanLP[‘tok/coarse’]

beauty_vocab = set()
nline = 0
with open(’…/data/userdict.txt’, ‘r’, encoding=‘utf-8’) as fin:
for line in fin:
nline += 1
beauty_vocab.add(line.strip())
print('total userdict num: ', nline)
tok.dict_combine = beauty_vocab

text = ‘我最心水的那些红：对口红这种东西真的是毫无抵抗力啊每次入了新色就在蓝朋友手臂上试他总会说女生到底需要有多少口红啊身为一个直男可能真的不懂红有一百种哈哈哈哈言归正传阿玛尼红管501 503 504 阿玛尼红管真的是我最爱的唇釉了入的第一支是504 第一次用就被惊艳到了竟然有这么丝滑的唇釉完全是奶油慕斯质地还呈现很高级的哑光感真的是超爱爱不释手后来又相继收了501和503 以后一定还会继续收喜爱程度 ysl方管17 13 17是我春夏用的最多次的一支几乎每天都在用不知道今天擦什么的时候就用它准没错一个夏天过去就下去了一大截喜爱程度 13是后期入的相比17利用率就没有那么高怎么说呢 13还是有些挑皮的素颜涂肯定是土爆了喜爱程度 mac子弹头 see sheer也是我的心头爱刚买的时候每天都放包里随时补超级滋润颜色炒鸡日常上班涂完全不会显得突兀超爱喜爱程度 chill小辣椒也是超爱的一支怎么涂都好看毫不夸张秋冬不知道涂啥时擦它总不会出错喜爱程度雅诗兰黛love系列 300橘红色 310梅子色都是我爱的颜色很显白喜爱程度阿玛尼小胖丁504 大名鼎鼎的奶油橘各种被夸扛不住风种草的但是！真的没有那么好好吗无论后涂薄涂感觉都不是很满意我通常是叠加哑光其他口红上面用喜爱程度 tf16 风老大的番茄色忍不住入的但是使用率很低不知道为啥可能不够日常也可能是不舍得用偷笑R 喜爱程度香奈儿58 也是跟风入的据说各种适合秋冬适合黄皮毫不犹豫拿下 but有点斯望并不是很好驾驭啊而且感觉不显白！喜爱程度 ysl黑管402 这只是盲选的适合春夏感觉一般中规中矩喜爱程度 ysl镜面唇釉09 水红色颜色不错但是但是这个唇釉的质地我真的是爱不起来不能抿嘴粘粘的很不好上均匀喜爱程度 3ce 南瓜色116 干！巨干！炒鸡干！根本不能用买之前被颜色吸引很多人都说它很干我心想再干能干成啥样前一天晚上做唇膜早晨先用唇部打底再涂上班不到两小时嘴就干到起皮南瓜色口红很多千万别买这一支喜爱程度最后说一句本人黄皮唇色浅干起皮唇纹重借蓝票的胳膊试色仅供参考第一次写这么长的笔记手指断了好了就酱叹气R’

cut_res = HanLP([text])[‘tok/coarse’][0]
print(cut_res)

======================================================
结果就会报错，具体如下

Traceback (most recent call last):
File “/Users/river/Desktop/1-tag-recall/note-tag/optimization/src/preprocess.py”, line 27, in
cut_res = HanLP([text])
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/hanlp/components/mtl/multi_task_learning.py”, line 768, in call
return super().call(data, batch_size, **kwargs)
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/torch/autograd/grad_mode.py”, line 26, in decorate_context
return func(*args, **kwargs)
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/hanlp/common/torch_component.py”, line 629, in call
return super().call(data, **merge_dict(self.config, overwrite=True,
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/hanlp/common/component.py”, line 36, in call
return self.predict(data, **kwargs)
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/hanlp/components/mtl/multi_task_learning.py”, line 512, in predict
output_dict = self.predict_task(self.tasks[task_name], task_name, batch, results, output_dict,
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/hanlp/components/mtl/multi_task_learning.py”, line 590, in predict_task
output_dict, batch = self.feed_batch(batch, output_key, output_dict, run_transform, cls_is_bos, sep_is_eos,
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/hanlp/components/mtl/multi_task_learning.py”, line 682, in feed_batch
‘output’: task.feed_batch(h,
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/hanlp/components/mtl/tasks/init.py”, line 182, in feed_batch
return decoder(h, batch=batch, mask=mask)
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/torch/nn/modules/module.py”, line 727, in _call_impl
result = self.forward(*input, **kwargs)
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/hanlp/components/mtl/tasks/ner/tag_ner.py”, line 35, in forward
contextualized_embeddings = self.secondary_encoder(contextualized_embeddings, mask=mask)
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/torch/nn/modules/module.py”, line 727, in _call_impl
result = self.forward(*input, **kwargs)
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/hanlp/layers/transformers/relative_transformer.py”, line 310, in forward
x = layer(x, mask)
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/torch/nn/modules/module.py”, line 727, in _call_impl
result = self.forward(*input, **kwargs)
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/hanlp/layers/transformers/relative_transformer.py”, line 264, in forward
x = self.self_attn(x, mask)
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/torch/nn/modules/module.py”, line 727, in call_impl
result = self.forward(*input, **kwargs)
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/hanlp/layers/transformers/relative_transformer.py”, line 150, in forward
D = torch.einsum(‘nd,ld->nl’, self.r_w_bias, pos_embed)[None, :, None] # head x 2max_len, 每个head对位置的bias
File “/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/torch/functional.py”, line 344, in einsum
return _VF.einsum(equation, operands) # type: ignore
RuntimeError: expected scalar type Float but found Long

hankcs · February 22, 2021, 5:28pm

感谢反馈，已经修复。

建议遇到bug直接发到GitHub上，GitHub上的bug我会最高优先级处理，论坛回复靠缘分。

github.com/hankcs/HanLP

HanLP2.1分词时大量文本会报错：RuntimeError: expected scalar type Float but found Long

opened 03:56PM - 22 Feb 21 UTC

closed 05:23PM - 22 Feb 21 UTC

hz7715

Describe the bug 我在用HanLP2.1分词时会遇到大量文本报错：RuntimeError: expected scalar type Float but found Long 很多长文本分词时会报这个错。。谷歌搜了半天，都说是pytorch里的代码问题，不确定是不是源码的问题，还是我这边的原因导致。。 Code to reproduce the issue 完整代码如下 import hanlp HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH) # 世界最大中文语料库 tok = HanLP[‘tok/coarse’] #...

bug

hankcs · February 22, 2021, 5:28pm