HanLP2.0数据镜像备份下载

为了利用海量无标注语料库,HanLP2.0使用了许多预训练的语言模型(word2vec、fasttext、BERT、ALBERT……)。这些语言模型通常体积较大并且由海外研究机构发布,国内下载速度较慢。为此,我创建了这个共享文件夹,作为~/.hanlp(Windows的%appdata%/hanlp,下同)目录的镜像同步更新。

使用方法

  • 下载此目录下的子目录到~/.hanlp
  • 不必下载全部子目录,注意看控制台输出,自己缺什么下什么。
  • 有些目录是旧版本发布的模型,新版用不上。
  • HanLP官方源大部分文件的下载速度很快,thirdparty里一些第三方的数据可能下载很慢,是你最需要的。
  • 如果下载失败,等一个小时再试。
  • 实在没办法的,还是老老实实翻墙吧。做科研的,不翻墙做不了。
4 Likes


好像被🈲️了?

那就没办法了,没时间浪费在百毒身上。

您好,下了几个数据文件,在下载即将完成时,都报:您需要授权,授权是要付费是吗

我有链接:链接:https://share.weiyun.com/5IF0JWf 密码:9sen6e
我的是微云

2 Likes

不需要付费。授权可能是服务器发生错误,请等一段时间再试。

已经下载成功了,多谢!

请问2.0下载报错有什么解决方法吗

你这是下载 tensorflow 就已经出错了,换成国内的源吧
pip install -i https://mirrors.aliyun.com/pypi/simple ……

感谢解答

可以下,谢谢!

小白一个,请问怎么下载呀?

网盘可以

1 Like

为了下个wiki语料我还开了个迅雷会员

请问,数据资源存放的路径可以修改吗?在哪里配置?

老哥,还能传一下这个资源么?链接失效了,感谢感谢

https://file.hankcs.com/hanlp/pos/pos_pku_electra_small_20210808_125158.zip 这个资源不存在了么?

请问中文AMR pretrained model是不是不在网盘上?今天服务器好像挂了没法从正常途径下载模型,在网盘上也没有找到

你好,是不是
thirdparty\catalog.ldc.upenn.edu\LDC2013T19\ontonotes-release-5.0.tgz
这个文件不存在