履行承诺的时候到了,腾讯语料库迷你版本来了

腾讯AI实验室汉字词句嵌入语料库(new)

之前在《 腾讯AI实验室汉字词句嵌入语料库(new)》留言到,原版语料库虽然精确、全面,但过于庞大,解压后10多个G。结合HanLP要把语料加载到内存中使用时在开发和测试环境上有点吃力和浪费资源,于是留言会分享迷你版本给大家,后来就给忙忘了,现在补上~不喜勿喷~~如果涉及到版权问题,请及时联系,秒删~

分两个文件: 45000-small.txt 5000-small.txt。分别为45000个词和5000个词,可以用于在开发和测试上面调试用。

新人,顺便求点赞/收藏此贴。

本人fork版本(防丢):https://github.com/zhaozengbin/TX-WORD2VEC-SMALL
原作者版本:https://github.com/cliuxinxin/TX-WORD2VEC-SMALL
@hankcs

7 Likes

使用迷你版会丢失大量信息,可以分字节调用到内存进行数据处理。还是保留文件的完整性为好。
如果建立迷你版,要讨论压缩方法,分类方法,以利于信息处理。

因为考虑到开发环境或者部分测试环境可能达不到词库的加载配置标准,所以也特殊说明了,仅限于在开发环境业务开发调试使用的。不过老哥说的这个建议我也需要认真思考一下。