之前在《 腾讯AI实验室汉字词句嵌入语料库(new)》留言到,原版语料库虽然精确、全面,但过于庞大,解压后10多个G。结合HanLP要把语料加载到内存中使用时在开发和测试环境上有点吃力和浪费资源,于是留言会分享迷你版本给大家,后来就给忙忘了,现在补上~不喜勿喷~~如果涉及到版权问题,请及时联系,秒删~
分两个文件: 45000-small.txt 5000-small.txt。分别为45000个词和5000个词,可以用于在开发和测试上面调试用。
新人,顺便求点赞/收藏此贴。
本人fork版本(防丢):https://github.com/zhaozengbin/TX-WORD2VEC-SMALL
原作者版本:https://github.com/cliuxinxin/TX-WORD2VEC-SMALL
@hankcs