腾讯AI实验室汉字词句嵌入语料库(new)

EmilyLong · July 2, 2020, 2:55am

想跟大家讨论一下使用问题，如何与他们的分词模式一致？
我提取了文件中的词，使用自定义词库加入分词，文本分类的auc反而下降

bmw · July 2, 2020, 3:01am

感谢分享。

nlphappy · July 8, 2020, 5:52am

可以下。这个词向量的效果好不好？

fanling521 · July 16, 2020, 3:25am

多谢多谢

Oy_d · July 17, 2020, 3:35am

通过训练接口执行语料时，不知道为什么16G+的语料变成了40几M了。
请问大佬这是为什么呢？
是否和电脑配置有关呢？（本人pc为19款顶配MacBook Pro）

如图：
执行训练前的语料文件

执行训练后的语料文件

ctw · July 17, 2020, 5:09am

你看一下你自己的代码，感觉是重写了文件内容

Oy_d · July 17, 2020, 6:03am

我知道我测试为什么出现这个问题了。

我想问一下，大佬你用这个语料训练，跑完训练用了多久？

TingFree · July 20, 2020, 6:14am

多谢分享

bblabs · July 23, 2020, 11:21am

大厂就是不一样，是个数据都上G，甚至按T计算

wade · July 29, 2020, 7:35am

感谢分享！

zcorel · July 30, 2020, 4:51am

感谢分享！感谢分享！

GLF · August 6, 2020, 6:40am

还不错，比自己训的好不少

zhou-wjjw · August 12, 2020, 7:59am

谢谢分享，挺不错的

NLPgreat · August 13, 2020, 2:19am

谢谢分享正好最近在找这种资料

ralfa · August 14, 2020, 1:20am

555~我是新手，结果看了一天还没搞清楚他的语料库格式。。。。

BitVoyage · August 17, 2020, 11:40am

感谢分享~试用一下

zhaozengbin · September 4, 2020, 10:13am

相当nice，不过这个有点大，解压完16G，我之前用过一个mini版的可以作为测试和开发环境用。回头找找发出来。

2020SLZ · September 22, 2020, 8:58am

谢谢分享

xinxinissocute · October 22, 2020, 6:19am

x相当给力，感谢楼主

solike · November 17, 2020, 1:27am

牛皮，感谢楼主！！！！！！