【微博语料第一弹】2000万条微博语料weibo_2019-05-18_10.30.41

这是2019-05-18的微博语料,包含22534008条微博。可用于训练语言模型,词向量等。由于比较时新,对网络流行语的建模可能很有帮助。
样例:

希望2019不要再zd了
一堆破事天天开会
//@夏目家的小诗哥:我信了[ok]//@八鹅吃瓜酱:👌🏻//@萌了个包:👌🏻//@恋爱小套路:🙏//@五行属二:🙏//@我和基友的日常:好的!//@我与老公的日常:👌🏻//@镰刀刮腋毛:好的👌🏻//@我是小糗君:OK//@恋爱日常事:👌🏻
这位兄弟你有事么?
十二月
//@夏目家的小诗哥:听歌要切换网易云QQ酷狗5SingB站虾米荔枝那么多[跪了]//@瞎无聊的小号:是啊 听两首歌切来切去//@风吹铃铛响叮叮:同一个愿望。//@江南大野花:隔一段时间不是这边灰了就是那边灰了,切来切去像在赶集
人这一生不要做自己后悔的事。
好看\(//∇//)\
那我必须得转一下了[哈哈][哈哈]
大鹅hhhhh
我也是这么觉得,但只是隐含地说了下。有些人真的太过了
不,是奶油味的\(//∇//)\

下载地址:weibo_2019-05-18_10.30.41.txt

4 Likes

楼主好人!!!!!!!!!!!!!

赞!不过百度网盘有下载限速而且非得装它的客户端,想问下有百度网盘之外的下载方式么……

这么大的文件,没有其他地方放啊:sweat_smile:

比如说 AWS S3,Google Drive ?如果在学校有 edu 邮箱的话 Academic Torrents 也是个不错的选择。

大家普遍都用百度网盘,也许它确实是最合适的吧……我纯粹是个人不喜欢百度网盘,没有别的意思。

不管怎么样,感谢分享这份数据 :+1:

academictorrents是个好选择,下次就用它了。

1 Like