【微博语料第五弹】2000万条微博语料weibo_2019-05-22_05.43.48

定个小目标,发他一个亿条微博语料。这是系列语料第5弹,2019-05-22日的微博。每一弹都有两千多万条,一共5发。至此完成了一个亿的小目标,你们下载之后也算是有一个亿身家的人了,激动吧:crazy_face:感兴趣的同学要不要训练个Weibo-BERT之类的,也算填补不规范文本的一大空白。

下载地址:weibo_2019-05-22_05.43.48.txt.7z.url

4 Likes

感谢分享,请问这些语料是利用爬虫去爬的吗。能否分享下爬虫呢?

来源保密,仅供研究使用。

非常感谢,请问下这5个部分,被爬取的条件是什么?比如是什么样的微博用户?在什么时间段到什么时间段的?

看了下数据,好像没有微博ID,以及时间信息,您那还有吗?谢谢。

纯文本语料,仅作研究,其他信息不方便公开。

纯文本语料,仅作研究,其他信息不方便公开。

非常感谢您的回复。我也是科研院校的研究人员。在做这方面的研究。

为了规避风险,请谅解。

请问下您说的风险包含哪些方面?这样我以后也注意这些。
非常感谢。

数据的版权吧,越来越严格。

意思是不能把爬取的数据,随便传播吗?
非常感谢。

看用途,有些数据的字段很敏感。对学术界会宽容一些,但也不能越界。

好的,非常感谢告知。