中文维基百科2020年06月09日json版

中文维基百科是训练语言模型的好语料,然而人们的预处理方法谬误甚多,导致大陆流传的维基语料稂莠不齐。正巧最近在做语言模型,于是顺手将正确处理的、并且较新的维基百科上传一份。语料为json格式,尊重原版语言习惯,未进行任何多余的预处理。样例如下:

{“id”: “13”, “url”: “https://zh.wikipedia.org/wiki?curid=13”, “title”: “数学”, “text”: "数学\n\n数学是利用符号语言研究數量、结构、变化以及空间等概念的一門学科,从某种角度看屬於形式科學的一種。數學透過抽象化和邏輯推理的使用,由計數、計算、量度和對物體形狀及運動的觀察而產生。數學家們拓展這些概念,為了公式化新的猜想以及從選定的公理及定義中建立起嚴謹推導出的定理。\n\n基礎數學…

研究者可以根据自己本地的语言习惯,选取合适的转换工具(HanLP.t2s之类)转换为本地语言。

作为信任等级Lv2的谢礼,仅限NLP研究人员内部研究用途
下载地址:https://bbs.hankcs.com/t/topic/1457

9 Likes

感谢:100:

2 Likes

放低下载要求可以吗?

2 Likes

多多参与互动就可以(先给你一个赞

2 Likes

给你回一个,一起努力

1 Like

每人赞一个,一起努力

感谢分享

2 Likes

赞!!感谢分享

1 Like