百度百科2020年最新版语料分享

baidu_baike_2020.json.7z是2020最新版的百度语料,相较于论坛上的500万2013版,内容时效性更高,并且预处理出了许多结构化字段,适合知识图谱相关研究。样本如下:

 {
  "title": "计算语言学",
  "subject": [
    "科学",
    "学科"
  ],
  "infobox": {
    "外文名": "Computational Linguistics",
    "中文名": "计算语言学"
  },
  "abstract": "计算语言学(Computational Linguistics)指的是这样一门学科,它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。",
  "content": "计算机语言(Computer Language)指用于人与计算机之间通讯的语言。语言分为自然语言与人工语言两大类。自然语言是人类在自身发展的过程中形成的语言,是人与人之间传递信息的媒介。人工语言指的是人们为了某种目的而自行设计的语言...",
  "url": "https://baike.baidu.com/item/%E8%AE%A1%E7%AE%97%E8%AF%AD%E8%A8%80%E5%AD%A6",
  "links": {
    "数理语言学": "https://baike.baidu.com/item/%E6%95%B0%E7%90%86%E8%AF%AD%E8%A8%80%E5%AD%A6",
    "自然语言处理": "https://baike.baidu.com/item/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86",
    "信息提取": "https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E6%8F%90%E5%8F%96",
    "频率词典": "https://baike.baidu.com/item/%E9%A2%91%E7%8E%87%E8%AF%8D%E5%85%B8",
    "视觉": "https://baike.baidu.com/item/%E8%A7%86%E8%A7%89",
    "实验语音学": "https://baike.baidu.com/item/%E5%AE%9E%E9%AA%8C%E8%AF%AD%E9%9F%B3%E5%AD%A6",
    "新技术革命": "https://baike.baidu.com/item/%E6%96%B0%E6%8A%80%E6%9C%AF%E9%9D%A9%E5%91%BD",
    "计算机情报检索": "https://baike.baidu.com/item/%E8%AE%A1%E7%AE%97%E6%9C%BA%E6%83%85%E6%8A%A5%E6%A3%80%E7%B4%A2",
    "优选语义学": "https://baike.baidu.com/item/%E4%BC%98%E9%80%89%E8%AF%AD%E4%B9%89%E5%AD%A6",
    "言语识别": "https://baike.baidu.com/item/%E8%A8%80%E8%AF%AD%E8%AF%86%E5%88%AB",
    "概念从属论": "https://baike.baidu.com/item/%E6%A6%82%E5%BF%B5%E4%BB%8E%E5%B1%9E%E8%AE%BA",
    "对比语言学": "https://baike.baidu.com/item/%E5%AF%B9%E6%AF%94%E8%AF%AD%E8%A8%80%E5%AD%A6",
    "扩充转移网络": "https://baike.baidu.com/item/%E6%89%A9%E5%85%85%E8%BD%AC%E7%A7%BB%E7%BD%91%E7%BB%9C",
    "语料库": "https://baike.baidu.com/item/%E8%AF%AD%E6%96%99%E5%BA%93",
    "从属分析法": "https://baike.baidu.com/item/%E4%BB%8E%E5%B1%9E%E5%88%86%E6%9E%90%E6%B3%95",
    "交叉学科": "https://baike.baidu.com/item/%E4%BA%A4%E5%8F%89%E5%AD%A6%E7%A7%91",
    "模糊识别": "https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%AF%86%E5%88%AB",
    "预示分析法": "https://baike.baidu.com/item/%E9%A2%84%E7%A4%BA%E5%88%86%E6%9E%90%E6%B3%95",
    "逻辑判断": "https://baike.baidu.com/item/%E9%80%BB%E8%BE%91%E5%88%A4%E6%96%AD",
    "组织者": "https://baike.baidu.com/item/%E7%BB%84%E7%BB%87%E8%80%85",
    "中介成分体系": "https://baike.baidu.com/item/%E4%B8%AD%E4%BB%8B%E6%88%90%E5%88%86%E4%BD%93%E7%B3%BB",
    "机器翻译": "https://baike.baidu.com/item/%E6%9C%BA%E5%99%A8%E7%BF%BB%E8%AF%91",
    "传统语言学": "https://baike.baidu.com/item/%E4%BC%A0%E7%BB%9F%E8%AF%AD%E8%A8%80%E5%AD%A6",
    "自然语言理解": "https://baike.baidu.com/item/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E7%90%86%E8%A7%A3",
    "言语合成": "https://baike.baidu.com/item/%E8%A8%80%E8%AF%AD%E5%90%88%E6%88%90",
    "认知科学": "https://baike.baidu.com/item/%E8%AE%A4%E7%9F%A5%E7%A7%91%E5%AD%A6"
  }
}

作为赠与信任等级Lv3的谢礼,仅限NLP研究人员内部研究用途。请大家继续保持互帮互助,我们会准备更多谢礼给热心人士。
下载地址:https://bbs.hankcs.com/t/topic/2021

5 Likes

感谢大佬分享,骨灰级1.x用户,之前做问答系统研究曾用过Hanlp做过语料处理,如今也在从事知识图谱的研究。非常感谢。

1 Like

大佬 我需要语料