百度百科100G语料563万词条分享

这是在梁斌penny分享的100GB百度百科语料库的基础上预处理得到的结构化语料,其中一个样本如下:

{
  "title": "红色食品",
  "summary": "红色食品是指食品为红色、橙红色或棕红色的食品。科学家认为,多吃些红色食品可预防感冒。红色食品有红柿椒、西红柿、胡萝卜、红心白薯、红果(山楂)、红苹果、草莓、红枣、老南瓜、红米、柿子等。 ",
  "sections": [
    {
      "title": "简介",
      "content": "红色食品富含番茄红素、胡萝卜素、铁和部分氨基酸,是优质蛋白质、碳水化合物、膳食纤维、B族维生素和多种无机盐的重要来源,可以弥补粳米、白面中的营养缺失。"
    },
    {
      "title": "作用",
      "content": "这些食品中富含β-胡萝卜素和维生素A,对孩子上皮组织和呼吸道粘膜有很强的保护作用,可提高预防感冒的能力。"
    },
    {
      "title": "红色食品与感冒",
      "content": "冬令时节,气候寒冷,万物收藏,人的机体生理功能处于降低、抑制、收缩状态,易患感冒,吃红色食品可扶正祛邪,增强免疫力,预防得病。"
    },
    {
      "title": "红色食品与红肉",
      "content": "红色食品是指外表呈红色的果蔬和“红肉”类。红色果蔬包括红辣椒、西红柿、红枣、山楂、草莓、苹果等,红色果蔬含有糖和多种维生素,尤其富含维生素C。"
    },
    {
      "title": "好处",
      "content": "红色不但能让人联想到爱情和激情,还是一种与心脏、大脑和泌尿系统的健康有关的颜色。红色的水果和蔬菜对我们的身体健康大有裨益。"
    }
  ],
  "tags": [
    "饮食",
    "食品",
    "食疗",
    "科学",
    "健康",
    "食品类型"
  ],
  "url": "http://baike.baidu.com/view/0010.htm"
}

可用于训练词向量,文本分类模型和知识图谱构建。
下载地址:563w_baidubaike.json.zip

5 Likes

棒呆了,感谢大大

好东西,收到,感谢:smile:

网盘大小显示4.35G,100G是说的条目吗?

100g说的是梁斌的原始html数据。

谁能告诉我这个应该怎么导入数据库使用吗?

为什么在线演示分析出来的结果 跟我在自己代码分析结果不一样
如百度域雨