NPCMJやKWDLCのようなオープンアクセスのコーパスのおかげで、HanLP 2.1は104言語の共同タスクを提供しています:形態素解析、係り受け解析、句構造解析、述語項構造、意味的依存性解析、抽象的意味表現(AMR)解析。
import hanlp
HanLP = hanlp.load(hanlp.pretrained.mtl.NPCMJ_UD_KYOTO_TOK_POS_CON_BERT_BASE_CHAR_JA)
doc = HanLP([
'2021年、HanLPv2.1は次世代の最先端多言語NLP技術を本番環境に導入します。',
'奈須きのこは1973年11月28日に千葉県円空山で生まれ、ゲーム制作会社「ノーツ」の設立者だ。',
])
doc.pretty_print()
Dep Tree Token Relation PoS Tok NER Type Tok SRL PA1 Tok SRL PA3 Tok SRL PA4 Tok SRL PA5 Tok SRL PA6 Tok PoS 3 4 5 6 7 8
────────────── ───────── ──────── ─── ───────── ──────────── ───────── ──────── ───────── ──────── ───────── ──────── ───────── ──────── ───────── ──────── ───────── ────────────────────────────────────────────────────
┌─► 2021 nummod NUM 2021 ◄─┐ 2021 2021 2021 2021 2021 ◄─┐ 2021 NUM──┐
┌─────────►├── 年 obl CL 年 ◄─┴►DATE 年 年 年 年 年 ├►時間 年 CL ──┴►NUMCLP──────── ───────────────────►NP ───┐
│ └─► 、 punct PU 、 、 、 、 、 、 ◄─┘ 、 PU ──────── ───────── ──────────────────────────┤
│ ┌────────► HanLPv2.1 compound NPR HanLPv2.1 ───►ARTIFACT HanLPv2.1 HanLPv2.1 HanLPv2.1 HanLPv2.1 HanLPv2.1 ◄─┐ HanLPv2.1 NPR───►NP ─────┐ │
│ │┌───────► は case P は は は は は は ◄─┴►ガ は P ───────── ───┴►──── ───────────────────►PP────┤
│ ││ ┌─► 次 compound N 次 次 ───►修飾 次 次 ◄─┐ 次 次 ◄─┐ 次 N ───┐ │
│ ││┌───►├── 世代 nmod N 世代 世代 ╟──►PRED 世代 世代 │ 世代 世代 │ 世代 N ───┴►NP ─────┐ │
│ │││ └─► の case P の の の の │ の の │ の P ───────── ───┴►PP ────┐ │
│ │││┌─────► 最 compound N 最 最 最 ◄─┐ 最 ├►修飾 最 最 │ 最 N ───────── ───────── │ │
│ ││││┌────► 先端 compound N 先端 先端 先端 ◄─┴►修飾 先端 │ 先端 先端 │ 先端 N ────►NP ──────►CONJP──┤ │
│ │││││┌───► 多 compound NUM 多 多 多 多 ◄─┘ 多 多 ├►ヲ 多 NUM──────── ───────── ├►NML ──┐ │
│ ││││││┌──► 言語 compound N 言語 言語 言語 ╟──►PRED 言語 ◄─┐ 言語 言語 │ 言語 N ───────── ───────── │ │ ├►IP
│ │││││││┌─► NLP compound N NLP NLP NLP NLP ◄─┴►ノ NLP NLP │ NLP N ───────── ───────── ──┘ ├►NP ───┐ │
│┌─►└┴┴┴┴┴┴┼── 技術 obj N 技術 技術 技術 技術 ╟──►PRED 技術 技術 │ 技術 N ───────── ───────── ──────────┘ ├►PP────┤
││ └─► を case P を を を を を を ◄─┘ を P ───────── ───────── ──────────────────┘ │
││ ┌─► 本番 compound N 本番 本番 本番 本番 本番 ───►修飾 本番 ◄─┐ 本番 N ───┐ │
││ ┌─►├── 環境 obl N 環境 環境 環境 環境 環境 ╟──►PRED 環境 ├►ニ 環境 N ───┴►NP ─────┐ │
││ │ └─► に case P に に に に に に ◄─┘ に P ───────── ───┴►──── ───────────────────►PP────┤
└┴──────┴┬┬┬── 導入 root VB 導入 導入 導入 導入 導入 導入 ╟──►PRED 導入 VB ──────── ───────── ──────────────────────────┤
││└─► し aux VB0 し し し し し し し VB0──────── ───────── ──────────────────────────┤
│└──► ます aux AX ます ます ます ます ます ます ます AX ──────── ───────── ──────────────────────────┤
└───► 。 punct PU 。 。 。 。 。 。 。 PU ──────── ───────── ──────────────────────────┘
Dep Tree Toke Relation PoS Tok NER Type Tok SRL PA1 Tok SRL PA2 Tok SRL PA3 Tok SRL PA4 Tok SRL PA5 Tok PoS 3 4 5 6 7 8 9 10 11
────────────── ──── ──────── ─── ──── ──────────────── ──── ──────── ──── ──────── ──── ──────── ──── ──────── ──── ──────── ──── ───────────────────────────────────────────────────────────────────────────
┌─► 奈須 compound NPR 奈須 ◄─┐ 奈須 奈須 ◄─┐ 奈須 奈須 ◄─┐ 奈須 ◄─┐ 奈須 NPR──┐
┌─────────►├── きのこ nsubj NPR きのこ ◄─┴►PERSON きのこ きのこ ├►ガ きのこ きのこ ├►ガ きのこ ├►ガ きのこ NPR──┴►NP ─────┐
│ └─► は case P は は は ◄─┘ は は ◄─┘ は ◄─┘ は P ───────── ───┴────────────────────────────────────────────────►PP ───┐
│ ┌─────► 1973 compound NUM 1973 ◄─┐ 1973 1973 ◄─┐ 1973 1973 1973 1973 NUM──┐ │
│ │┌────► 年 compound CL 年 │ 年 年 │ 年 年 年 年 CL ──┴►NUMCLP──┐ │
│ ││┌───► 11 compound NUM 11 │ 11 11 │ 11 11 11 11 NUM──┐ │ │
│ │││┌──► 月 compound CL 月 ├►DATE 月 月 ├►時間 月 月 月 月 CL ──┴►NUMCLP──┼►NP ───┐ │
│ ││││┌─► 28 nummod NUM 28 │ 28 28 │ 28 28 28 28 NUM──┐ │ │ │
│ ┌─►└┴┴┴┼── 日 obl CL 日 ◄─┘ 日 日 │ 日 日 日 日 CL ──┴►NUMCLP──┘ ├►PP ───┐ │
│ │ └─► に case P に に に ◄─┘ に に に に P ───────── ───────────┘ │ │
│ │ ┌─► 千葉 compound NPR 千葉 ◄─┐ 千葉 ◄─┐ 千葉 ◄─┐ 千葉 千葉 千葉 千葉 NPR──┐ │ │
│ │ ┌─►└── 県 nmod NPR 県 │ 県 ◄─┴►ノ? 県 │ 県 県 県 県 NPR──┴►PP ─────┐ │ │
│ │ │ ┌─► 円空 compound NPR 円空 ├►LOCATION 円空 円空 ├►デ 円空 円空 円空 円空 NPR──────── ├►NP ───┐ ├────────────────────────────────►IP────┤
│ │┌─►└──┼── 山 obl NPR 山 ◄─┘ 山 ╟──►PRED 山 │ 山 山 山 山 NPR──────── ───┘ ├►PP────┤ │
│ ││ └─► で case P で で で ◄─┘ で で で で P ───────── ───────────┘ │ │
│┌─►└┴─────┬── 生まれ acl VB 生まれ 生まれ 生まれ ╟──►PRED 生まれ 生まれ 生まれ 生まれ VB ──────── ───────────────────┘ ├►IP
││ └─► 、 punct PU 、 、 、 、 、 、 、 PU ──────── ───────────────────────────────────────────────────────────┤
││ ┌──► ゲーム compound N ゲーム ゲーム ゲーム ゲーム ◄─┐ ゲーム ◄─┐ ゲーム ゲーム N ───┐ │
││ │┌─► 制作 compound N 制作 制作 制作 制作 ◄─┴►ノ 制作 │ 制作 制作 N ───┴►NP ──────►PRN ──┐ │
││ ┌─►┌┬┼┼── 会社 nmod N 会社 会社 会社 会社 ╟──►PRED 会社 │ 会社 会社 N ───────── ───────────┴►NP ────►PRN ──┐ │
││ │ │││└─► 「 punct PUL 「 「 「 「 「 ├►ヲ 「 「 PUL──────── ───────────────────────────┤ │
││ │ ││└──► ノーツ compound NPR ノーツ ───►ORGANIZATION ノーツ ノーツ ノーツ ノーツ │ ノーツ ノーツ NPR──────── ───────────────────────────┼►NP ───┐ │
││ │ │└───► 」 punct PUR 」 」 」 」 」 │ 」 」 PUR──────── ───────────────────────────┘ ├►PP ───┐ │
││ │ └────► の case P の の の の の ◄─┘ の の P ───────── ───────────────────────────────────┘ ├►IP ───┐ │
││ │ ┌─► 設立 compound N 設立 設立 設立 設立 設立 ╟──►PRED 設立 設立 N ───────── ───────────────────────────────────────────┘ ├►NP────┤
└┴───┴────┬┼── 者 root N 者 者 者 者 者 者 ╟──►PRED 者 N ───────── ───────────────────────────────────────────────────┘ │
│└─► だ cop AX だ だ だ だ だ だ だ AX ──────── ───────────────────────────────────────────────────────────┤
└──► 。 punct PU 。 。 。 。 。 。 。 PU ──────── ───────────────────────────────────────────────────────────┘