第一次使用 hanlp2,目前主要出于技术调研阶段,对相关技术并不是太了解。
有几个问题需要咨询一下,望大佬给解答一下,搜索后也没发现太具体的结果。
PKU_NAME_MERGED_SIX_MONTHS_CONVSEG 模型的自定义词典是使用如下方式吗?
先通过 trie.update({‘自定义’: ‘custom’, ‘词典’: ‘dict’, ‘聪明人’: ‘smart’})导入词典
然后通过
tokenizer = hanlp.pipeline()
.append(split_sents, output_key=(‘parts’, ‘offsets’, ‘words’), trie=trie)
.append(tokenizer, input_key=‘parts’, output_key=‘tokens’)
.append(merge_parts, input_key=(‘tokens’, ‘offsets’, ‘words’), output_key=‘merged’)
将词典进行加载。
2.0字典的格式是啥样的?这里的的自定义词典格式具体是什么含义?
如果有上百万的词典是否也是通过这种方式写入?
或者是否有关于自定义词典更加详细一点的说明?因为我们作为应用使用者可能对相应的一些行内规则并不是特别了解。