基于规则的音译人名识别--代码失效

HeartSea15 · April 4, 2023, 9:52am

第8章，247页，运行课程代码，并没有和课本一样，让卡利斯勒合并成一个词。

sentence = [“我知道卡利斯勒出生于英格兰”]
segment = HanLP.newSegment().enableTranslatedNameRecognize(True)
for sentence in sentences:
term_list = segment.seg(sentence)
print(‘分词’, HanLP.segment(sentence))
print(‘基于规则的音译人名识别’, term_list)
分词 [我/rr, 知道/v, 卡利斯/nrf, 勒/v, 出生于/v, 英格兰/nsf]
基于规则的音译人名识别 [我/rr, 知道/v, 卡利斯/nrf, 勒/v, 出生于/v, 英格兰/nsf]

hankcs · April 4, 2023, 6:01pm

感谢指出，书籍配套版本为1.7.5，后续对算法做了微调，有些case不一致，但总体准确率提高了。

另外，写书的目的是授人以渔，读书的目的是学以致用。按照第三章传授的知识，只需要往二元文法里加一条记录即可：

github.com

hankcs/pyhanlp/blob/cda01245d68b3e94d16f37d979427433b20d7c3e/tests/book/ch08/demo_nrf.py#L18

      
        
            
            
DijkstraSegment = JClass('com.hankcs.hanlp.seg.Dijkstra.DijkstraSegment')
            CoreBiGramTableDictionary = JClass('com.hankcs.hanlp.dictionary.CoreBiGramTableDictionary')
            
            

            
HanLP.Config.enableDebug()
            sent = "我知道卡利斯勒出生于英格兰"
            segment = DijkstraSegment().enableTranslatedNameRecognize(True)
            print(segment.seg(sent))
            
            
if CoreBiGramTableDictionary.getBiFrequency("未##人", "出生于") == 0:
                with open(HanLP.Config.BiGramDictionaryPath, 'a') as out:
                    out.write('\n未##人@出生于 1\n')
                CoreBiGramTableDictionary.reload()
                print(segment.seg(sent))

HeartSea15 · April 5, 2023, 3:54am

非常感谢您的回复。像这个基于规则的音译人名识别，逻辑是粗分词性标注，检测到nrf就往后扫描，遇到音译人就合并。有这个过程的python的源码吗，还是我们都是用java编写，Python只是调用了一句代码而已，java关于这个规则的源码，可以发我下链接吗，谢谢您~

hankcs · April 5, 2023, 3:57am

只有Java源码，请参考：

github.com

hankcs/HanLP/blob/5d9eb1821413fa507f27cbf73e8bf0bf93ef7df4/src/main/java/com/hankcs/hanlp/recognition/nr/TranslatedPersonRecognition.java#L52

      
        
            int appendTimes = 0;
            ListIterator<Vertex> listIterator = segResult.listIterator();
            listIterator.next();
            int line = 1;
            int activeLine = 1;
            while (listIterator.hasNext())
            {
                Vertex vertex = listIterator.next();
                if (appendTimes > 0)
                {
                    if (vertex.guessNature() == Nature.nrf || TranslatedPersonDictionary.containsKey(vertex.realWord))
                    {
                        sbName.append(vertex.realWord);
                        ++appendTimes;
                    }
                    else
                    {
                        // 识别结束
                        if (appendTimes > 1)
                        {
                            if (HanLP.Config.DEBUG)

HeartSea15 · April 5, 2023, 7:05am

您好，在Python中看到，这样的JClass所调用的路径，有中文对照说明，说明下它是干什么用的？

EasyDictionary = JClass(‘com.hankcs.hanlp.corpus.dictionary.EasyDictionary’)

NRDictionaryMaker = JClass(‘com.hankcs.hanlp.corpus.dictionary.NRDictionaryMaker’)

Sentence = JClass(‘com.hankcs.hanlp.corpus.document.sentence.Sentence’)

HeartSea15 · April 5, 2023, 11:22am

老师您好，这行路径在哪里呀，我没有找到。是Python下载后的路径还是哪里呢？

com.hankcs.hanlp.corpus.dictionary.NRDictionaryMaker#roleTag

hankcs · April 5, 2023, 3:36pm

请仔细阅读第三页前言。