宗成庆指出了中文信息处理的现状和遇到的问题如下[2]。
“在规范的汉语文本上最好的句法分析性能(短语准确率)也只有 86%左右,而日语和英语的句法分
析性能已经超过 90%。”
“近几年来随着国内指标(SCI/SSCI 论文数量、引用次数、高被引论文数等)导向的各种学术评估愈
演愈烈,很多研究开始一味地跟踪热点、追逐新潮,只是为了早出成果、快发论文,而最终忘记了解决
中文语言理解这一问题的根本目标。这正是我们担忧的关键所在。”
“而当统计方法一统天下之后,对语言学特性和认知规律的研究在自然语言处理领域并没有得到应
有的重视。”
“如何针对汉语自身的特点和规律建立专用的模型和算法,恐怕才是最终解决汉语理解问题的正确
出路。”
《语块识别研究》
能否有一个统一语块定义与识别研究?
语块与语块的关系,可以抽象成句子的各种构成模式。从而可以依靠大规模语料库统计分析句子模式,使句子模型有了实证和统计分析发现规律的依据。
宗成庆在《统计自然语言处理》中指出:“语块
识别问题是自然语言处理领域研究的一个基础性问题,关于汉语语块的定义,至今没有一个公认的权威
解释, 很 多 专 家 都 给 出 了 自 己 的 诠 释 和 划 分标准。[3]
郑家恒指出:“句法分析分为两个过程。 一是组块的识别,即从句子中识别出组块。 二是组块之间
关系的判断,即将组块结合句子。 语块实际上就是一种短语。
建议学界采用自然语块定义,开展大规模语料库的统计分析以发现句子结构模式。
【自然语块】语言文本中以标点符号为间隔划分的字词符号的有序集合。
【实词语块】不含有虚词(介词、助词、连词)的文本中的字词顺序集合。 组成语块词的个数称为语块粒度。
【术语组块】含有专业术语的实词语块。
本人做了个学习笔记,希望老师给予指导。