关于登录词Riv和未登录词Roov的百分比,引入词典的注意事项,老师解答下,感谢!!!!

《自然语言处理入门》 P82, 课本上有一句话是这么说的"让它额外接受一部词典"
Q:请问这部词典有什么要求吗,一般对词典的数据量和知识领域有什么要求吗,比如说我现在做特定行业的,遇到很多专业领域的名词,这个时候我应该引入什么样的词典库。
或者说词典库引入需要什么诀窍,才能精确体现Riv 和Roov 的水平

引入词典的难点在于避免交叉歧义,应当尽量选取长度长的词语。短词语容易引发交叉歧义,最好通过语料标注的方法学习。

建议再读一读召回率的定义,引入词典不一定提高IV、OOV的召回率,只能增大 R_{IV} 的分母、减小 R_{OOV} 的分母。