新词发现在实际应用中如何去使用的问题?

您好,我们是做舆情相关,因此每天会有大量的新闻信息入库,大概有2000万左右一天。现在我们分词采用了hanlp,在其中有新词发现模块。在使用过程中有个困惑就是,一天这么多的数据,有必要都做新词发现吗?我测试了1万多条,就有两千个新词,感觉这个数量还是挺多。我想问一下一般大型公司新词发现是怎么一个策略。是定期在某一些数据上做,做完进行人工挑选吗?

每天做,记录词频。如果某天某词爆发增长,则说明有突发事件。

多谢您,我试着记录一下。