一個突發異想的問題 - 越南語 hanlp

有一個突發異想很久的問題,跟大家詢問一下。

越南語其實是一個很像中文,但是文字已經拉丁化的語言。 我想跟大家請問的是,hanlp 有沒有可能把現成的演算法,再加上一些越南語這個領域的語料資料等,讓 hanlp 支援越南語呢?

我知道這是一個大問題,但是如果我們先把問題先專注在分詞任務上來討論。

以上不知道可行嗎? 可行的話,有什麼方向可以指示一下在下去研究執行方法?

感恩

这是个好问题,答案毫无疑问是肯定的,并且已经实现了。现在HanLP的多语种UD模型已经覆盖了越南语,并且部署上线了。事实上已经有来自越南的用户申请HanLP的API,并且给予了肯定。

不过,UD的越南语portion比较小,可能效果还有很大的提升空间。特别是越南语单词之间似乎也没有空格,分词难度很大。而目前的多语种模型的SentencePiece分词器是无监督的,可能效果不尽如人意。

我觉得你可以去survey一下越南语的分词语料库,如果能提供一些的话,我们就可以训练发布越南语单语种模型。