一個突發異想的問題 - 越南語 hanlp

u8621011 · May 20, 2022, 9:25am

有一個突發異想很久的問題，跟大家詢問一下。

越南語其實是一個很像中文，但是文字已經拉丁化的語言。我想跟大家請問的是，hanlp 有沒有可能把現成的演算法，再加上一些越南語這個領域的語料資料等，讓 hanlp 支援越南語呢？

我知道這是一個大問題，但是如果我們先把問題先專注在分詞任務上來討論。

以上不知道可行嗎？可行的話，有什麼方向可以指示一下在下去研究執行方法？

感恩

hankcs · May 20, 2022, 10:40pm

这是个好问题，答案毫无疑问是肯定的，并且已经实现了。现在HanLP的多语种UD模型已经覆盖了越南语，并且部署上线了。事实上已经有来自越南的用户申请HanLP的API，并且给予了肯定。

不过，UD的越南语portion比较小，可能效果还有很大的提升空间。特别是越南语单词之间似乎也没有空格，分词难度很大。而目前的多语种模型的SentencePiece分词器是无监督的，可能效果不尽如人意。

我觉得你可以去survey一下越南语的分词语料库，如果能提供一些的话，我们就可以训练发布越南语单语种模型。