如何处理口语化的转录文本

alephpi · July 18, 2025, 2:50pm

您好，非常感谢HanLP的开源工作。
我目前需要处理音频转录文本，这些文本口语化色彩非常浓重，有很多口水词、断头断尾句、重复文本，同时还包括转录的错别字，我希望清洗它们但不能作文本摘要或者总结，因为我想通过删除这些多余的词来剪辑音频。

下面是一段转录文本的例子：

重新控制你自己所以这个时间长了就是你要矫正的话就是你如果性泛滥就是性压抑的然后性泛滥的话其实就是你使得这个节制有规律就行了就直接首先就是有规律有规律的就是这个规律的目的不是让自己爽一次而是让自己受控让自己受控重新受控重新受控了之后去去做事情去经营经营自己经营自己事业学习经营自己每一次要发现自己快受控了那就去挑个地方厕所里边或者说浴浴室里边啊或者说自己呃就被窝里面只能这么去那很正常就是没有额外的没就就不认为这是什么奖励性的或者是这这意思就是只是为了合理的生物学大脑抢夺自己的人格的控制权然后不管啊然后就不管你知道不给他投射社会意义不给他投射什么什么意义不给他投射什么什么意义就是收收收尾的啊就是我之前讲过了就是呃结束了之后是要去看什么东西在流逝然后看什么东西重新长出来要有一个静观啊结束了之后要有一个静观就是像虎视眈眈一样的在像个老虎一样在里面看你一开始像个龙那边乱窜嘛结束了之后你要像个老虎一样在那边看就是非常比较残酷的一个冷酷的一个一个视角在这边看啊就像赤壁之战的时候那曹操他妈船全都被烧了然后曹操自己呵呵冷笑这朋友啊操你妈这辈子没机会统一了哎呀原来他妈的试错犯错就这么这么这么容易就犯错了就是那种那种视角像个老虎一样盯着自己的失败或者盯着自己的失控又重新受控这个过程当中这个一个愚蠢的无聊的循环啊这种状态那么这个状态呢习惯了之后的话就会后面就不需要信享乐了后面的话你就会发现你的身体放纵的方式就或者说自恋的方式会投掷到其他上面去比如说你的脾气啊或者说你的一些判断比固执啊固执判断的时候会固执就是这个时候你然后你逐步形成那种呃就是你后面就会就就不不通过这个呃这个性释放的方式来来重新控制你自己了

我目前的想法是用tok和pos模型给每个词打上标注，然后删去一些无意义的虚词，再计算重复的实词并删除等等。我不知道是否有类似的工作可供参考的？

我也试过使用大语言模型，但是无论给什么提示词，它都不能忠实的完成“只删除字符或修正错别字”这个任务，总是添油加醋，这样就没办法让音频和文本对齐。

另外顺便问一下，我注意到github文档里说分词模型里面COARSE_ELECTRA_SMALL_ZH和FINE_ELECTRA_SMALL_ZH是最好的两个单任务模型，但我在英文文档里又注意到N_TOK_LEM_POS_NER_SRL_UDEP_SDP_CON_MODERNBERT_LARGE这个多任务模型的评分超过了前两者，所以想确认一下目前的SOTA的tok和pos模型是不是已经变成后者这个多任务模型了？

For info：我使用的是FunASR的paraformer-zh模型对音频进行转录的，除了上面的文本，我还有字符级别的时间戳信息。上述文本是无标点的，但是FunASR也有相应的标点预测模型可供使用。另外想问HanLP是否有标点预测模型？（我好像没找到）。去除重复的另一个想法就是在标点预测的基础上，用句子嵌入的相似度来删除重复句，不知道HanLP有没有句子嵌入的模型？（好像也没有找到）

hankcs · July 19, 2025, 7:09am

MODERNBERT_LARGE是英文模型，不可比较。

没有，你可以参考POS模型训练一个tagger预测每个字符后面是否应该插入什么标点符号。

暂时没有。目前HanLP的定位是core NLP，偏向linguistics。你提到的功能属于外围的application，跟HanLP的定位不太搭。