前台用户输入一句话,假设用户输入的可能有时间、日期、高血压、低血压。但是这些顺序是打乱的,而且时间可能是重复的。我们需要的数据:用户的时间、日期、低血压值、高血压值
-
有2个问题:
时间问题:用户输入的时间是打乱的并且是重复的而且很可能是不完整的
血压问题:不能确定会出现关键词例如“血压”、“高”,“低”等词 -
举例:时间和日期不是是连在一起的,时间和血压数据混合,而且顺序不一样
2021年测试高血压是138,时间是2点45,低血压是44
昨天测试血压是178/89在19点56 -
我的想法:将这句话中所有的日期信息提取出来,剩下的数字就是血压的信息了。
-
我目前是做了hanlp的单纯的分词和打印词性:
粗分结果[ /w, 2005/m, 年/qt, 10月/t, 12/m, 日/b, 9/m, :/w, 00/m]。结果并不理想。我们无法获取到日期和时间信息的nt的标注结果 -
初次接触nlp,希望个位大佬指导。是要用到什么技术才能实现我说的,是训练模型还是?或者hanlp达不到我说,大佬们还有没有其他的方法