第11章第七节情感分析语料库

您好,我在跑情感分析的示例程序时,顺便看了几眼ChnSentiCorp的语料。一些正类文本反而让我觉得是负类文本,是标注的疏忽?还是我理解的有问题。。。
比如,pos.79.txt: “没有桑拿设备,理由是正在维修,但真正的原因是不赚钱.”, 这个是因为负类情绪不明显而算作正类吗?但读起来感觉还是像负类。

再如,pos.40.txt: “唯一感觉比较欣慰的是可以不用再蹲着或者弯腰收拾行李了——在本人此前的N次投诉后,酒店终于在房间内增加了行李架。。。”可是,这次预定的“豪华间”(也就是此前本人入住N次的6楼“行政间”),居然又找不到行李架了,一时无语。。。这,对老客户也太不尊重了吧???!!!
我不知道银帆是如何管理客户信息的,但是有些酒店,如果入住一次的话,系统里就会有客户的信息,下次入住的时候酒店就能预先根据客户的喜好做相应的安排。。。如果行李架不是“豪华间”的标配,至少知道(当然,如果酒店的系统没有保留记录的话,那么是不会“知道”的)本人来了,好歹也给临时安排一个吧。。。唉,不知道应不应该套用一句老话,朽木不可雕也。

这个我读下来应该算作负类样本吧?

随便看了几个就发现了这种情况。。不知道我理解的对不对,请求帮助~

标注错误是常有的事,规范的语料库会汇报内部一致率。这份语料库可能是按照评分阈值自动转换的,语料制作方没有人工校对,具体可以搜索一下谭松波的论文。

好的,谢谢哦

标注错误很常见,只要占比不大即可,模型是可以从噪音中学习的