请问何老师,对短视频的图文识别后期有研究的打算吗?现在图文识别技术很火,很多搜索需要依据视频内容,通过图文识别转化为搜索,包括图片搜索等等。
1 Like
视频图文搜索应该属于多模态embedding的范畴,这方面的确有些兴趣,也在留意相关语料积累。而精确的搜索其实还与用户query+click through的数据,是每个短视频公司内部不公开的数据,这方面就比较难。而且多模态需要的算力比纯文本大,最终可能还是只有大公司才能负担得起研究开销。
1 Like