本文为《人机对话系统中意图识别方法综述》论文的阅读笔记,对近些年应用在意图识别研究方面的深度学习方法进行分析、比较和总结。
意图识别介绍
意图识别(Intent Detection,ID)作为口语理解的子模块,也是人机对话系统构成的关键。所谓意图就是用户的意愿,即用户想要做什么。意图有时也被称为“对话行为”(Dialog Act),即用户在对话中共享的信 息状态或上下文变化并不断更新的行为。
意图一般以“动词+名词”命名,如查询天气、预订酒店等。而意图识别又称为意图分类,即根据用户话语所涉及到的领域和意图将其分类到先前定义好的意图类别中。
意图识别难点
数据标注
:研究者难以获取到用户与机器人之间的聊天文本,,带标注的意图文本特别少。用户
表达不规范
:用户的意图表达文本一般具有表达口语化、语句简短、内容宽泛等特点,这就使得意图识别较为困难。意图的隐含性
:按照表达种类可以分为显式意图和隐式意图显式意图指用户通过文本形式,明确指出自己的意图需求 隐式意图指用户没有明确自己的意图需求,需要通过分析用户的潜在意图,来推理用户的真实意图
意图的多样性
:在用户表达的一句话中同时识别出两种甚至多种意图的问题成为多意图识别问题。
传统意图识别方法
基于规则的方法
人为构建规则模板以及类别信息对用户意图文本进行分类。
基于统计特征的方法
对语料文本进行关键特征的提取,然后使用机器学习模型进行分类。
多意图识别方法
将句子看作三种类型,单意图语句、带连词的多意图语句和不带连词的多意图语句,然后采用两阶段法实现多意图识别。
基于深度学习的方法
基础模型
RNN LSTM GRU LSTM-CNN 胶囊网络
多意图识别方法
将用户意图文本进行依存句法分析确定是否包含多意图,利用词频-逆文 档频率(TF-IDF)和训练好的词向量计算矩阵距离来确定句子的意图数量。
# 竞赛交流群 邀请函 #
每天Kaggle算法竞赛、干货资讯汇总
与 22000+来自竞赛爱好者一起交流~
文章转载自Coggle数据科学,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。