
胡甜媛 等:体现使用反馈的 APP 软件用户评论挖掘
3169
随着智能终端的广泛应用,APP 软件发展迅速.APP 软件的特点是开发周期短,更新速度快,同类型产品竞争
激烈.在日益激烈的市场竞争中,用户驱动的软件演化更具有实际意义.Panago 等人
[1]
指出,由于软件开发者和用
户互不认识,用户使用反馈,如建议意见和系统异常等对开发者更加重要.因此,获取有价值的软件使用反馈可
以让用户参与到软件的设计和维护中,是软件开发商在竞争激烈的软件市场取得更好收益的重要保证.Jiang 等
人
[2]
认为,APP 软件的在线用户评论凭借覆盖用户广泛、内容丰富、时效性强等优势,成为软件使用反馈获取的
重要资源.Lu 等人
[3]
认为,针对产品的在线用户评论可以及时地体现用户关注的产品属性、同类型其他产品的
优势与自身产品的劣势以及下一版本需要改进的地方.因此,基于 APP 软件的用户评论挖掘可以帮助获取有价
值的软件使用反馈,分析用户在使用软件过程中的使用感受及用户所关注的软件特征,帮助软件开发者站在用
户的视角有针对性地维护和改进软件,最终辅助软件开发者提高软件产品的竞争力.此外,挖掘体现使用反馈的
用户评论有助于软件应用市场综合分析软件的实际使用情况,从而给潜在用户提供有效的参考.
然而,APP 软件用户群体广泛,用户评论内容多样.海量的用户评论中包含大量与 APP 软件使用反馈不相关
的用户评论信息,例如,与所评价的 APP 软件无关的用户评论、未体现 APP 软件实际使用情况或用户使用观点
的用户评论等.针对用户评论数据规模大、更新快等特点,如何过滤大规模用户评论数据中未体现使用反馈的
用户评论,准确、高效地获取有建设性的 APP 软件用户的使用反馈是当前亟需解决的问题.
1 相关工作
针对挖掘用户评论中有价值的使用反馈,国内外学者开展了相关研究.Cui 等人
[4]
提出基于评论挖掘的需求
获取方法 RERM(software requirement elicitation method on review mining),通过采用本体和条件随机场模型融
合的特征提取方法,结合情感分析技术,对软件存在的相关问题分类汇总,如改进特征、建议意见和缺陷修改等.
为了挖掘用户评论中体现软件存在的问题的使用反馈,Panichella 等人
[5]
应用一种自然语言解析器(stanf or d
typed dependencies parser)进行特征抽取,通过对依赖关系的分析,检测评论文本结构,分析特定的关键字所对应
的精确语法角色和特定语法结构,从而判断用户评论是否与软件缺陷或用户功能请求等方面的使用反馈相
关.Grano 等人
[6]
提供了 APP 软件的用户反馈类型的概述,并记录了相关代码度量标准的演变.
部分研究通过分类、聚类来挖掘用户评论.Guzman 等人
[7]
为了识别用户评论中体现使用反馈的细粒度的
功能特征,利用主题建模技术对细粒度功能进行分组,将其转化为更有意义的高级特征.Keertipati 等人
[8]
为了
挖掘用户评论中体现的软件需要改进的特征,应用文献[7 ] 中主题模型的方法抽取用户评论中的相关特征,站在
APP 软件开发者的角度,对挖掘出的软件使用过程中存在的问题或用户期望进行优先级排序.Gao 等人
[9]
提出
的主题排序和评论排序计划可以对用户评论进行优先级排序,从而帮助开发者应用最合适的主题模型发现软
件使用过程中存在的最新问题.Palomba 等人
[10]
围绕相似的体现软件未达到期望的用户评论,通过主题模型
LDA(latent Dirichlet allocat ion)等 3 种聚类技术对评论中的用户请求进行分组.Guzman 等人
[11]
应用多个分类器
对用户评论进行更详细的种类划分,将 APP 软件用户评论划分为 7 个类别:缺陷报告、功能优点、功能缺点、
用户请求、表扬、抱怨和使用场景,不同类型的用户评论可以反馈出用户对软件的满意程度或软件存在的问题
等. Maalej 等人
[12]
采用文本分类、自然语言处理、多种情感分析等技术将用户评论分为问题报告、功能请求、
用户体验和评分 4 种类型.Villarroel 等人
[13]
设计了一种分类、聚类的方法——CLAP(crowd listener for release
planning),对体现软件缺陷、特征请求等用户评论进行分类,同时针对体现相似软件缺陷的用户评论进行聚
类.Gu 等人
[14]
根据预定义的句式结构直接抽取用户评论句子中的对象-观点对,通过对象-观点进行相同方面的
聚类来总结用户评论中体现的使用反馈.
通过分析现有研究我们发现:(1) 在经过预处理后的用户评论数据中,仍然包含大量无用数据,应用分类技
术挖掘用户评论,大量无关的用户评论数据会影响有价值的使用反馈数据的挖掘;(2) 基于已有的知识库的方
式只能匹配知识库中已有的内容,无法识别知识库外有价值的信息;(3) 应用有限的软件特征词挖掘体现使用
反馈的用户评论,忽略了句式结构的重要性;已有针对用户评论进行使用反馈挖掘的研究对象大部分为用户评
论内容,而忽略了用户评论的句式结构在用户表达使用反馈时的规律.此外,由于在线网络环境下,用户评论数
评论