一、分析目的
发现百度搜索天气的需求理解策略结果存在的问题,针对天气query提出需求理解策略优化方案。
二、需求识别的相关指标
目的:能够准确解析query可能存在的用户需求,帮助下一步检索
关键指标:
召回率=策略识别有实际天气需求的数量/数据库中应该被识别为天气需求的数量
准确率=策略正确识别的天气需求的数量/策略识别为天气需求的数量
三、发现问题
整理后台导出的200个搜索词,发现query含有“天气”关键词的均被标记为天气需求。无“天气”关键词但可能有天气需求的query未被识别为天气。计算被机器标识为「天气」的召回率及准确率,整理其中存在的问题。
召回率=29/70*100%=41.42%
准确率=29/36*100%=80.55%
3.1 准确召回的query
准确召回的query均为需求明确,结构简单的query,大部分具有以下明显特征:
3.2 存在未被召回的query分析
未未被召回的query无“天气”关键词,但可能有查天气的需求。例如搜索行政区域,扩展需求应含有天气需求;另有一种表达口语话的情况,但有明显的特征,需要建立语义理解规则及扩展词库。
3.3 存在query解析不准确问题分析
存在7个query解析不准确,不准确的query均不具有准确召回的query结构特征。
汇总:抽象化存在问题的query
四、优先级排序
需求文档
一、需求背景
通过用户搜索历史发现,天气类目的需求识别召回率仅有41.42%,准确率80.55%,数据不理想,有提升的空间。本次需求变更目的为提高天气识别的召回率及准确率。
二、需求目标
优化天气识别需求识别策略,能够准确解析query可能存在的用户需求,帮助下一步检索
关键指标:
召回率=策略识别有实际天气需求的数量/数据库中应该被识别为天气需求的数量
准确率=策略正确识别的天气需求的数量/策略识别为天气需求的数量
三、需求概述
一期需求:解决有天气需求的query解析未召回的问题以及算法处理的基础——切词。
1.切词不准确
经统计query未召回的问题:
2.未对行政区域query进行“天气”类目需求扩展
3.口语化的query,建立停用词汇,进行缺乏语义处理及资源支撑
语义处理规则:行政区域词汇+时效性词汇+气候特征相关词汇
资源支撑:行政区域词汇、时效性词汇、气候特征相关词汇
二期需求:解决无天气需求query解析不准确问题。
query识别不准确的问题:
1.query中有其他明显的类目需求关键词,未比较不同类目的需求强度。
2.query中未有明显的其他类目特征的关键词,未通过其他辅助资源匹配判断是否有其他类目特征。
3.经判断为没有天气及其他类目需求的query,但含有天气关键词的。
四、需求详述
4.1 准确召回的query特征
通过数据分析发现,能够准确召回的query中,有以下结构特征:
以上query结构均为简单清晰,表达明确的query。除此之外,仍存在其他结构特征的query具有天气类目需求。
4.2 一期需求:
问题1:切词不准确
示例:男朋友今天气死我了 被机器标记为天气需求
准确切词应该为:男/朋友/今天/气/死/我/了
问题2:未对行政区域query进行“天气”类目需求扩展 ,占比72%
示例:query=广州市 ,广州市天气预报为query的扩展需求之一,现未展示天气的特型结果
解决方案:query属于行政区域词汇时,搜索结果首页显示该地区的天气预报特型结果,结果排序根据点击量反馈。
问题3:query不含“天气”关键词,表达口语化的query ,占比11%
示例:广州现在冷不冷、??谙衷诖┦裁匆路鲜省⒈本┟魈煜掠曷?/p>
解决方案:
步骤1.建立停用词汇,query切词后,对停用词汇过滤处理。
步骤2.根据语义规则判断是否有天气需求
query均有一定的规则,可根据语义判断是否含有天气需求,
语义规则:行政区域词汇+时间词汇+气候相关词汇
建立相关的资源库:
时间词汇资源:应包含现在,明天,后天,这几天,未来15天等符合语境的时间词汇,不包含:清朝、年份等
气候相关词汇资源:①【天气现象】下雨、打雷、刮大风、刮风、下雪、台风、太阳......
②【气候扩展词】洗车、穿衣服、紫外线、跑步、温度、湿度、爬山、下海......
4.3 二期需求:
问题1:query中有其他明显的类目需求关键词,未比较不同类目需求强度
示例:
歌曲春天天气真好
query中含明显的音乐类目需求,且通过歌曲库验证春天天气真好为歌曲名,需求强度更强。
天气 品冠
query中含歌手的名字,且《天气》为品冠的作品,需求强度更强。
解决方向:
query中含“天气”,但非2.1中结构的query,判断是否有其他类目需求,计算不同需求间的符合度。
问题2:query中未有明显的其他类目特征的关键词,未通过其他辅助资源匹配判断是否有其他类目特征
示例:今天天气好晴朗 处处好风光、爱上你的好天气、今天天气好晴朗
query中含“天气”,但非4.1中结构的query,未有明显的其他类目关键词,但通过其他歌词/曲库名等辅助资源判断含有其他类目需求的,计算不同需求间符合度。
问题3:query中含有天气关键词,经多种方式判断均未有天气需求
示例:试论我国大陆电视台天气预报节目的发展——兼谈与美国电视台天气预报节目的比较
解决方案:通过上述多种判断方式未确定类目需求的,直接进行关键字匹配。
4.4 统计需求
1.上线一周后,随机抓取200条记录,分析准确率及召回率
2.解析为天气需求的 天气特型结果点击率;翻页,修改搜索词的比例,计算需求满足度。