搜索策略产品的工作可能会遇到哪些场景和流程?这篇文章里,作者基于工作中的搜索项目,从5个主要问题出发做了拓展和阐述,一起来看看吧。

基于工作中的搜索项目,进行相关搜索策略产品工作的总结,本文主要汇总了以下5个问题进行拓展叙述:

  1. 搜索场景主要模块
  2. 搜索场景常见名词解释
  3. 搜索场景核心流程
  4. 优化目标的制定
  5. 搜索场景需要建设及优化方向

一、搜索场景主要模块

市面上常见的产品,搜索场景基本上都是由搜索入口、搜索中间页、搜索结果页这三部分组成,如下:

  • 搜索入口:搜索框+底纹词(搜索框自带的推荐词)
  • 搜索中间页:历史搜索、热门搜索/搜索发现、联想词、主动搜索、中间页搜索榜单(或运营banner)
  • 搜索结果页:搜索结果页feed流、排序/筛选功能模块、广告位、运营位/banner

各产品细拆下来还有很多模块,虽然模块较多,但这些模块存在的核心目标都是为了让用户在搜索场景快速找到精确目标内容,提升转化和用户体验。

二、搜索场景常见名词解释

1. query

query即用户搜索词,在众多模块中,搜索词可能是用户主动输入的,也可能是点击历史搜索词/热门搜索词/联想词/底纹词等等跳转搜索结果页的内容,也都算作搜索词,也叫关键词。

2. 相关性

相关性是用户搜索词与搜索页面内容的相关程度,比较简单场景的是从用户画像和内容文本的相关性去衡量相关性。大概的做法是随机抽取一部分用户的搜索词及对应的搜索结果内容,拿用户画像中的部分画像字段,再拿搜索结果的物品的相关字段,人工定义2边的字段内容是否相关以及相关性强度等。

3. 索引&倒排索引

1)索引

索引是一种像书籍目录一样快速查询数据的结构,能够快速定位和查找数据。索引能够将查询操作的时间复杂度从遍历整个文档集合降低到对索引的查询,大大提升效率。

2)倒排索引

倒排索引是搜索引擎中最常用的索引结构之一,尤其适用于文本检索场景。其工作原理主要包括以下步骤:

  • 文档分词:首先,对每一个文档(如职位描述或简历)进行分词处理,将文本分割成单个单词或短语,称为“词元”。这个过程可能包括去除停用词(如“的”、“和”等)、词形还原(将单词变为其原形,如“running”变为“run”)等。
  • 词项记录:为每一个独特的词元创建一个项记录,这个记录包含该词出现的所有文档ID列表及其在文档中的位置信息。这是倒排索引的精髓,它把“词”到“文档”的映射关系反转过来,就是倒排。
  • 压缩与优化:为了节省空间和提高效率,会对这些记录进行压缩和索引结构的优化,如使用位图、倒排列表等数据结构。

*以招聘场景举例说明倒排索引的应用:求职者搜索特定职位时,系统只需要在倒排索引中查找关键词对应的文档ID列表,即可快速找到匹配的职位,无需扫描全部职位信息。

4. 意图识别

1)意图识别

我个人认为,意图识别就是在技术上区分搜索和推荐的核心不同点之一。当用户在搜索场景中输入关键词词(query)时,系统会对关键词进行“分词-纠错-改写-意图识别-输出识别结果”这一系列操作,我们把这个过程统称为意图识别。

例如,在招聘平台中,意图识别意味着理解求职者是寻找特定职位、公司信息、工作场所、薪资还是其他相关内容,基本知道了用户在搜什么,然后根据这个意图去推荐符合意图的岗位。这里存放内容信息的地方,就叫做索引

2)分词

分词又叫切词,是文本处理中的基础步骤,切词对于提高搜索效率和准确率非常重要。切词是将连续的文本分割成独立且有语义的词,这也是切词的难点:识别词的边界和歧义问题。

切词时先对文本进行脏数据清洗和转化(去除标点、大小写转换等),然后用平台自有或市面上场景的词典进行文本匹配切词,匹配成功就切词。这里面涉及到词典中没有的和有歧义的词,需要进行算法切分或进行词性标注进行划分,优化词典。

3)纠错

纠错是提升用户体验和搜索效率的重要部分,尤其是在处理用户输入的关键词时,能够有效的识别就纠错,确保用户能够快速找到需要的内容。

常见的纠错内容有:拼写纠错、语法纠错、同音词纠错、缩写纠错等。在用户输入搜索词后,进行初步处理(去掉空格、标点等)后,利用词典(专业词库或错误词典)对每个词进行匹配,且考虑关键词的上下文信息,进行纠错推断。还能利用模型算法进行纠错。通过自动纠错的方式,提升搜索效率及搜索场景的包容性,进一步提升用户体验。

4)改写

改写是提升搜索质量和用户体验的关键过程之一。改写通过分析理解用户的关键词,进行转换,生成更精准更符合自己平台的查询query,从而获得更准更多的搜索结果。

改写通过同义词替换、拼写修正、短语识别与重组、去噪化数据、规范化数据等方面进行搜索词处理。在用户输入搜索词后,进行初步的分词和去噪处理(去掉无意义词),通过自然语言处理技术分析用户查询的意图,包括关键词分析、上下文理解等。根据已建立的改写规则库(如同义词表、拼写纠正规则等),匹配合适的改写方案。运用机器学习模型,基于用户行为数据和历史搜索结果,动态生成更精准的改写建议。

改写能提升搜索结果相关性,有效处理长尾查询,拓宽用户搜索范围,增加内容覆盖度,促进长尾流量的转化。

*意图识别引导整个搜索过程,决定是否需要改写;改写优化查询以提高相关性;切词和分词提供基本处理单元;词典和词库提供词汇规范和专业匹配依据,共同确保搜索的高效和准确。

三、搜索场景核心流程

关于搜索场景的召回、排序等介绍,大家感兴趣的可以看之前的介绍:https://www.woshipm.com/pd/4519608.html

四、制定搜索场景优化目标

1. 定义搜索场景及用户需求

1)用户群体:需要明确平台的主要用户群体,如求职者、雇主客户、代招(猎头)等,并分析他们的特定需求。

2)搜索场景:识别用户在什么情境下使用搜索功能,如求职者寻找特定职位、雇主客户筛选候选人、猎头寻求合适人才等。

2. 确定优化目标

其实在第二部分中就已经提到了搜索场景中各模块的核心目标:让用户在搜索场景快速找到精确目标内容,提升转化和用户体验。因此,搜索场景的整体优化目标,其实就是快速识别用户意图、进行精准推荐,并让用户快速完成转化。

  • 提升用户体验:减少搜索响应时间,优化搜索结果的相关性和多样性,提供个性化推荐。
  • 增加用户参与度:提升搜索后的行为转化率(如点击、申请职位、收藏、投递简历等),延长用户在平台的停留时间。
  • 业务目标:提高职位匹配效率,增加有效连接(求职者与雇主的配对),提升用户满意度和留存率,最终推动业务增长。

3. 设定目标提升量

根据核心目标,我们制定了对应的量化指标:各公司的优化方向略有差异,但整体思路大同小异,搜索场景的优化目标对比下来,基本上是以下4个方向指标的提升:内容的相关性提升、转化漏斗中转化指标的提升(ctr-点击率、cvr-转化率、deep-cvr深度转化等)、转化数量绝对值的提升、用户满意度;

量化指标的确定以后,需要确定量化目标值,例如转化量提升10%。这个10%是怎么来的?不能摸着脑袋直接拍数据,需要多角度进行合理预估:

  • 基准线分析:当前搜索场景的用户量、转化率、转化量数据;对比各周期数据涨幅趋势;
  • 上限预估:根据竞品分析、平台往年数据对比、转化漏斗拆分,预估用户量上限和转化指标上限;
  • 快速验证:在正式实施前,通过A/B测试或小范围试验新策略,收集数据以量化预期提升效果。
  • 风险评估:评估实施计划所需的时间、人力、技术资源以及潜在风险,确保目标设定在资源可承受范围内,同时考虑到可能遇到的阻力和不确定性。

*最近预估的10%转化率提升是基于上述多维度分析的结果,是一个结合了历史数据、行业标准、技术可行性及资源评估的综合预判。实际操作中,这一目标应当是灵活调整的,并随着项目进展不断校验和优化。

五、搜索优化方向

优化目标相关指标思考清楚后,整个场景的优化目标值就很清晰了,这部分主要根据我在工作中遇到的问题汇总后划分了以下4个方向去优化:

1. 用户覆盖率(c端产品体验+策略优化)

这部分主要是针对功能模块的优化,去合理提升用户在各模块的覆盖率以及用户在搜索场景的转化路径;

需要看的数据主要有:

1)整个转化流程中用户的转化漏斗(请求-下发-曝光-点击-转化-深度转化),去看用户在哪一块的流失率最高,进行归因分析

2)提升点击数量常用的策略:扩大曝光量及吸引用户眼球(加角标或创意提示)

3)去掉多余的功能及转化路径(差异化推荐)

从用户点击搜索框-历史搜索词/热门搜索列表-联想词-搜索结果页/结果页的结构组成/展现形式等,进行体验端问题汇总,以优化核心价值为目标,去做汇总;

2. 检索流程及背后逻辑

汇总搜索场景线上流程并梳理对应的检索逻辑,如上面第二节讲的搜索场景核心流程,根据核心流程拆分成以下优化逻辑:

1)用户点击搜索框-点击历史搜索/点击搜索按钮/点击热门搜索/点击联想词-请求列表页(召回-排序-打散)

2)明确搜索场景目前线上检索流程及对应的背后逻辑,梳理完后,针对不同流程的逻辑进行优化,对接不同的技术团队

3)从整体体验端流程(用户点击搜索框–>用户在搜索场景完成深度转化)的每一个阶段,对应到底层的逻辑链路,去做相应的梳理和建设,整体的流程按照串联点去做;

3. 内容优化

相关内容体验及线上客诉融合,针对内容出不来、出来的内容不合理、内容排序排不出上去、无法精准搜索等问题,细化挖掘底层原因,进行优化方案输出;

*我在工作中常见的底层原因主要是意图识别不准确、分词过细、标签召回有误等,供参考。

4. 数据侧要点

数据完整度决定了场景优化的上限,在搜索场景优化或正常的策略优化中,都需要优先做数据测算,以下是我在搜索场景优化中汇总的数据侧需要注意的地方:

1)埋点梳理

  • 搜索场景常见指标是否有对应的埋点或日志表数据
  • 转化漏斗数据链路是否完整

2)数据看板

  • 整体转化漏斗看板/分请求来源看转化漏斗看板
  • 人均指标看版

3)搜索词监控

  • 针对头部搜索词对比,检测头部搜索词是否异常,以及当天新出现在头部的搜索词(及昨天对应为top位置)
  • 搜索词接信安、风控等过滤接口

4)优化路径汇总

数据摸底,输出结论及问题规划。

前期需要对现有搜索场景进行快速的数据摸底工作,从数据维度确认gap在哪,主要有以下几个维度的数据摸底:

场景与大盘数据:

  • 场景流量数据
  • 分流程uv/pv转化率
  • 留存数据(对比大盘)

场景页面转化数据:

  • 转化率
  • 分位置转化数据

头部搜索词数据:

  • top1000/3000/5000/N搜索词曝光占比
  • 天/周/月搜索词重合度
  • 高曝光高转化搜索词
  • 高曝光低转化搜索词

长短期搜索词监测和数据看板建设;

搜索词监测:

  • 搜索场景核心指标监测
  • 突发热词监测
  • 头部热词转化率监测(高曝光高转化/高曝光低转化,出发预警)

数据看板:

  • 整体转化漏斗
  • 分召回策略转化漏斗

六、其他关注点

1. 优化前对齐搜索场景项目优化目标及限制条件(商业收入与连接量的平衡点)或其他诉求(商业流量占比与商业收入的关系)。

2. 明确各流程/各部门接口人,避免单个部分多人来回沟通;需求沟通明确时间节点。

3. 以项目形式进行推进,避免单个需求来回沟通,浪费技术资源。

4. 数据先行,埋点的制定及ab分流的策略等。

5. 抓住重点,看数据在核心不在多,不能哐一下搞一堆数据出来,没有核心点。

本文由 @大俗大雅 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

收藏已收藏{{ postmeta.bookmark }} 点赞已赞{{ postmeta.postlike }}