“让搜索更懂你”,它不仅是简单的关键词匹配,而是深入到语义、上下文和用户意图层面的智能理解。

核心概念:搜索意图的分类
用户的搜索意图通常可以分为以下几类:
- 导航型:用户想去一个特定的网站或页面。
- 搜索“百度首页”
- 信息型:用户想了解某个问题的答案或获取某类信息。
- 搜索“如何种植多肉植物”、“北京天气”
- 交易型:用户有意向进行某种消费或操作。
- 搜索“iPhone 15 价格”、“预订故宫门票”
- 探索/比较型:用户处于信息收集和比较阶段,尚未做出决定。
- 搜索“华为和苹果手机哪个好”
百度实现意图匹配的关键技术层面
-
查询理解:
- 分词与词法分析:将用户输入的中文句子切分成有意义的词语。
- 实体识别:识别查询中的人名、地名、机构名、产品名等关键实体。
- 意图识别:通过机器学习模型(如深度学习、BERT等预训练模型)判断用户查询属于上述哪一类意图。
- 查询纠错与扩展:自动纠正错别字(如“苹果手要” -> “苹果手机”),并进行同义词、近义词扩展,以覆盖更广泛的表达方式。
-
理解:
对互联网上的海量网页、视频、APP内容进行深度分析和标注,提取其主题、关键词、实体和核心信息。
-
语义匹配与相关性计算:
- 语义向量模型:将用户的查询和文档都转化为高维空间的向量,即使查询和文档用的词不同,只要语义相近,它们的向量距离就会很近。
- 深度神经网络匹配模型:如Baidu自研的ERNIE(知识增强的语义表示模型),能够更好地理解中文语境下的语义、知识和上下文,进行更精准的匹配。
-
排序学习:
- 匹配出大量相关文档后,使用复杂的排序模型(如LambdaMART、深度排序模型)对结果进行综合排序,排序考虑的因素远超相关性,还包括:
- 权威性:网站或来源的可信度。
- 时效性:信息的新鲜程度。
- 用户体验:页面的加载速度、移动端适配、广告干扰度等。
- 用户个性化(在合规前提下):结合用户的搜索历史、地理位置等,提供更贴切的结果。
- 匹配出大量相关文档后,使用复杂的排序模型(如LambdaMART、深度排序模型)对结果进行综合排序,排序考虑的因素远超相关性,还包括:
一个简化的匹配流程示例
用户输入:“周杰伦的歌晴天歌词”
- 查询理解:
- 分词:
[周杰伦] [的] [歌] [晴天] [歌词] - 实体识别:
[人物:周杰伦],[歌曲名:晴天] - 意图识别:信息型意图(用户想获取“晴天”这首歌的歌词信息)。
- 分词:
- 召回:从索引库中快速找出所有包含“周杰伦”、“晴天”、“歌词”等关键词的网页、音乐平台的歌词页、知识图谱卡片等。
- 精排:
- 计算每个召回结果与查询的语义相关性。
- 优先排序权威音乐网站或百科的歌词页。
- 可能直接生成一个知识卡片在搜索结果顶部,显示完整的歌词。
- 过滤掉低质量、挂马或内容不匹配的页面。
- 呈现:将排序后的结果(卡片、网页链接、视频链接等)以清晰的方式展示给用户。
价值与挑战
- 价值:
- 极大提升用户找到所需信息的效率和满意度。
- 连接用户与更准确、更优质的内容和服务。
- 创作者和商家提供精准的流量。
- 挑战:
- 意图的模糊性:同一查询可能有多种意图(如“苹果”是水果还是公司?)。
- 长尾查询:应对海量的、不常见的个性化查询。
- 对抗性行为:防止SEO作弊、低质和虚假信息干扰结果。
- 时效与权威的平衡:对于新闻事件,需要快速呈现最新信息,同时也要甄别信源。
百度的搜索意图匹配是一个融合了自然语言处理、机器学习、知识图谱和大数据计算的复杂系统工程,它的目标是跨越用户“表达的词汇”和其“内心的需求”之间的鸿沟,实现从“关键词搜索”到“智能问答”和“需求满足”的进化,这是现代搜索引擎最核心的竞争力所在。