AI

IPC层次化权重匹配方案

2025-8-29 / 0 评论 / 33 阅读

一、IPC层次化权重匹配方案完整流程

为了应对需求和成果技术匹配,通过专利的IPC分类信息,进行RAG应用优化,其中主要用到向量数据库检索,具体增强检索方式如下

1. 数据预处理与存储阶段

1.1 IPC代码解析

  • 输入: "H01M10/42(电池管理系统)"

    分解:
  • 部分(Section): H
  • 大类(Class): H01
  • 小类(Subclass): H01M
  • 主组(Main Group): H01M10
  • 子组(Full Code): H01M10/42
  • 描述: 电池管理系统

1.2 生成增强表示

enhanced_text = "SECTION:H CLASS:H01 SUBCLASS:H01M MAIN_GROUP:H01M10 FULL_CODE:H01M10/42 DESC:电池管理系统"

1.3 向量化与存储

  1. 使用模型将增强表示转换为向量
  2. 存储原始IPC文本和向量到Milvus
  3. 创建HNSW索引(余弦相似度)
  4. 查询处理阶段

    2.1 查询IPC代码解析

  5. 分割多个IPC代码: "H01M10/42(电池管理系统),G01R31/36(电池测试)"
  6. 为每个代码生成增强表示
  7. 合并为单一查询表示

    2.2 向量检索

  8. 生成查询向量
  9. 使用HNSW索引+余弦相似度
  10. 参数: nprobe=30, top_k*3候选
  11. 返回匹配的IPC代码及相似度分数
  12. 层级匹配评分阶段

3.1 层级匹配计算

对每个查询IPC代码和候选IPC代码:

for q_code in query_codes:
    for s_code in stored_codes:
        # 部分匹配 (如H)
        if q_code[0] == s_code[0]: score += 0.2

        # 大类匹配 (如H01)
        if q_code[:3] == s_code[:3]: score += 0.2

        # 小类匹配 (如H01M)
        if q_code[:4] == s_code[:4]: score += 0.2

        # 主组匹配 (如H01M10)
        if q_main == s_main: score += 0.2

        # 完全匹配 (如H01M10/42)
        if q_code == s_code: score += 0.2

3.2 匹配覆盖率计算

匹配数量 = 有匹配分数的查询IPC代码数量覆盖率 = 匹配数量 / 查询IPC代码总数

4. 结果重排与过滤阶段

4.1 综合评分计算

对每个候选结果:

final_score = 0.6 * vector_similarity + 0.4 * ipc_match_score

ipc_match_score包含两部分:

ipc_match_score = (avg_layer_score + coverage) / 2

4.2 重排序与结果选择

  1. 按final_score降序排列所有候选结果
  2. 选择top_k个结果返回
  3. 可选: 设置最低分阈值(如0.7)过滤低质量匹配
  4. 系统优化循环
    5.1 参数调优
  5. 向量相似度与IPC匹配权重比例(默认0.6:0.4)
  6. 各层级匹配的权重分配
  7. HNSW索引参数(M, efConstruction, efSearch)
  8. 候选结果数量(top_k的倍数)

这个完整流程结合了向量检索和结构化匹配的优势,能够根据IPC代码的层级结构和语义内容提供更准确的检索结果。

二、优势与劣势

优势
结构感知:能够识别IPC编码的层次结构关系,即使不是完全匹配也能找出相关技术领域
精度提升:通过多层级的匹配评分(部分、大类、小类、主组、子组),大幅提高检索精度
混合搜索策略:结合向量相似度(60%)和层级匹配(40%)的混合策略,平衡语义和结构信息
实施简单:不需要重新训练专门的模型,只需调整现有系统
全面评估:同时考虑匹配质量和匹配覆盖率,避免过度依赖单一指标
无需大量数据:不依赖于大规模的IPC代码语料库
劣势
权重固定:预设的层级权重(0.2, 0.2, 0.2, 0.2, 0.2)可能不适用于所有技术领域
计算开销:增加了额外的后处理步骤,检索响应时间会略有增加
参数调优:需要针对不同场景调整向量相似度和IPC匹配的权重比例
语义关联有限:主要基于编码结构匹配,未充分考虑不同IPC代码间的语义关联
异常处理:对格式异常的IPC代码可能会产生不可预期的结果
扩展性挑战:如需支持其他专利分类系统(如CPC或F-term),需要额外开发
最佳使用场景是在向量搜索效果不佳时作为一种增强方法,或在需要精确匹配技术领域而非仅依赖语义相似度的情况下使用。

    评论一下?

    OωO
    取消