一、IPC层次化权重匹配方案完整流程

为了应对需求和成果技术匹配，通过专利的IPC分类信息，进行RAG应用优化，其中主要用到向量数据库检索，具体增强检索方式如下

1. 数据预处理与存储阶段

1.1 IPC代码解析

输入: "H01M10/42(电池管理系统)"
↓
分解:
部分(Section): H
大类(Class): H01
小类(Subclass): H01M
主组(Main Group): H01M10
子组(Full Code): H01M10/42
描述: 电池管理系统

1.2 生成增强表示

enhanced_text = "SECTION:H CLASS:H01 SUBCLASS:H01M MAIN_GROUP:H01M10 FULL_CODE:H01M10/42 DESC:电池管理系统"

1.3 向量化与存储

使用模型将增强表示转换为向量
存储原始IPC文本和向量到Milvus
创建HNSW索引(余弦相似度)
查询处理阶段
2.1 查询IPC代码解析
分割多个IPC代码: "H01M10/42(电池管理系统),G01R31/36(电池测试)"
为每个代码生成增强表示
合并为单一查询表示
2.2 向量检索
生成查询向量
使用HNSW索引+余弦相似度
参数: nprobe=30, top_k*3候选
返回匹配的IPC代码及相似度分数
层级匹配评分阶段

3.1 层级匹配计算

对每个查询IPC代码和候选IPC代码:

for q_code in query_codes:
    for s_code in stored_codes:
        # 部分匹配 (如H)
        if q_code[0] == s_code[0]: score += 0.2

        # 大类匹配 (如H01)
        if q_code[:3] == s_code[:3]: score += 0.2

        # 小类匹配 (如H01M)
        if q_code[:4] == s_code[:4]: score += 0.2

        # 主组匹配 (如H01M10)
        if q_main == s_main: score += 0.2

        # 完全匹配 (如H01M10/42)
        if q_code == s_code: score += 0.2

3.2 匹配覆盖率计算

匹配数量 = 有匹配分数的查询IPC代码数量覆盖率 = 匹配数量 / 查询IPC代码总数

4. 结果重排与过滤阶段

4.1 综合评分计算

对每个候选结果:

final_score = 0.6 * vector_similarity + 0.4 * ipc_match_score

ipc_match_score包含两部分:

ipc_match_score = (avg_layer_score + coverage) / 2

4.2 重排序与结果选择

按final_score降序排列所有候选结果
选择top_k个结果返回
可选: 设置最低分阈值(如0.7)过滤低质量匹配
系统优化循环
5.1 参数调优
向量相似度与IPC匹配权重比例(默认0.6:0.4)
各层级匹配的权重分配
HNSW索引参数(M, efConstruction, efSearch)
候选结果数量(top_k的倍数)

这个完整流程结合了向量检索和结构化匹配的优势，能够根据IPC代码的层级结构和语义内容提供更准确的检索结果。

二、优势与劣势

优势
结构感知：能够识别IPC编码的层次结构关系，即使不是完全匹配也能找出相关技术领域
精度提升：通过多层级的匹配评分（部分、大类、小类、主组、子组），大幅提高检索精度
混合搜索策略：结合向量相似度(60%)和层级匹配(40%)的混合策略，平衡语义和结构信息
实施简单：不需要重新训练专门的模型，只需调整现有系统
全面评估：同时考虑匹配质量和匹配覆盖率，避免过度依赖单一指标
无需大量数据：不依赖于大规模的IPC代码语料库
劣势
权重固定：预设的层级权重(0.2, 0.2, 0.2, 0.2, 0.2)可能不适用于所有技术领域
计算开销：增加了额外的后处理步骤，检索响应时间会略有增加
参数调优：需要针对不同场景调整向量相似度和IPC匹配的权重比例
语义关联有限：主要基于编码结构匹配，未充分考虑不同IPC代码间的语义关联
异常处理：对格式异常的IPC代码可能会产生不可预期的结果
扩展性挑战：如需支持其他专利分类系统(如CPC或F-term)，需要额外开发
最佳使用场景是在向量搜索效果不佳时作为一种增强方法，或在需要精确匹配技术领域而非仅依赖语义相似度的情况下使用。