📚 知识库分块大小和重叠大小选择指南

🎯 概述

在创建知识库时，**分块大小（Chunk Size）和重叠大小（Overlap Size）**是影响检索效果的关键参数。正确设置这些参数可以显著提升知识库的检索精度和上下文连贯性。

📖 基本概念

分块大小（Chunk Size）

定义：每个文本块包含的字符数量（中文字符按1个字符计算）

默认值：1000 字符

作用：

控制每个文本块的大小
影响向量嵌入的语义完整性
决定检索时返回的上下文长度

重叠大小（Overlap Size）

定义：相邻文本块之间重叠的字符数量

默认值：200 字符

作用：

保持跨块边界的语义连贯性
避免重要信息在分块边界处被截断
提高检索时上下文的相关性

🔍 如何确定合适的值

1. 根据文档类型选择

📄 技术文档 / API 文档

分块大小：800-1200 字符
重叠大小：150-250 字符

原因：技术文档通常有明确的段落结构，中等大小的分块可以保持代码示例和说明的完整性。

📚 长篇文章 / 书籍章节

分块大小：1200-2000 字符
重叠大小：200-400 字符

原因：长文本需要更大的分块来保持完整的论述逻辑，较大的重叠确保章节间的连贯性。

💬 对话记录 / Q&A 文档

分块大小：500-800 字符
重叠大小：100-150 字符

原因：对话通常较短，小分块可以精确匹配单个问答对。

📊 结构化数据 / 表格

分块大小：600-1000 字符
重叠大小：100-200 字符

原因：表格数据需要保持行/列的完整性，中等分块即可。

2. 根据向量模型限制选择

常见模型 Token 限制

模型	Token 限制	推荐分块大小（字符）
OpenAI text-embedding-ada-002	8192 tokens	1000-2000
OpenAI text-embedding-3-small	8192 tokens	1000-2000
中文模型（如 m3e-base）	512 tokens	400-800

注意：

1 个中文字符 ≈ 1-2 tokens
1 个英文单词 ≈ 1-2 tokens
建议分块大小不超过模型 token 限制的 50-70%

3. 根据检索需求选择

🎯 精确检索（需要精确匹配）

分块大小：500-800 字符（较小）
重叠大小：100-150 字符（较小）

适用场景：FAQ、知识问答、代码片段检索

🔍 语义检索（需要上下文理解）

分块大小：1000-1500 字符（中等）
重叠大小：200-300 字符（中等）

适用场景：文档搜索、概念解释、技术文档检索

📖 深度理解（需要完整论述）

分块大小：1500-2500 字符（较大）
重叠大小：300-500 字符（较大）

适用场景：论文检索、长文档分析、复杂概念理解

⚙️ 重叠大小的经验法则

分块大小	推荐重叠大小	重叠比例
500	75-125	15-25%
1000	150-250	15-25%
1500	225-375	15-25%
2000	300-500	15-25%

为什么需要重叠？

避免边界截断：重要信息可能在分块边界处被分割
保持语义连贯：重叠确保相邻块之间有上下文联系
提高检索精度：检索时可能同时匹配到多个相关块

🎨 实际应用示例

示例 1：产品文档库

知识库名称：产品使用手册
文档类型：技术文档 + 操作指南
分块大小：1000 字符
重叠大小：200 字符

理由：技术文档有清晰的章节结构，1000字符可以包含完整的操作步骤和说明。

示例 2：法律条文库

知识库名称：民法典条文库
文档类型：法律条文（结构化文本）
分块大小：800 字符
重叠大小：150 字符

理由：法律条文需要精确匹配，较小的分块可以提高检索精度。

示例 3：学术论文库

知识库名称：计算机科学论文库
文档类型：学术论文（长文本）
分块大小：1500 字符
重叠大小：300 字符

理由：论文需要保持完整的论述逻辑，较大的分块和重叠可以保持上下文连贯性。

🔧 调整策略

如果检索结果不准确

问题：检索到的内容不够相关

✅ 减小分块大小（如：1000 → 800）
✅ 减小重叠大小（如：200 → 150）
✅ 提高检索的精确度

如果检索结果缺少上下文

问题：检索到的内容片段化，缺少上下文

✅ 增大分块大小（如：1000 → 1500）
✅ 增大重叠大小（如：200 → 300）
✅ 提供更完整的上下文信息

如果检索速度慢

问题：检索响应时间过长

✅ 减小分块大小（减少向量数量）
✅ 减小重叠大小（减少重复计算）
⚠️ 注意：可能影响检索精度

📊 默认值说明

MBE Desktop 的默认值：

分块大小：1000 字符
重叠大小：200 字符
重叠比例：20%

这些默认值适用于大多数常见场景，包括：

✅ 技术文档
✅ 产品文档
✅ 知识问答
✅ 一般性知识库

💡 最佳实践

从默认值开始：使用默认值（1000/200）进行初步测试
根据效果调整：根据检索效果逐步调整
记录配置：记录不同文档类型的最佳配置
定期优化：根据使用反馈持续优化参数

🚀 快速参考

常见场景推荐值

场景	分块大小	重叠大小
默认推荐	1000	200
技术文档	800-1200	150-250
长篇文章	1200-2000	200-400
对话记录	500-800	100-150
结构化数据	600-1000	100-200
精确检索	500-800	100-150
语义检索	1000-1500	200-300
深度理解	1500-2500	300-500

📝 注意事项

⚠️ 分块大小不能太小：太小会导致语义不完整
⚠️ 分块大小不能太大：太大会超出模型限制，影响检索效率
⚠️ 重叠大小要适中：太小无法保持连贯性，太大会增加计算成本
✅ 测试后再确定：建议先用默认值测试，根据效果调整

最后更新：2026-02-08

MBE 文档中心