ragangything

发表于 2025-10-20 更新于 2025-10-22 分类于 rag 阅读次数：

RAG-Anything

RAG-Anything是一个综合性多模态文档处理RAG系统。该系统能够无缝处理和查询包含文本、图像、表格、公式等多模态内容的复杂文档，提供完整的检索增强(RAG)生成解决方案。

解析方式

process_document_complete执行流程

初始化依赖： await self._ensure_lightrag_initialized() ，保证 LightRAG 已就绪。
读取配置默认：对 output_dir / parse_method / display_stats 应用默认值。
记录开始日志： Starting complete document processing: {file_path} 。
第一步（解析）：调用 parse_document(…) ，返回
- content_list : 解析出的内容列表（混合文本块与多模态项的统一结构）。
- content_based_doc_id : 基于内容生成的文档ID（用于未显式提供 doc_id 时）。
文档ID确定：若未传入 doc_id ，用 content_based_doc_id 作为本次处理的文档标识。
第二步（拆分）： text_content, multimodal_items = separate_content(content_list) ，将纯文本与多模态项分离。
第二步半（上下文源设置）：若存在多模态项且类实现了 set_content_source_for_context ，调用它以建立“内容源 → 上下文”映射，用于后续多模态处理更好地提取上下文。
第三步（插入文本）：如果 text_content 非空：
- 取 file_name = os.path.basename(file_path) ，作为 file_paths 元信息传入。
- 调用 insert_text_content(…) 将文本写入 LightRAG 索引，支持 split_by_character 与 split_by_character_only 控制切分方式，并统一使用同一个 ids=doc_id 以保证该文档的索引一致性。
第四步（处理多模态）：
- 若 multimodal_items 非空：调用 await self._process_multimodal_content(multimodal_items, file_path, doc_id) 用专用处理器写入图片、表格、公式等相关产物并建立索引/缓存。
- 若为空：调用 _mark_multimodal_processing_complete(doc_id) 标记该文档的多模态处理阶段已完成（即使没有多模态项也要显式完成，以便状态一致）。
记录完成日志： Document {file_path} processing complete! 。

存储方式

检索方式

功能区别

aquery ：纯文本查询入口，直接把你的问题和检索参数封装到 QueryParam 并调用 LightRAG。若已配置视觉模型函数（ vision_model_func ），默认会自动启用图像增强；可通过传入 vlm_enhanced=False 强制走纯文本。
aquery_with_multimodal ：主动把你提供的多模态素材（图片、表格、公式等）先“描述压缩”为文本（用已注册的处理器生成说明），把这些说明拼接到查询中，然后再执行 aquery 做检索与问答；内置结果缓存（按素材和参数归一化生成 key）。
aquery_vlm_enhanced ：在检索生成的原始提示（ only_need_prompt=True ）里扫描图片路径，保持原路径并插入标记，将图片转为 base64，与文本一并发给视觉模型生成最终答案；不把图转成文字摘要，而是让 VLM直接“看图”。需要你已提供 vision_model_func ，否则会报错。

aquery_vlm_enhanced执行流程

检查 VLM 可用：若 vision_model_func 未配置，抛出 ValueError 。
确保 LightRAG 就绪：调用 self._ensure_lightrag_initialized() ，保证你之前已处理并建好索引/图谱。
清理图片缓存：删除上一次查询残留的 self._current_images_base64 。
只取检索提示：构造 QueryParam(mode=mode, only_need_prompt=True, **kwargs) ，调用 self.lightrag.aquery(…) 拿到“原始提示”（包含检索到的上下文与可能的图片路径），此时不向 LLM发起最终回答。
解析图片路径：调用 self._process_image_paths_for_vlm(raw_prompt) ，用正则匹配诸如 Image Path: …(.jpg|.png|…) 的行，对路径做 validate_image_file 验证并转 base64，往提示里插入供 VLM使用的标记；返回增强后的提示与图片计数。
无图兜底：若 images_found == 0 ，直接退回普通查询（ QueryParam(mode=mode, **kwargs) ）走文本 LLM（即不做看图增强）。
构建 VLM消息： self._build_vlm_messages_with_images(enhanced_prompt, query) 将“增强提示+图片（base64）”打包成 VLM需要的消息格式。
调用视觉模型： self._call_vlm_with_multimodal_content(messages) ，由你的 vision_model_func 实际生成最终答案并返回。

为什么要转base64

心原因

远端不可读本地路径：检索提示里只有 Image Path: C:... 或 ./xxx.png ，VLM（常在云端或独立进程）无法直接访问你的本地文件系统，必须把图像的字节随请求一起发送。
标准化传输格式：多数 VLM 接口以 JSON/HTTP 交互，原生不支持二进制；Base64 是通用的文本编码，易于嵌入到消息体或 data:image/png;base64,… 这样的数据 URI。
跨平台与健壮性：避免 Windows/中文路径、权限、相对路径等差异导致文件读取失败；编码后与工作目录无关，传到哪都能被解码。
兼容主流 API 形态：OpenAI、LM Studio、部分本地/私有 VLM 都支持用 Base64 提供图像数据；RAGAnything 将其统一为 vision_model_func 可消费的消息格式。
可缓存与复用：编码后可做哈希/去重与一次请求内复用（ _current_images_base64 ），同时避免在日志或提示里暴露真实文件路径结构。

参考资料

RAG-Anything/README_zh.md at main · HKUDS/RAG-Anything