📄 文件解析识别系统

支持图片解析和文字识别

⚙️ API 配置

API 地址：

📁 文件输入方式

文件URL（可选，如果提供则优先使用URL）：

若file字段存在文件，优先解析文件

文件名（与文件URL同时提供）：

HTML URL（通过该URL获取HTML文件并解析）：

🔧 解析引擎配置

使用 Paddle OCR VL 解析（私有，效果最佳）

使用 UniParser 解析（Beta版本，支持PDF文档）

使用 MinuerU 解析（Beta版本，支持PDF文档）

采用 Moonshot 进行 HTML URL 解析

使用 LlamaParse 进行 PDF 文件解析（需开启文档解析增强）

🔽 显示高级选项

📊 分块配置

Chunk 大小：

默认值：512

Chunk Overlap：

默认值：128

在 chunk 前加入文件名

完整句子切分

使用层次索引模块切分

层次索引模块切分中使用语义切分

🎯 高级功能（需开启文档解析增强）

开启多模态解析支持（提取PDF文件中的图片，基于百度OCR提取图片中文字内容）

开启针对书籍的章节来源溯源（返回切块内容的所在章、节）

开启针对法律的法条来源溯源（返回切块内容的所在章、条）

📤

点击或拖拽文件到此处上传

支持图片（JPG/PNG/BMP/TIFF）等格式

📄 文件预览

文件预览

📝 识别结果

等待识别...

正在识别中，请稍候...