📄 文件解析识别系统
支持图片解析和文字识别
⚙️ API 配置
API 地址:
📁 文件输入方式
文件URL(可选,如果提供则优先使用URL):
若file字段存在文件,优先解析文件
文件名(与文件URL同时提供):
HTML URL(通过该URL获取HTML文件并解析):
🔧 解析引擎配置
使用 Paddle OCR VL 解析(私有,效果最佳)
使用 UniParser 解析(Beta版本,支持PDF文档)
使用 MinuerU 解析(Beta版本,支持PDF文档)
采用 Moonshot 进行 HTML URL 解析
使用 LlamaParse 进行 PDF 文件解析(需开启文档解析增强)
🔽 显示高级选项
📊 分块配置
Chunk 大小:
默认值:512
Chunk Overlap:
默认值:128
在 chunk 前加入文件名
完整句子切分
使用层次索引模块切分
层次索引模块切分中使用语义切分
🎯 高级功能(需开启文档解析增强)
开启多模态解析支持(提取PDF文件中的图片,基于百度OCR提取图片中文字内容)
开启针对书籍的章节来源溯源(返回切块内容的所在章、节)
开启针对法律的法条来源溯源(返回切块内容的所在章、条)
📤
点击或拖拽文件到此处上传
支持 图片(JPG/PNG/BMP/TIFF) 等格式
📄 文件预览
📝 识别结果
等待识别...
🔍 开始识别
🔄 重新选择
📋 复制结果
正在识别中,请稍候...