docext

19小时前更新 5 0 0

Docext全称为Document Extraction Toolkit,核心目标是让用户在自己服务器或本地机器上安全、高效地处理各类文档。

收录时间:
2026-05-23

什么是Docext?

Docext全称为Document Extraction Toolkit,核心目标是让用户在自己服务器或本地机器上安全、高效地处理各类文档。它不依赖传统OCR引擎,而是直接利用先进的视觉语言模型进行端到端理解,支持复杂布局、表格、公式、签名等多种元素识别。

docext

docext 网站截图

🧠 三大核心能力,一个工具全搞定

1️⃣ PDF / 图片 → Markdown 不只是简单转文字,它能智能识别 LaTeX 公式、签名、水印、页码、复选框 ☑️,还能把复杂表格转成 HTML 格式。官方刚发布的 Nanonets-OCR-s(3B 参数小模型)专门干这个,效果很顶。
2️⃣ 结构化信息提取 上传发票、护照、合同,自动提取字段和表格,输出带置信度评分的结构化数据。预置了发票、护照等模板,也支持自定义字段,完全不用写正则。
3️⃣ IDP 评测榜 它还维护了一个文档智能处理排行榜(idp-leaderboard.org),横向对比 Gemini、Claude、GPT、Qwen 等模型在 OCR、表格提取、长文档理解上的表现,选模型直接看榜就行。

🚀 部署超简单,5 分钟跑起来

环境要求:Python ≥ 3.11,建议有 NVIDIA GPU(本地跑 7B 模型约需 7GB 显存)。没显卡也能接 OpenAI / Anthropic 等云端模型。
方式一:pip 一键安装(推荐)
bash
pip install docext
python -m docext.app.app
浏览器打开 http://localhost:7860,默认账号密码都是 admin,直接拖拽文件开搞。
方式二:Docker 部署
bash
docker run --rm --gpus all --shm-size=20gb \
  -p 7860:7860 \
  nanonetsopensource/docext:v0.1.10
方式三:源码安装(追新特性)
bash
git clone https://github.com/nanonets/docext.git
cd docext
uv venv --python=3.11 && source .venv/bin/activate
uv pip install -e .

💡 适合谁用?

  • 财务/行政:发票、报销单自动录入
  • 法务/合规:合同、证件关键信息提取
  • 科研/教育:论文 PDF 转 Markdown,公式不乱码
  • 开发者:提供 REST API,直接集成进业务系统

相关导航

暂无评论

none
暂无评论...