logo
0
0
Login

保单信息提取系统

基于AI的保单信息自动提取系统,支持从PDF、DOC、DOCX文档和图片中提取保单关键信息。

功能特性

  • 🔍 智能提取: 使用AI模型自动提取保单信息
  • 📄 多格式支持: PDF、DOC、DOCX、PNG、JPG、JPEG
  • 🔗 URL下载: 支持从OSS文件下载链接获取文件
  • 📤 文件上传: 支持本地文件上传处理
  • 并发处理: 多线程并发处理,提高效率
  • 🛡️ 标准响应: 统一的API响应格式

快速开始

环境要求

  • Python 3.12
  • Docker (可选)

本地运行

# 1. 安装依赖 pip install -r requirements.txt # 2. 配置环境变量 echo "DASH_SCOPE_API=your_api_key" > .env echo "DASH_SCOPE_PROXY=your_base_url" >> .env # 3. 启动服务 python app.py

API接口

文件上传提取

curl -X POST http://localhost:5001/identify_api/extract_policy \ -F "files=@policy.pdf" \ -F "temperature=0.5" \ -F "max_workers=5"

URL下载提取

curl -X POST http://localhost:5001/identify_api/extract_policy_from_urls \ -H "Content-Type: application/json" \ -d '{ "urls": ["https://oss.example.com/policy.pdf"], "temperature": 0.5, "max_workers": 5 }'

响应格式

成功响应

{ "code": "0", "msg": "success", "data": [ { "filename": "policy.pdf", "result": "{\"保单编号\": \"...\", \"投保人名称\": \"...\"}" } ] }

错误响应

{ "code": "1", "msg": "错误描述", "data": [] }

支持的文件类型

  • 文档: PDF (.pdf), DOC (.doc), DOCX (.docx)
  • 图片: PNG (.png), JPG (.jpg), JPEG (.jpeg)

项目结构

├── app.py # Flask应用入口 ├── controller/ │ └── identifyApi.py # API接口控制器 ├── service/ │ └── identifyService.py # 核心业务逻辑 ├── requirements.txt # Python依赖 ├── Dockerfile # Docker镜像构建 ├── docker-compose.yml # Docker Compose配置 └── .dockerignore # Docker构建忽略文件

配置说明

环境变量

  • DASH_SCOPE_API: AI模型API密钥
  • DASH_SCOPE_PROXY: AI模型服务地址

参数说明

  • temperature: AI模型温度参数 (0.0-1.0),默认0.5
  • max_workers: 并发处理线程数,默认5

开发

本地开发

# 安装开发依赖 pip install -r requirements.txt # 启动开发服务器 python app.py

测试

# 测试API接口 curl -X POST http://localhost:5001/identify_api/extract_policy_from_urls \ -H "Content-Type: application/json" \ -d '{"urls": ["https://example.com/test.pdf"]}'

About

No description, topics, or website provided.
Language
Python78.5%
gitignore11.7%
Markdown7.2%
Dockerfile1.2%
Others1.4%