diff --git a/README.md b/README.md index 3fd8af9..5fe7a0d 100644 --- a/README.md +++ b/README.md @@ -4,7 +4,8 @@ ## 功能概述 -- **离线批量处理**:遍历数据库图片,批量调用大模型进行标签衍生 +- **批量处理模式**:10张图片一个请求,多请求并发执行 +- **内容审核处理**:自动识别审核失败图片,标记状态并记录原因 - **RESTful API 服务**:提供标签衍生的 HTTP 接口 - **智能重试机制**:API 调用失败自动重试,支持指数退避 - **统一配置管理**:支持环境变量配置,灵活部署 @@ -70,21 +71,32 @@ export DB_PASSWORD=your-password # 处理全部待处理数据 python image_tag_derive.py +# 测试模式:只处理指定数量 +python image_tag_derive.py --limit 10 + # 从指定ID开始处理(断点续传) python image_tag_derive.py --start-id 100 # 指定ID范围处理 python image_tag_derive.py --start-id 100 --end-id 200 -# 指定起始ID和批次大小 -python image_tag_derive.py --start-id 100 --batch-size 3 +# 指定批次大小和并发数 +python image_tag_derive.py --batch-size 50 --concurrency 5 # 按指定ID处理(单个或多个) python image_tag_derive.py --id 16495 python image_tag_derive.py --id 16495 16496 16497 ``` -> 注意:所有模式都会检查衍生标签,已有衍生标签的记录会被跳过。 +**命令行参数:** +| 参数 | 说明 | +|------|------| +| `--limit` | 限制处理数量(测试用) | +| `--start-id` | 起始ID(断点续传) | +| `--end-id` | 结束ID | +| `--batch-size` | 每批次从数据库读取数量 | +| `--concurrency` | 并发请求数 | +| `--id` | 指定处理的ID列表 | ### 4. 启动 API 服务 @@ -159,6 +171,18 @@ curl -X POST http://127.0.0.1:8000/api/derive/single \ - `ai_image_tags`:图片标签关联表 - `ai_tags`:标签主表 +## 状态流转 + +``` +tag_extension → manual_review (衍生成功) +tag_extension → automated_review_failed (内容审核失败) +``` + +**内容审核失败处理:** +- 当大模型返回 `DataInspectionFailed` 错误时 +- 自动更新 `status = 'automated_review_failed'` +- 记录失败原因到 `automated_review_failed_reason` 字段 + ## 日志 日志文件保存在 `logs/` 目录,按日期命名: