feat: 新增重算脚本和统计脚本,更新README

This commit is contained in:
2026-02-05 19:01:38 +08:00
parent d373a073e4
commit 5a6fbcbf28
7 changed files with 469 additions and 20 deletions

View File

@@ -49,8 +49,8 @@ vector_dimension = 1024
cdn_base = https://your-cdn.com/
[similarity]
phash_threshold = 10
vector_threshold = 0.85
phash_threshold = 5
vector_threshold = 0.94
[process]
batch_size = 100
@@ -62,25 +62,37 @@ log_file = image_similarity.log
## 使用方法
```bash
# 处理新图片 (status='draft', similarity='draft')
python image_similarity_check.py
# 重新处理失败的图片 (status='draft', similarity='recalc')
python image_similarity_recalc.py
# 查看统计报告
python stats_similarity.py
```
## 项目结构
```
├── image_similarity_check.py # 主程序:图片去重审核
├── query_status.py # 查询处理状态
├── reset_data.py # 重置数据
├── reset_vector.py # 重置向量库
├── basket.py # 测试脚本
├── requirements.txt # 依赖包
── config.ini # 配置文件(不提交)
├── image_similarity_check.py # 主程序:处理新图片
├── image_similarity_recalc.py # 重算程序:处理失败的图片
├── stats_similarity.py # 统计脚本:查看处理结果
├── query_status.py # 查询处理状态
├── reset_data.py # 重置数据
├── reset_vector.py # 重置向量库
── config.ini # 配置文件
└── requirements.txt # 依赖包
```
## 工作流程
1. 从数据库获取待处理图片记录
2. 调用 DashScope API 获取图片的多模态 Embedding
3. DashVector 中搜索相似图片
4. 根据相似度阈值判断是否重复
5. 更新数据库状态(重复/不重复)
1. 从数据库获取待处理图片 (`status='draft'`, `similarity='draft'`)
2. 拼接 CDN URL`cdn_base + image_url`
3. 调用 DashScope API 获取 1024 维向量
4. 在 DashVector 中搜索 topk=3 相似图片
5. 计算相似度:`similarity = 1.0 - score`
6. 判断结果:
- `similarity >= 0.94` → 标记为重复 (`status='similarity'`)
- `similarity < 0.94` → 标记为不重复 (`status='tag_extension'`),向量入库
- 处理失败 → 标记为待重算 (`similarity='recalc'`)