feat: 新增重算脚本和统计脚本,更新README
This commit is contained in:
40
README.md
40
README.md
@@ -49,8 +49,8 @@ vector_dimension = 1024
|
||||
cdn_base = https://your-cdn.com/
|
||||
|
||||
[similarity]
|
||||
phash_threshold = 10
|
||||
vector_threshold = 0.85
|
||||
phash_threshold = 5
|
||||
vector_threshold = 0.94
|
||||
|
||||
[process]
|
||||
batch_size = 100
|
||||
@@ -62,25 +62,37 @@ log_file = image_similarity.log
|
||||
## 使用方法
|
||||
|
||||
```bash
|
||||
# 处理新图片 (status='draft', similarity='draft')
|
||||
python image_similarity_check.py
|
||||
|
||||
# 重新处理失败的图片 (status='draft', similarity='recalc')
|
||||
python image_similarity_recalc.py
|
||||
|
||||
# 查看统计报告
|
||||
python stats_similarity.py
|
||||
```
|
||||
|
||||
## 项目结构
|
||||
|
||||
```
|
||||
├── image_similarity_check.py # 主程序:图片去重审核
|
||||
├── query_status.py # 查询处理状态
|
||||
├── reset_data.py # 重置数据
|
||||
├── reset_vector.py # 重置向量库
|
||||
├── basket.py # 测试脚本
|
||||
├── requirements.txt # 依赖包
|
||||
└── config.ini # 配置文件(不提交)
|
||||
├── image_similarity_check.py # 主程序:处理新图片
|
||||
├── image_similarity_recalc.py # 重算程序:处理失败的图片
|
||||
├── stats_similarity.py # 统计脚本:查看处理结果
|
||||
├── query_status.py # 查询处理状态
|
||||
├── reset_data.py # 重置数据
|
||||
├── reset_vector.py # 重置向量库
|
||||
├── config.ini # 配置文件
|
||||
└── requirements.txt # 依赖包
|
||||
```
|
||||
|
||||
## 工作流程
|
||||
|
||||
1. 从数据库获取待处理的图片记录
|
||||
2. 调用 DashScope API 获取图片的多模态 Embedding
|
||||
3. 在 DashVector 中搜索相似图片
|
||||
4. 根据相似度阈值判断是否重复
|
||||
5. 更新数据库状态(重复/不重复)
|
||||
1. 从数据库获取待处理图片 (`status='draft'`, `similarity='draft'`)
|
||||
2. 拼接 CDN URL:`cdn_base + image_url`
|
||||
3. 调用 DashScope API 获取 1024 维向量
|
||||
4. 在 DashVector 中搜索 topk=3 相似图片
|
||||
5. 计算相似度:`similarity = 1.0 - score`
|
||||
6. 判断结果:
|
||||
- `similarity >= 0.94` → 标记为重复 (`status='similarity'`)
|
||||
- `similarity < 0.94` → 标记为不重复 (`status='tag_extension'`),向量入库
|
||||
- 处理失败 → 标记为待重算 (`similarity='recalc'`)
|
||||
|
||||
Reference in New Issue
Block a user