Milvus 实践(1) --- 文本-图片交互式search搭建及原理

avatar
作者
筋斗云
阅读量:2

目录

背景

训练素材

download

torchvision 简介

python代码

执行结果

模型训练

模型训练参数

训练模型

注意事项

模型加载

录入vectorDB

使用预加载的模型参数对图片进行编码

录入milvus

查询效果

查询编码

milvus search

模型适用列表

总结


背景

应该说Milvus 在2.4以上版本提供了一个 collection 放多个 vector db 的功能,并在之上 query 时,可以结合多个不同的query weights 给出综合性得分。但是不是一定要用这个功能才可以完成图片与文本的交互式搜索?答案肯定是否定的。从CLIP的原理上来说,就是 txt 与 pic 映射到相同维度的一个向量空间,只要让 txt 与对应的 pic 的 similarity 足够小,与不mapping 的pic simlairty足够大就好,于是本着这个思路,我们看看怎么实现。

训练素材

download

首先下载

pip install torchvision -i https://pypi.tuna.tsinghua.edu.cn/simple

torchvision 简介

Torchvision是Pytorch中一个开源的机器学习框架,专门为计算机视觉任务设计和优化。它提供了多种功能来支持计算机视觉项目的开发和实验。

简要来说有如下的功能:

数据加载与处理:

Torchvision提供了torchvision.datasets模块,其中包含了许多常用的计算机视觉数据集,如CIFAR-10、CIFAR-100、ImageNet等。torchvision.transforms模块提供了许多预处理功能,如裁剪、旋转、翻转、归一化等,这些功能可以帮助进行数据增强和预处理。
预训练模型:

广告一刻

为您即时展示最新活动产品广告消息,让您随时掌握产品活动新动态!