概述
在传统的关系型数据库中,结构化的数据以表格的形式存储。而现实世界中的数据通常是非结构化的,例如文本、图片、视频与音频等。这些数据无法使用传统数据库的行列表格结构存储,也不适合基于关键词的检索。相反,它们更适合用向量来表示,即通过向量嵌入 (Embedding) 的方式,将非结构化数据的特征进行提取,并使用数学中的向量表示,我们把这个过程称之为“向量化”。这些向量捕捉了数据的语义和特征,系统可以通过分析向量之间的相似度来判断其所代表的数据间的关联性。
想要按“向量化”这种”脑回路“组织数据,需要一个专门的数据库——向量数据库。把复杂的非结构化数据通过向量化(embedding),处理统一成多维空间里的坐标值,通过计算向量之间的相似度或距离,快速定位最相关的近似值。
向量数据库相关工作原理有哪些?
1
Embedding
2
向量检索算法
向量检索算法主要用于在大规模向量数据集中高效地寻找与查询相似的向量。在实际应用中,需要根据具体场景进行算法的选择和参数的调优。选择哪种算法取决于向量数据集的特征、数据量和查询需求,以及对搜索准确性和速度的要求。几大常用的向量检索算法如下:
- KD-Tree:KD-Tree 是一种多维空间划分的数据结构,通过递归地选择轴(例如 X 轴、Y 轴等)来分割空间,将数据点划分到不同的区域,实现高效的最近邻搜索。它适用于低维数据的快速查询,但随着维度的增加,性能会急剧下降,导致“维度灾难”问题。
- VP-Tree:VP-Tree 是一种基于距离度量的空间索引结构,通过选择一个数据点作为“视点”,然后根据该点与其他点的距离将数据点分组,递归地构建子树,以支持高效的最近邻和范围查询。VP-Tree 在处理高维空间时通常比 KD-Tree 更有效,特别是在数据分布不均匀的情况下。
- LSH:LSH(局部敏感哈希)是一种基于哈希的概率性数据结构,通过设计特殊的哈希函数,使得相似度高的数据点有较高的概率映射到相同的哈希值,而相似度低的数据点则几乎不可能映射到相同的哈希值。LSH 适用于高维数据的近似最近邻查找,特别适合大规模数据集,但它是近似搜索,可能无法保证 100% 准确性。
3
相似度测量
为什么使用向量数据库?
向量数据库在大模型训练和推理等场景中得到了广泛应用。简单来说,如果大模型是一个智能的“大脑”,那么向量数据库就像是它的“记忆库”,帮助快速存储和检索关键信息,提升处理效率。
帮助大模型训练降本增效
向量数据库可辅助大模型在训练阶段快速处理海量数据,包括数据分类、去重和清洗等。这就像为大模型整理好所有的信息,让它能更快速地学习,从而降低训练成本、提高效率。
推动大模型能力更新升级
向量数据库通过不断引入新的数据,帮助大模型实时更新知识,避免停留在过时的预训练信息中。这不仅让大模型能更好地处理新问题,还能有效减少“幻觉”现象的出现,使其输出内容更加准确和可信。
助力安全打造定制大模型
向量数据库为私有数据与大模型之间提供安全连接,让企业能够在确保数据隐私的前提下,将私有数据注入大模型中,从而打造更加适合企业自身业务需求的定制化大模型能力。
向量数据库会带来哪些优势?
1
助力高效相似性搜索
2
执行复杂数据分析
3
集成机器学习能力
4
支持实时向量嵌入
5
提升应用开发效率
6
实现大规模应用开发
如何使用亚马逊云科技满足向量数据库业务需求?
Amazon OpenSearch Serverless 的向量引擎功能提供简单、可扩展且高性能的向量数据存储和检索能力,可帮助开发人员构建具有搜索增强功能的应用。
Amazon Aurora PostgreSQL-Compatible Edition 和 Amazon Relational Database Service (Amazon RDS) for PostgreSQL 支持 pgvector 扩展,可将大模型生成的向量数据存储在向量数据库中,并执行高效的相似性搜索。
Amazon MemoryDB 的向量搜索支持存储数百万个向量,查询和更新响应时间为几毫秒,QPS 可达到每秒数万次查询,召回率超 99%。
Amazon Aurora PostgreSQL-Compatible Edition 和 Amazon Relational Database Service (Amazon RDS) for PostgreSQL 支持 pgvector 扩展,可将大模型生成的向量数据存储在向量数据库中,并执行高效的相似性搜索。
Amazon Neptune ML 是 Amazon Neptune 提供的新功能。其采用的图形神经网络 (GNN) 专为图形需求构建,能够基于已有图形数据,快速且准确地进行图形预测。
Amazon DocumentDB 的向量搜索功能将基于 JSON 的文档数据库的灵活性与丰富查询功能,同非结构化数据搜索能力相结合,可帮助企业打造产品推荐、聊天机器人等丰富的生成式 AI 应用。
向量数据库可用于哪些场景?
语义搜索
Amazon OpenSearch Service 作为向量数据库,通过支持语义搜索提高检索结果的相关性,使用户能够通过自然语言查询,更精准地找到相关信息,相比传统的关键词搜索,相关性提升可达 15%。
大模型知识库
Amazon OpenSearch Service 作为向量数据库,通过与大模型结合构建大模型知识库。利用 RAG(检索增强生成)方法,以向量化的数据资料为大模型提供可靠的事实依据,减少模型生成内容时的幻觉现象,提升对话式搜索和问答系统的准确性与可信度。
推荐系统
Amazon OpenSearch Service 作为向量数据库,通过支持基于向量相似度的检索,帮助推荐系统根据用户行为生成个性化推荐。例如通过计算用户与产品向量之间的相似性,提升电商平台的推荐精度和用户体验。
多媒体搜索
Amazon OpenSearch Service 作为向量数据库,通过支持图像、音频和视频等多媒体数据的向量化处理与检索,帮助企业构建丰富的多媒体搜索服务。
向量数据库应用的成功实践
1
riskCanvas
2
Academia
3
Intuit
使用亚马逊云科技的云原生向量数据库进行构建
支持个性化推荐的云原生搜索服务 Amazon OpenSearch Service 向量引擎
OpenSearch 是一款灵活且可扩展的开源软件套件,用于搜索、分析、安全监控和可观测性应用程序。
支持相似度搜索的托管数据库服务的向量扩展 Amazon Relational Database Service (Amazon RDS) for PostgreSQL
支持 pgvector 扩展,用于将机器学习模型生成的向量存储在您的数据库中,并执行高效的相似性搜索。
支持语义问答的云原生数据库的向量检索扩展 Amazon Aurora
Amazon Aurora PostgreSQL 兼容版现支持 pgvector 扩展,用于将来自机器学习模型处理得到的向量存储在您的数据库中并执行高效的相似性搜索,可将文本输入的语义、含义捕获到大型语言模型中。
亚马逊云科技热门云产品
Amazon Aurora
高性能托管式关系数据库
欢迎加入亚马逊云科技培训中心
从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程
快速上手训练营
第一课:亚马逊云科技简介
本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。
亚马逊云科技技术讲师:李锦鸿
第二课:存储与数据库服务
您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。
亚马逊云科技资深技术讲师:周一川
第三课:安全、身份和访问管理
在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。
亚马逊云科技技术讲师:马仲凯
了解更多入门学习计划 »

账单设置与查看
