目录
产品简介
合存向量数据库 (HetuVDB) 是由蓬莱智数团队自主研发的一款支持向量检索、向量存取的高性能向量数据库,专为提升人工智能模型数据训练效率而设计。它能够高效地存储和检索向量数据,支持相似性搜索和复杂查询,为企业在AI大模型训练加速、图像识别、自然语言处理、推荐系统、问答系统等场景赋能。HetuVDB支持GPU调用,兼容PyTorch和TensorFlow等主流框架,能够发挥CPU多核优化和充分利用闪存优势,提高查询速度和存储效率,使其在处理海量数据时保持高性能。
HetuVDB利用释放内存资源和高效的自研向量索引算法,确保在数据增长时仍能保持稳定的性能。同时,HetuVDB提供灵活的API和丰富的文档,使得开发者能够轻松上手,快速部署应用。HetuVDB通过加速AI模型的推理和训练,充分发挥GPU、CPU、SSD等硬件优势,支持高维向量数据的高效存取和相似性搜索,广泛应用于人工智能和机器学习领域,为中国人工智能产业发展提供安全、可靠、高性能的国产存储解决方案。
产品框架
-
支持人工智能向量数据检索技术
合存数据库支持高维向量数据检索技术,专为解决人工智能领域存力瓶颈问题而研发,对视频、音频、图像、高维向量等非结构化数据的实时分析和处理提供卓越的存储和检索能力,为人工智能大模型训练和应用提供经济高效存力软件方案。 -
软件定义存储的设计理念
合存数据库通过软件定义存储(Software-Defined Storage, SDS)将存储资源的管理和配置抽象化,使存储管理更加灵活和自动化。这种设计理念通过软件来优化和管理存储资源,而不是依赖传统的硬件解决方案,允许企业根据需要动态调整存储容量和性能,提高资源利用率,同时降低成本。 -
独有索引技术
利用独特的索引技术,合存数据库可以优化数据检索过程、减少查找时间、提高数据访问速度,来更高效地管理和访问数据。特别是在处理大规模数据集时,独有的索引技术能够显著提升性能。 -
充分发挥现代系统并行性优势
合存数据库通过利用多核处理器和多线程技术,可以充分发挥现代硬件的并行性优势。这意味着合存数据库能够同时处理更多的数据请求,有效提高系统的并发处理能力和响应速度。 -
为上层应用提供接口,易集成,易使用
通过为上层应用提供简单、清晰的接口,合存数据库可以轻松集成到现有的IT系统中。这种易用性和易集成性使得部署和管理存储资源变得更加便捷,帮助企业快速适应变化的业务需求。 -
跨平台使用
合存数据库是用纯C语言研发,有效支持跨平台编译。支持国产操作系统如银河麒麟,以及x86、ARM等系统架构。 -
面向闪存优化,对闪存进行直接操作
突破文件系统瓶颈,直接访问Flash,发挥闪存并行性优势,降低延迟、减少写放大、提高并行处理能力,从而提升整体的性能。
产品优势
-
多核可拓展性
采用无锁数据结构,在不损失性能的情况下扩展到多核,合存数据库能够在多核系统中实现每秒数百万次的事务处理。 -
自主可控
由蓬莱团队独立自主研发,合存数据库不依赖于任何第三方函数库和插件,是一款真正的国产键值数据库,完全可控。 -
简单易集成
合存数据库在设计上具备简单和易集成的特点,可以轻松集成到现有系统和工作流中,降低了使用复杂度。 -
高度定制化
合存数据库具有高度的定制化能力,可以根据用户特定业务需求进行定制开发和优化。通过提供丰富的API接口,帮助用户基于合存数据库制定不同的方案,从而更好地满足复杂应用场景下的需求。 -
多平台支持
合存数据库支持x86/ARM,以及国产麒麟等平台,可适用于多种场景和环境。 -
持久化存储
合存数据库引擎充分发挥了硬件优势,能和多核CPU、GPU,协处理器以及Nvme SSD高效协同工作。
产品方案
-
人工智能训练
合存向量数据库通过充分发挥CPU多核处理能力和SSD并行读写优势,显著提升了数据写入和检索速度。在人工智能大模型训练过程中,海量的训练数据需要频繁读写和快速传输。合存数据库能够高效地将这些数据传输给大模型进行训练,显著缩短训练时间和降低成本。通过优化的数据路径和存储管理,合存数据库确保在处理大规模数据集时,依然能保持高效的性能,满足深度学习和机器学习模型对数据处理速度的高要求。 -
视频推荐系统
作为特征数据库,合存向量数据库在深度学习推荐系统中能够支持大规模向量和特征数据的高效读写,快速学习和分析用户的行为模式、兴趣和偏好,从而生成高度个性化的推荐结果。通过优化的数据存储和检索机制,合存数据库为视频推荐系统提供了极致的处理速度和持久稳定的性能,显著提升系统的响应时间和用户体验,使得用户能够及时获得符合其兴趣的推荐内容。 -
精准相似语义
合存向量数据库通过存储大量文本数据和高维度向量数据,能够精准识别和检索与输入查询在语义上高度相似的数据。利用先进的向量检索技术和优化的索引算法,数据库可以快速返回最相关的结果,极大地缩短响应时间和提高相似数据查询的准确性。这种能力对于自然语言处理、语义搜索和个性化推荐系统等应用尤为重要,确保用户在复杂的查询场景中能够得到准确且相关的反馈。 -
图片搜索
合存向量数据库结合自然语言处理和图片向量检索技术,使得图片搜索变得更加轻松和精准。用户可以通过文字描述或图片样本进行搜索,数据库利用高维向量表示和相似性检索算法,快速找到与查询内容相匹配的图片。无论是在电商平台、社交媒体还是内容管理系统中,合存数据库的图片搜索功能都能显著提升用户的搜索体验,提供高效且准确的搜索结果。
典型方案
-
Redis国产化替代方案
合存数据库完整支持Redis的五种主要数据类型(String,List,Hashmap,Set,Sorted-Set),无缝取代Redis。客户可以在不改变现有架构的前提下,从Redis平滑过渡到合存数据库。大幅降低了技术迁移障碍和学习成本同时,保证了数据处理的连续性和一致性,为客户提供高效的迁移体验。
合存数据库采用纯C语言开发的自研内核,支持全平台使用,确保了软件的高性能和可靠性。对比Redis、Rocksdb,合存数据库提供完整的控制权和高度的安全性,能在各种应用场景中完全替代Rocksdb和Redis,满足不同客户的数据存储需求,是一个可靠而高效的国产数据存储解决方案。
-
合存向量检索技术方案
合存数据库支持用户导入自定义的大模型进行数据向量化处理,允许部署和使用自己训练的深度学习模型,将各类数据转化为高维向量表示,实现高效存储和检索。适用于图像识别、自然语言处理和个性化推荐系统等多种应用场景。
合存数据库支持多种类型的非结构化数据存储,如音频、视频和图像,用户可以将原始数据和向量化表示同时存储,实现统一管理和高效检索,满足复杂的数据管理需求。其自主研发的向量索引算法为SSD优化,充分利用SSD的大容量和并行读写特性,高效存储和检索高维向量数据,保证在处理大规模数据时仍能保持高性能和快速响应。
所属公司
蓬莱智数科技有限公司是为大数据实时分析和数据管理应用提供高性能的数据存储方案的国产键值储存领域专家。蓬莱公司专注于存储软件研发,应用开发,提供搭建系统平台的整体方案和为企业开源节流包括向下兼容客户的存储硬件,向上兼容客户的可计算存储设备,并完全发挥其性能优势。
蓬莱团队具备十年以上的研发经验,独立自主研发NoSQL数据库,针对闪存高度优化,支持用户定制化需求,自研人工智能向量检索技术,最大化利用了新一代SSD的优势,依照SNIA协会标准,为企业级SSD定制KV层。团队自主研发安全、可靠、高性能键值数据库—合存数据库(HetuKV)、支持向量存储、向量检索、GPU调用的向量数据库—合存向量数据库(HetuVDB)
相关资料
蓬莱智数公司官网:https://www.penglaitech.cn/