暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

邬贺铨院士谈大模型驱动企业数字化;阿里云多模数据库革新;TDH for AI构建全能数字基座;OpenAI收购数据库公司···

54

169期

点击上方蓝字关注我们




行业快讯与友商动态 2024年第19期:

邬贺铨院士揭示大模型如何推动企业数字化转型,阿里云的多模数据库创新引领AI新时代,TDH for AI打造新一代一站式多模型数字底座。


OpenAI收购行动下,数据库界革新;同时,数据治理神器涌现,数据清洗与标注开源工具激增,变革企业数据管理!


本周焦点
1. 应对数智化挑战,“数智融合--大数据与数据库”平行论坛有大招
2.TDH for AI,打造新一代一站式多模型数字底座
3.邬贺铨院士:大模型赋能企业数字化转型


大数据
4.阿里云多模数据库Lindorm对接Dataphin,打通数据治理“最后一公里”
5.北京人工智能数据运营平台发布,并开源超大规模高质量数据集
6.谷歌开源数据清洗工具OpenRefine!人工智能时代必备!
7.用GenAI重新定义BI,Databricks推出AI/BI数据智能平台
8.奇点云举办发布数据云平台DataSimba敏捷版
9.统一数据治理平台OpenMetadata 1.4.0版本发布!数据血缘、高级数据质量报告功能发布!
10.Actian通过最新的 Zen 数据库更新走向边缘
11.Cloudera推出新的AI 助手,以推动有价值的数据洞察


数据库
12.OpenAI以5亿美元收购数据库初创企业Rockset
13.阿里云PolarDB分布式版V2.4 列存引擎正式开源
14.天翼云TeleDB焕新云上大放价|多款RDS产品官网直降 最高降幅达80%


数据安全
15.PQShield筹集了3700万美元,以加速全球采用量子证明加密
16.网络弹性初创公司Semperis为企业身份保护扩展筹集1.25亿美元


AI
18.AIGC报告:千行百业All in AI,重构数字经济的生产模式
19.国内领先大模型上线 Amazon SageMaker JumpStart,众多产品重磅新发布!
20.Couchbase通过Vectorize合作伙伴关系扩展RAG功能
21.DataStax在RAG++ 活动上推出重大AI平台更新
22.SensiML 开源 TinyML 自动 ML 工具




本周焦点


1. 应对数智化挑战,“数智融合--大数据与数据库”平行论坛有大招


2024向星力·未来数据技术峰会在上海隆重举办。“数智融合--大数据与数据库”平行论坛,星环科技邀请来自中国信息通信研究院、中国银联、稠州银行、杭州雅拓等的行业大咖,为大家带来最新研究成果、技术创新和实践经验,通过多维的交流和思想碰撞,为各行业数据技术的发展提供新思路、新观点和新方向。


中国信息通信研究院云大所大数据与智能化部副主任马鹏玮发表了《数智基础设施发展趋势观察》主题演讲。数智化是企业增强自身生产力的必由之路,传统数智基础设施面临多源数据的采集、存储、计算;数据与智能平台的高效连接两大挑战。面向第一类挑战,数智基础设施技术朝着湖仓一体、多模数据库、区块链、隐私计算等方向不断演进;面向第二类挑战,数据智能平台、向量数据库、RAG等正在兴起。比如多模数据库旨在提供多语言持久性的数据建模优势,通过使用单个数据库存储来降低操作的复杂性,更好地支持不同场景下的多种类型数据处理,星环科技已首家完成中国信通院多模数据库产品测试。


星环科技高级架构师郭卓异发表《数智融合时代下的新一代一站式多模型数字底座》主题演讲。随着企业数据发展的多样化,数据平台向一体化满足多种业务需求的趋势演进,星环科技TDH+ArgoDB+TDC的产品组合能够在各个场景上实现一体化,包括湖仓集一体化、多模型一体化的处理,以及历史与实时数据一体化,本地集群与云平台资源一体化的能力。此次大数据与数据库系列产品新版本发布,TDH 9.4版本实现了湖仓集的资源隔离架构、在线查询分析性能场景覆盖更全面、全面降低TCO等;ArgoDB 6.1一站式实时高性能分析,一体化架构让数据流转无界限;TDC5.0实现集群统管,构建一体化数据与智能平台;TDH社区版让众多爱好者可以零成本、低门槛快速构建数据开发环境。


2.TDH for AI,打造新一代一站式多模型数字底座


星环知识平台TKH提供企业级多模态知识存储与服务,助力企业打造新一代一站式多模型数字底座。基于Transwarp Data Hub for LLM知识管理平台的多模型统一技术架构,支持关系型数据、向量数据、全文检索、图数据、时序数据等的统一存储管理,满足各类场景下多模态数据的统一存储管理与服务,大幅简化知识库的知识存储与服务层架构,降低开发与运维成本。


星环科技新推出的产品可以让企业的数据底座实现四个一体化:湖仓集一体化、多模型处理一体化、历史数据与实时数据处理一体化、本地集群和云平台一体化。


其中,大数据基础平台TDH 9.4的多模基座加速AI分析;仓集资源隔离架构,在混合业务场景下依然保持极致性能;湖仓一体架构,大幅降低TCO;同份数据跑批查询与混合负载,实时备份强在线业务容灾;同时支持多模型存诸架构、大模型海量训练数据存储、多模型混合检索召回增强、Python生态等。


分布式向量数据库Hippo支持文本、图片、音视频等转化后的百亿级向量数据的存储、索引和管理,支持多种索引,具有全文检索+向量检索以及稀疏向量+稠密向量的混合检索等能力。Hippo 2.0可以实现百亿级向量存储,提供灵活索引支持、20倍内存成本下降和向量全文混合检索等特性。


分布式图数据库StellarDB提供万亿级图数据存储、毫秒级点边查询和10+层深度链路分析等能力,支持丰富的图算法和图机器学习,创新的动态时序图能力更便捷地挖掘数据变化规律和预测分析。而新推出的StellarDB 5.1实现了向量/全文模糊检索、秒级子图匹配、跨集群数据灾备、RAG增强大模型、GPU算法加速等功能,更稳定、更安全、更易用。


星环分布式分析型数据库ArgoDB支持标准SQL语法,提供多模分析、实时数据处理、联邦计算、隐私计算、数据脱敏等能力,一站式满足OLAP分析,实时数仓、数据集市、湖仓集一体等场景。


而新推出的ArgoDB 6.1 版本以“增量数据实时处理”技术为基础,定义并发布“实时数据加工”的智能高效新范式;结合集群级实时同步与数据海量版本能力,协助用户构建高可靠的实时可信大集群,以数据透明加密、SQL审核/阻断等安全技术手段为辅,共建“快好省”湖仓集一体的融合数据处理架构。


星环分布式时序数据库Timelyre支持海量时序数据库的存储与处理,具备每秒千万级数据吞吐、5~20倍无损压缩和毫秒级检索能力,支持Python、C++等API,易用的时序分析框架满足金融智能投研需求。TimeLyre 9.2新增了多模型时序分析、极速分布式回测平台、投研数据中台、时序数据湖引擎等,助力用户解锁数据深层价值。


星环分布式文件系统TDFS支持10亿级以上的大小文件的存储,并同时支持对象存储,基于Raft保障强一致,支持HDFS平滑迁移,标准POSIX协议支持上层知识等AI场景应用无感对接。


3.邬贺铨院士:大模型赋能企业数字化转型


随着人工智能(AI)技术的兴起,大模型成为从信息化走向数化的重要驱动力。虽然基于大算力支持和超大规模语言数据作为训练样本的大模型技术能够支持自动文摘、机器翻译等基础通用任务,但在医疗、金融等专业领域中,由于缺乏行业知识,无法满足定制化、精细化和行业化的需求。因此,需要基础大模型提供方与垂直行业的企业合作,共同开发行业大模型。


大模型的兴起对云计算的各个层面也产生了深远的影响.在基础设施即服务(IaaS)领域,推动了存算一体的算力架构的出现:在平台即服务(PaaS)领域,促进了AI PaaS的发展,支持了专业大模型的快速构建和部署:在模型即服务(MaaS)方面,提供了更灵活的模型定制,进一步推动了云端AI应用:而对软件即服务(SaaS)而言,大模型通过创新解决了定制化、成本和服务质量等问题,提高了它的实践价值。因此,若将大模型拆分成模块,利用“IaaS+PaaS+MaaS+SaaS”的组合构建全新的云智平台,将有利于中小型企业更容易地应用AI大模型。


大数据


4.阿里云多模数据库Lindorm对接Dataphin,打通数据治理“最后一公里”


阿里云云原生多模数据库Lindorm可通过一个产品将架构收敛,支持宽表、时序、时空、JSON、BLOB、向量等数据类型的存储、查询、分析和推理,并且支持通过统一的SQL进行不同数据类型的处理。目前,Lindorm还通过与Dataphin的深度整合,进一步解决了数据集成和数据治理的问题,为企业提供更加高效和更具性价比的方案。


Dataphin是阿里巴巴十余年内部治理实践及方法论的产品化输出,针对各行业大数据建设、治理及应用诉求,提供全域数据集成、可视建模及规范定义、数据资产治理及运营等能力,帮助企业一站式构建标准统一、质量可靠、安全稳定、消费便捷的数据体系。


通过Lindorm与Dataphin的接力,企业能够轻松实现数据中台构建,享受标准化和可交互的数据管理和数据资产治理过程,包括多源数据写入、分层建模、ETL任务调度、用户数据资产体系建立、以及业务场景数据标签开发等。企业的多源数据汇总成统一数据,仅需根据业务逻辑进行白屏化的数据建设、任务管理和指标观测,从而更加高效地挖掘车联网数据潜力。


5.北京人工智能数据运营平台发布,并开源超大规模高质量数据集


智源研究院发布多款产品。其中北京人工智能数据运营平台在实现数据的汇聚管理、处理与加工等功能基础上,能够提供多种模态的数据标注功能,支持多种数据汇聚和使用形式。目前,平台已汇聚超过700万亿字节的通用数据集和4.33万亿字节的行业数据集,未来将不断扩充数据规模,为大模型行业发展提供坚实的数据支撑。目前,数据运营平台支持开源开放、积分共享、数算一体三种数据运营模式。


智源研究院发布全球最大的多行业中英双语数据集IndustryCorpus1.0 ,大幅度提升了全球开源行业数据集的数据量,为大模型的行业落地提供了强有力的保障。同时,智源选取医疗行业数据集,完成了示范模型训练,取得了优异的模型行业能力提升,为行业模型训练提供高质量范例和参考。


智源研究院开源首批300万条经过模型验证的高质量中英文指令数据InfInstruct-3M,并将在未来一个月内完成 InfinityInstruct 千万条指令数据的全部验证和开源。


FlagData数据工具·开源项目包含清洗、标注、压缩、统计分析等功能在内的多个数据处理工具与算法,为提升数据质量带来直接的便利。FlagaData2.0全面升级为FlagData 3.0,一方面提供了傻瓜式语言数据处理工具,支持一键式搭建数据处理工作流。另一方面,为专业的进阶用户提供数十种数据加工算子,支持自定义数据处理流程。


6.谷歌开源数据清洗工具OpenRefine!人工智能时代必备!


OpenRefine(以前称为Google Refine)是一个强大的、免费的开源数据处理工具,特别适用于清洗、转换和增强大型数据集。OpenRefine最初是Google的一个项目,现在被开源,现在由志愿者社区维护。


主要功能和特点数据清洗、数据转换、数据筛选和排序、数据合并与拆分、数据重构、数据预览和导出、协作与分享等。


OpenRefine适用于各种数据处理场景,包括但不限于:


数据科学家在准备机器学习模型之前清洗和预处理数据。


记者或研究人员在分析和可视化数据之前对数据进行清洗和整理。


图书馆员或档案管理员在数字化过程中整理和优化元数据。


任何需要处理大量数据并希望提高效率的个人或团队。


7.用GenAI重新定义BI,Databricks推出AI/BI数据智能平台


Databricks 隆重推出了 AI/BI,这是一款创新的商业智能产品,其设计核心在于深入挖掘数据的内在含义,并赋予用户自主分析数据的能力。AI/BI 基于一个先进的复合 AI 系统,该系统能够全面地从 Databricks 平台的数据生命周期中提取洞见,涵盖 ETL 流程、数据沿袭以及各类查询。这一系统支撑着两种相辅相成的产品体验:


AI/BI DashBoard:这是一个由人工智能驱动的低代码仪表板解决方案,它具备了您所期待的、即插即用的常规商业智能功能,能够解答一系列预设的业务问题;


Genie:这是一个会话式的交互界面,它能够持续地根据用户的反馈学习数据的深层结构和语义,借助其强大的推理功能,能够灵活地解答更多样化的业务问题,同时确保为数据团队设定的查询模式提供经过验证的答案。


AI/BI 与 Databricks 数据智能平台的集成可确保在任何数据规模下实现统一治理、沿袭跟踪、安全共享和顶级性能。GenAI 在 BI 领域一直表现不佳,Databricks相信 AI/BI 的设计可以克服这些问题。


8.奇点云举办发布数据云平台DataSimba敏捷版


奇点云发布数据云平台DataSimba敏捷版。DataSimba敏捷版是专为应对中小型数据场景而设计的一款产品,基于成熟的SimbaOS Kernel,重点加强对各种新型MPP数据库的支持,旨在简化企业大数据平台架构,为未来扩展预留统一方案。


DataSimba敏捷版支持新MPP引擎,包括ClickHouse、StarRocks、Apache Doris等;架构简单,学习成本低——最少仅需了解1款OLAP引擎,且无需掌握复杂的大数据平台技术架构。


提供完善的OpenAPI接口体系。其中,北向接口方便被上层应用集成,南向接口灵活开放,方便自行集成三方引擎。同时,提供完善的安全机制,可覆盖平台和引擎的安全。支持Hudi、Iceberg等数据湖文件格式,更精细的管理和使用半结构化、非结构化数据; 基于数据湖架,引擎更换或者升级时不需要数据拷贝,降低引擎更换或者升级的成本。


作为数据云平台DataSimba的敏捷版,虽然其所需的硬件资源和订阅费用成本相对较低,但功能全面——从数据集成、开发、运维、服务到治理,覆盖数据全生命周期,可满足中小型数据场景的全流程功能需要。


9.统一数据治理平台OpenMetadata 1.4.0版本发布!数据血缘、高级数据质量报告功能发布!


OpenMetadata作为数据治理和元数据管理领域的领先开源平台,持续致力于满足数据用户和组织的多样化需求。最新的1.4.0版本为用户带来了一系列创新功能和重大改进,进一步增强了平台的功能性和易用性。


我们在社区统计数据中也看到了OpenMetadata的增长:GitHub 上有近4400 颗星(比上一个版本多了 800 颗星);250 位开源贡献者(自上一版本以来增加了 25 位);将+850 提交合并到1.4 版本。


此版本中的增强功能和我们获得的社区支持进一步证明 OpenMetadata 确实是迄今为止最好的开源元数据项目。


10.Actian通过最新的 Zen 数据库更新走向边缘


Actian 的目标是边缘数据管理,为其嵌入式数据库提供新功能,旨在为移动、物联网设备和其他数据源提供实时数据处理。


Actian Zen 16.0 于 6 月 17 日推出,包括改进的查询速度和实时流媒体功能等功能。此外,据供应商称,与传统数据库相比,该数据库占用的空间更小,消耗的内存更少,使其可以嵌入到手机和平板电脑等边缘设备中,这些设备的存储空间比功能更强大的计算机少。


“在移动应用程序和物联网计划之间,边缘功能的需求正在增长,”他说。“Zen 16.0 的升级——包括其小尺寸、快速读写访问和自动管理——都是为了吸引边缘应用程序的开发人员。(techtarget.com


11.Cloudera推出新的AI 助手,以推动有价值的数据洞察


Cloudera 今天宣布推出三款新的 AI 驱动助手,使客户能够加速数据、分析和 AI 业务应用程序的开发,并获得更有价值的数据分析。


Cloudera的三个新AI助手如下:


·SQL AI 助手:Cloudera 的 SQL AI 助手旨在解决通常与编写复杂 SQL 查询相关的挑战,并使整个组织的用户成为 SQL 专家。借助 SQL AI 助手,用户只需用通俗易懂的语言描述他们需要什么,助手就会使用提示工程和检索增强生成 (RAG) 等先进技术找到相关数据。从那里,助手将编写和优化查询,甚至用易于理解的术语解释它。通过消除导航 SQL 语法的挑战,SQL AI 助手使企业能够专注于真正重要的事情——从数据中获取见解。


·Cloudera 数据可视化中的 AI 聊天机器人:Cloudera Data Visualization 中的 Cloudera AI 聊天机器人旨在直接与企业数据对话,以提供超出 BI 仪表板通常显示的内容的情境化业务见解。聊天机器人直接驻留在 Cloudera 的仪表板和使用 Cloudera Data Visualization 创建的报告中,并利用仪表板背后的可用数据的上下文为企业提供更深入、更可操作的见解。用户只需用通俗易懂的语言提问,AI聊天机器人就会智能地将其与相关数据和视觉效果相匹配。


·Cloudera Machine Learning Cloudera Copilot:Cloudera Copilot 由预先训练的 LLM 提供支持,旨在帮助应对通常与在生产中部署 AI 和 ML 模型相关的挑战,从数据整理到编码。Cloudera Copilot 可无缝集成 130 多个 Hugging Face 模型和数据集,支持 AI 应用程序的端到端开发流程,并加速数据科学、模型开发和微调。这使企业能够加速机器学习开发,并更快地开始看到业务价值。(cloudera.com


数据库


12.OpenAI以5亿美元收购数据库初创企业Rockset


近日,OpenAI 正式宣布收购 Rockset——这是一款以数据索引及查询功能而闻名的实时分析数据库。OpenAI 在其官方博客上发表的一篇文章中表示,它将整合 Rockset 的技术来“为其所有产品的基础设施提供支持”。


这项收购作价5亿美元,而且与之前收购另一家公司不同,这次除了要人,技术也会被整合进OpenAI的产品。


按照官方说法,这次收购将增强OpenAI的检索基础设施,帮助企业把数据转化为“可操作的智能”(actionable intelligence)。(datanami.com


13.阿里云PolarDB分布式版V2.4 列存引擎正式开源


阿里云自研产品PolarDB分布式版V2.4 列存引擎正式开源。PolarDB 是阿里云自研产品,在存储计算分离架构下,利用了软硬件结合的优势,为用户提供秒级弹性、高性能、海量存储、安全可靠的云原生数据库服务。其100%兼容MySQL和PostgreSQL生态,支持分布式扩展,高度兼容Oracle语法。


2024年4月份,PolarDB分布式版正式发布2.4.0版本,重点推出列存节点Columnar,可以提供持久化列存索引(Clustered Columnar Index,CCI)。PolarDB分布式版的行存表默认有主键索引和二级索引,列存索引是一份额外基于列式结构的二级索引(默认覆盖行存所有列),一张表可以同时具备行存和列存的数据,结合计算节点CN的向量化计算,可以满足分布式下的查询加速的诉求,实现HTAP一体化的体验和效果。


14.天翼云TeleDB焕新云上大放价|多款RDS产品官网直降 最高降幅达80%


天翼云TeleDB官宣下调云数据库官网售价,最高降幅达80%。天翼云云数据库此次降价涉及MySQL、PostgreSQL、SQL Server系列 3款关系型数据库产品,囊括112个产品规格,都是云上用户使用频率最高的核心产品,数百万新老客户可在本次降价中直接获益。降价后,天翼云云数据库核心产品价格挑战击穿全网主流数据库最低价。


本次降价采用产品标准资费 + 包年折扣官网直降的形式,对在官网采购的新老客户均适用。无论大中小企业客户、新老客户,都可以直接在天翼云云官网上按照最新价格在线下单,享受安全可靠、开箱即用的数据库服务。


数据安全


15.PQShield筹集了3700万美元,以加速全球采用量子证明加密


英国网络安全公司PQShield在B轮融资中筹集了3700万美元,以推动后量子密码学(PQC)的全球采用,这是一种量子计算机无法破解的加密方式。


PQC 是一种旨在抵御量子计算机攻击的加密类型。这家总部位于牛津的公司成立于2018年,在美国国家标准与技术研究院(NIST)即将推出的PQC标准的制定中发挥了重要作用。这些标准预计将在未来几周内发布,将为网络安全设定新的全球基准。


本轮融资由Addition领投,新投资者Chevron Technology Ventures、Legal & General和Braavos Capital以及现有投资者Oxford Science Enterprises等。美国政府计划到2030年将这些标准强制用于国家安全系统。


PQShield 曾为白宫、欧洲议会、英国国家网络安全委员会和世界经济论坛就向量子安全过渡提供建议。其客户包括AMD、Microchip Technologies和Collins Aerospace。(quantumzeitgeist.com


16.网络弹性初创公司Semperis为企业身份保护扩展筹集1.25亿美元


企业身份保护和网络弹性初创公司 Semperis 已获得 1.25 亿美元的融资。Semperis成立于2014年,提供网络安全服务,专门保护Active Directory和Azure AD免受网络威胁,并为Entra ID和Okta Inc.提供支持。Microsoft Corp.的Active Directory允许公司集中管理哪些员工可以访问哪些业务应用程序以及如何访问,而Azure AD是该软件的基于云的版本。siliconangle.com


AI


17.星环科技受邀参加2024陆家嘴论坛,共探大模型时代金融高质量发展


由上海市人民政府和中国人民银行、国家金融监督管理总局、中国证监会共同主办的2024陆家嘴论坛在上海召开。星环科技创始人、CEO孙元浩受邀参加2024陆家嘴论坛“科创金融工作室”专场活动,围绕“优化全生态融资结构,加快人工智能产业布局”议题,与来自中国工商银行总行公司、上海市联合征信有限公司、上海人工智能产业投资基金、上海大模型生态发展有限公司等的业界大咖,探讨该赛道发展机遇和挑战、如何助力算力大模型、数据、应用场景渗透和产业链布局、商业化等话题。


当前以大模型为代表的人工智能技术,正成为引领新一代产业变革的核心驱动力。星环科技创始人、CEO孙元浩指出,大模型技术已快速融入企业生产经营的方方面面,在企业生产效率提升、业务职能提效和行业应用场景创新中无处不在,不但重构产业,打造企业的核心竞争力,而且成为企业的基础设施和核心能力,助力企业打造新质生产力。


18.AIGC报告:千行百业All in AI,重构数字经济的生产模式


甲子光年于2024年6月推出《2024年中国AIGC行业应用价值研究报告》。报告主要观点:


AIGC的出现对所有行业的生产模式均进行了颠覆,并且从内容生成到流程再造,可实现多个行业的成本降低及价值再造,其中蕴含了大量的机会。


因此,AIGC新的时代,个人和企业都应在AIGC人才体系建设中寻找自己的位置。企业对于AIGC的期待增加,对于预算及实施时间仍抱有“试错容忍。


AIGC的应用在利用技术的优势同时,也始终需要克服技术带来的不确定性。


19.国内领先大模型上线 Amazon SageMaker JumpStart,众多产品重磅新发布!


Amazon SageMaker JumpStart上线了由零一万物提供的基础模型 Yi-1.5 6B/9B/34B,为中国企业提供丰富模型选择的同时满足了企业对安全合规、快速扩展、免运维的需求。作为首批登陆中国区域 Amazon SageMaker JumpStart 的中文基础模型,Yi-1.5与亚马逊云科技托管服务深度集成,助力中国企业应用一流的生成式 AI 技术实现本土创新与业务转型。


Amazon Redshift Serverless 可以自动预置和智能扩展数据仓库容量,以便为您的所有分析提供高性能支持。您只需按工作负载的使用时长付费。您可以从这种简单性中受益,无需更改现有分析或 BI 应用。


另外,Amazon Redshift 与 Amazon Aurora 的 Zero-ETL 集成在中国区正式推出。Amazon Aurora 支持 PostgreSQL 16.2、15.6、14.11、13.14 和 12.18。


Amazon DocumentDB 与 Amazon OpenSearch Service 实现Zero-ETL集成,让客户能使用 OpenSearch API 对 DocumentDB 中的文档数据实现高级搜索功能,如模糊搜索、跨集合搜索和多语言搜索。


20.Couchbase通过Vectorize合作伙伴关系扩展RAG功能


Couchbase宣布与矢量搜索优化公司Vectorize 合作,将Vectorize与 Couchbase Capella 集成,为组织提供了一种安全的方式来评估各种矢量化策略,以使用RAG开发AI驱动的应用程序。


通过合作,在 Capella 上构建高度优化的向量索引变得更加容易!这是因为 Couchbase 和 Vectorize 的团队一直在努力将 Vectorize 实验的强大功能引入 Couchbase Capella,这是一个 DBaaS 平台,可让您快速开始使用 RAG 驱动的 GenAI 应用程序。利用这种集成,您可以快速找到最佳的文本嵌入模型、分块策略和检索参数,从而最大限度地提高搜索结果的相关性,而无需编写任何代码。


对于使用 Capella 作为 RAG 知识库构建 LLM 驱动的应用程序的任何人来说,这是一个游戏规则改变者,它将使您能够在很短的时间内构建更好、更准确的生成式 AI 应用程序,而无需反复试验来为您的数据找出最佳矢量化策略。(datanami.com


21.DataStax在RAG++ 活动上推出重大AI平台更新


DataStax 宣布对其生成式AI开发平台进行重大更新,帮助将检索增强生成(RAG)驱动的应用程序开发速度提高100倍。


DataStax收购了Langflow,这是一个流行的开源可视化框架,用于构建RAG应用程序。现在,DataStax 正在发布 Langflow 1.0,其中包括托管在DataStax Cloud平台中的Langflow 版本。


Langflow 1.0 的拖放界面与顶级 Gen AI 工具(LangChain、LangSmith、OpenAI、Hugging Face、Mistral 等)集成了数十种,使开发人员可以轻松设置、交换和比较所有主要的大型语言模型和嵌入提供商。


自 2023 年 12 月推出 RAGStack 以来,DataStax 通过添加几个关键功能、集成和合作伙伴关系,为产品增加了持续的深度和广度,所有这些都在 RAGStack 1.0 版本中提供——生产就绪、开箱即用的解决方案,通过一套高效的工具,在企业规模上简化 RAG 实施, 技术和治理。


RAGStack 1.0版本通过提供最好的开源和企业用例所需的最新技术,为所有 GenAI 应用程序和框架提供了稳定性。(datastax.com


22.SensiML 开源 TinyML 自动 ML 工具


SensiML公司决定开其 TinyML 工具链的重要部分。该公司的旗舰产品SensiML分析工具包为物联网设备提供了一个全面的开发平台,涵盖数据收集、标记、算法和固件生成以及测试。通过开源Analytic Studio,它旨在促进社区协作,以增强其功能并促进ML的部署,即使是在最小的设备中。


SensiML的工具被设计为与硬件无关,支持各种平台,包括Arm Cortex-M级微控制器、基于Intel x86的CPU和QuickLogic的S3平台。(opensourceforu.com



扫描二维码

关注我们

END



文章转载自Hadoop大数据应用,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论