于2020-03-12 加入墨天轮


大数据杂货铺
关注TA
写留言
444
文章
4
粉丝
102K+
浏览量
个人成就
发布444次内容
获得1次点赞
内容获得0次评论
获得4次收藏
回答了0次问答
文章分类
数据库
(184)
大数据
(116)
cloudera
(29)
apache
(28)
cdp
(24)
私有云
(21)
架构
(15)
hive
(15)
元数据
(14)
机器学习
(12)
安全
(12)
人工智能
(12)
展开
文章档案
2024年08月
(8)
2024年07月
(10)
2024年06月
(2)
2024年05月
(10)
2024年04月
(24)
2024年03月
(14)
2024年02月
(10)
2024年01月
(10)
展开
动态
文章 ·444
数说 ·0
问答 ·0
文档 ·0
关注
留言板·0
使用 ClickHouse 和 Amazon Bedrock 为 Google Analytics 构建 RAG 管道
在技术博客中广泛使用 RAG、ML 和 LLM 等缩写词的背景下,我抓住这个机会深入研究计算机科学领域,而我的经验无疑是有限的。这篇文章既是我的旅程记录,也是我使用 LLM 和 RAG 简化应用程序接口的实验。
发布文章于
2024-08-15
SeaTunnel毕业!首个国人主导的数据集成项目成为Apache顶级项目
异构数据集成/同步项目SeaTunnel可以连接百余个数据源,成为Apache顶级项目后标志着其在开源软件开发领域的突破,并为其在技术、社区合作和开放创新方面的卓越表现获得了广泛认可。
发布文章于
2024-08-15
数据体系结构的过去、现在和未来
为什么我们需要数据架构?成为一个数据驱动的组织仍然是许多公司的首要战略目标。数据驱动意味着将数据置于组织中所有决策和流程的中心。领导者明白,成为数据驱动组织是改善客户体验的唯一途径,数据的蓬勃发展创造了繁荣的环境。
发布文章于
2024-08-15
Apache Flink vs Apache Spark:数据处理的详细比较
深入比较Apache Flink和Apache Spark,探索它们在数据处理方面的差异和优势,以帮助您确定最适合的数据处理框架。
发布文章于
2024-08-15
大数据处理引擎应该怎么选择
列存储是当今大数据处理和存储领域中经常被讨论的话题,有数百种格式、结构和优化方式可用于存储数据,甚至还有更多的检索方式,具体取决于计划如何使用这些数据。这种众多选项的出现,是由于不仅需要使用在线事务处理(OLTP)工具快速地摄入数据。
发布文章于
2024-08-15
Soda Core:最简单的开源数据可靠性工具
数据可靠性对于组织在当今数据驱动的业务环境中取得成功至关重要。它对于做出明智的决策、高效运营、遵守法规、满足客户需求以及获得竞争优势至关重要。通过整个数据管道启用数据可靠性解决方案可以建立对组织的信任,并消除可扩展性方面的主要障碍。
发布文章于
2024-08-15
Apache CarbonData 简介
Apache CarbonData 是一种索引列式数据格式,专为快速分析和实时洞察至关重要的大数据场景而开发。这个强大的数据存储解决方案是 Apache 软件基金会内的顶级项目,提供了一种更结构化、更高效、更快速的方法来处理和分析大型数据集
发布文章于
2024-08-15
用 Apache Doris 替换 Apache Hive、Elasticsearch 和 PostgreSQL
Apache Doris 支持数据摄取事务,因此可以确保数据只写入一次。\x0a它与数据生态系统集成良好,可以与大多数数据源和数据格式平滑对接。\x0a它允许我们使用命令行界面实现集群的弹性伸缩。\x0a它在连接查询方面优于 ClickHouse 。
发布文章于
2024-08-15
优化 Apache Spark 性能:消除 shuffle 以实现高效数据处理
Spark 的性能可能会受到称为“shuffle”的常见挑战的影响。在本文中,我们将探讨 shuffle 是什么、它的原因、与之相关的问题以及优化 Apache Spark 性能的有效解决方案。
发布文章于
2024-08-15
大规模数据管理的路径
过去几年里,去中心化架构成为管理大数据的新范式。本文中我想阐述如何实现这样的联合设计。首先简短反思您的数据策略,以及您是否应该从集中式或分散式方法开始。然后我们将经历实施数据架构的各个阶段,从设定战略方向到奠定基础再到专业化的能力。
发布文章于
2024-08-15
送一波福利 CDH集群免费巡检和技术支持
近日,国内知名Hadoop平台第三方服务商碧茂科技宣布,将对CDH用户提供免费集群巡检和远程支持服务。有需要的同学可以自行申请。
发布文章于
2024-08-15
自动同步整个 MySQL/Oracle 数据库以进行数据分析
Flink-Doris-Connector 1.4.0 允许用户一步将包含数千个表的整个数据库(MySQL或Oracle )摄取到Apache Doris 中。通过内置的Flink CDC,可以直接将上游源的表模式和数据同步到Doris。
发布文章于
2024-08-15
最大化 Spark 性能:最小化 Shuffle 开销
Apache Spark 通过将数据分布在多个节点并在每个节点上单独计算值来处理查询。然而有时节点需要交换数据。Shuffle 是分区之间交换数据的过程。当源分区和目标分区驻留在不同的计算机上时,数据行可以在工作节点之间移动。
发布文章于
2024-08-15
如何消化每天 150 亿条日志,让大查询保持在 1 秒内
该数据仓库用例与规模有关。用户是中国联通,全球最大的电信服务提供商之一。使用 Apache Doris 在数
发布文章于
2024-08-15
Apache Doris 简介:下一代实时数据仓库
Apache Doris是一个开源实时数据仓库。它可以从各种数据源收集数据,包括关系数据库(MySQL、PostgreSQL、SQL Server、Oracle等)、日志和来自物联网设备的时间序列数据。
发布文章于
2024-08-15
适用于大数据环境的面向 OLAP 的数据库
这篇博文讨论了在大数据环境中使用面向OLAP的数据库。重点关注Hive作为用于实现大数据仓库 (BDW) 的SQL-on-Hadoop引擎,如何在Hive中将维度模型转换为表格模型。还介绍了Druid等新兴技术用于对大型数据集进行实时分析。
发布文章于
2024-08-15
组件更少,性能更高:Apache Doris 取代 ClickHouse、MySQL、Presto 和 HBase
这篇文章是关于构建统一的 OLAP 平台。一家保险公司试图构建一个数据仓库,可以承担所有面向客户、分析师和管
发布文章于
2024-08-15
用 Kafka、Spark、Airflow 和 Docker 构建数据流管道指南
在本指南中,我们将深入探讨构建强大的数据管道,用 Kafka 进行数据流处理、Spark 进行处理、Airflow 进行编排、Docker 进行容器化、S3 进行存储,Python 作为主要脚本语言。
发布文章于
2024-08-15
Data Mesh 四原则:迈向数据驱动企业的必经之路!
如何实现数据网格?让我们探讨数据网格的四个原则、它们如何相互关联,以及如何使用它们来指导和优化您的实施过程。
发布文章于
2024-08-15
Data Mesh 常见问题汇总:你不得不知的解决方案!
数据网格(Data Mesh)架构是一种新的数据管理方法,它将数据去中心化与联合计算治理相结合。如果做得好,它可以提高数据质量、缩短上市时间并节省资金。但每个人都很难理解它所需要的改变。
发布文章于
2024-08-15
ClickHouse 提升数据效能
使用 ClickHouse 增强 Google Analytics 数据的简单方法,以每月不到 20 美元的价格提供灵活、快速的分析和无限保留
发布文章于
2024-08-15
数据域的力量:让你重新认识 Data Mesh 架构
探讨领域驱动的数据所有权的原则。我们解释什么是数据域,以及它们如何为新数据产品带来更好的可扩展性和更快的交付时间。
发布文章于
2024-08-15
简化数据管道:将 Kafka 与 Airflow 集成
Apache Kafka 是一个分布式事件流平台,凭借可扩展性、耐用性和容错能力而蓬勃发展。它充当消息代理,支持实时发布和订阅记录流。其架构可确保高吞吐量、低延迟的数据传输,使其成为跨多个应用程序处理大量实时数据的首选。
发布文章于
2024-08-15
从 Elasticsearch 到 Apache Doris:升级可观察性平台
可观察性平台类似于免疫系统。就像免疫细胞在人体中无处不在一样,可观察平台会巡逻设备、组件和架构的每个角落,识别任何潜在威胁并主动缓解它们。然而,我这个比喻可能有点过分了,因为直到今天,我们还没有发明出像人体一样复杂的系统,但总能取得进步。
发布文章于
2024-08-15
向量数据库简介和5个常用的开源项目介绍
随着数字时代推动我们进入人工智能和机器学习主导的时代,向量数据库已成为存储、搜索和分析高维数据向量不可或缺的工具。 本博客旨在全面了解向量数据库、它们在人工智能中日益增长的重要性,并深入探讨 2023 年可用的最佳向量数据库。
发布文章于
2024-08-15
2024 年最佳 15 个向量数据库
向量数据库与标准关系数据库不同,后者是为了按行和列存储表格数据而构建的。它们也不同于以 JSON 形式存储数据的 MongoDB 等较新的 NoSQL 数据库。这是因为向量数据库旨在存储和检索一种类型的数据:向量嵌入。
发布文章于
2024-08-15
揭秘矢量数据库:人工智能背后的强大驱动力
这种变革技术的核心数据概念是矢量。通过矢量化和大型语言模型 (LLM) 的强大功能,生成式 AI 实现了其改变游戏规则的潜力。在生成式人工智能时代,矢量嵌入奠定了基础;矢量数据库扩大了其影响。
发布文章于
2024-08-15
DataHub元数据治理平台架构
DataHub 是第三代元数据平台,支持为现代数据堆栈构建的数据发现、协作、治理和端到端可观察性。DataHub 采用模型优先的理念,重点是解锁不同工具和系统之间的互操作性。
发布文章于
2024-08-15
SQL Assistant:Streamlit 中的文本到 SQL 应用程序
Vanna.ai是一个Python 库,专门用于训练能够处理自然语言问题并生成 SQL 查询作为响应的模型。此实现将集成到 ✨Streamlit 应用程序中,创建一个 🤖 聊天机器人,方便提出问题并为返回的查询提供解释。
发布文章于
2024-08-15
数据人再不升级这项能力,可能有被淘汰的风险!
发布文章于
2024-08-15
数据目录指南:示例、要查找的内容以及它们的去向
数据目录是现代数据管理的支柱,使组织能够有效地查找、理解、信任和使用其数据。请继续阅读,详细了解什么是数据目录以及为什么您在 2024 年需要数据目录
发布文章于
2024-08-15
向量数据库101-非结构化数据入门
非结构化数据是指无法以预先定义的格式存储或无法适应现有数据模型的数据。人工生成的数据——图像、视频、音频、文本文件等等——都是非结构化数据的好例子。但蛋白质结构、可执行文件散列、甚至人类可读的代码都是近乎无穷无尽的非结构化数据的例子。
发布文章于
2024-08-15
数据沿袭与数据溯源:7 个关键区别
数据沿袭揭示了数据从何而来以及它在生命周期中如何演变。另一方面,数据溯源更侧重于通过对数据和元数据的审计跟踪来验证数据的准确性、质量和可靠性的能力。
发布文章于
2024-08-15
AI 数据目录:探索人工智能为元数据应用和数据交互带来的可能性
借助 AI 数据目录,您可以在几秒钟内获取所需的所有数据和上下文,以便做出更好、更有洞察力的决策。让我们了解人工智能在数据编目方面的可能性,然后探讨人工智能数据编目对业务的影响。
发布文章于
2024-08-15
Gartner目录数据研究指南:如何阅读市场指南、魔力象限和同行评审
了解 Gartner 对数据目录的看法的关键是两个资源:\x0d\x0a1.他们对增强数据目录的研究\x0d\x0a2.他们的活力元数据管理市场指南\x0d\x0a·Gartner 强调现代数据目录应该:\x0d\x0a·自动化数据发现和治理流程\x0d\x0a·提供开放API以促进元数据跨工具流动
发布文章于
2024-08-15
使用上下文策略极大提高AI SQL 准确性
当通过上下文策略查看 SQL 准确性时,很明显这就是造成差异的原因。比当仅使用模式时,我们的准确率从约 3% 提高到智能使用上下文示例时的约 80%。
发布文章于
2024-08-15