大数据杂货铺的个人主页

于2020-03-12 加入墨天轮

大数据杂货铺

关注TA

写留言

444

文章

粉丝

102K+

浏览量

个人成就

发布444次内容

获得1次点赞

内容获得0次评论

获得4次收藏

回答了0次问答

文章分类

数据库

（184）

大数据

（116）

cloudera

（29）

apache

（28）

cdp

（24）

私有云

（21）

架构

（15）

hive

（15）

元数据

（14）

机器学习

（12）

安全

（12）

人工智能

（12）

kafka

（11）

数据处理

（11）

spark

（11）

doris

（10）

sql

（10）

mesh

（10）

flink

（10）

数据集成

（9）

elasticsearch

（8）

数据管理

（8）

数据仓库

（8）

neo4j

（8）

nifi

（7）

hbase

（7）

hdfs

（6）

相似性

（6）

索引

（6）

关键

（6）

edg战队

（6）

clickhouse

（6）

集群技术

（6）

sql数据库

（6）

软件

（6）

sql语言

（5）

用例模型

（5）

集群服务器

（5）

airflow

（5）

kerberos

（5）

cdh

（5）

vector

（4）

产品管理

（4）

数据库语言

（4）

上下文

（4）

数据分析

（4）

数据检索

（4）

存储引擎

（4）

mysql

（4）

数据库文件

（4）

网络欺诈

（4）

结构化方法

（4）

https

（4）

事务

（4）

impala

（4）

mongodb

（4）

网格系统

（4）

文本分析

（4）

etl

（4）

数据库性能

（4）

shuffle

（4）

图数据库

（4）

数据迁移

（3）

选项卡

（3）

kafka命令

（3）

fabric

（3）

yarn

（3）

sentry

（3）

社区功能

（3）

docker

（3）

功能分析

（3）

postgresql

（3）

云数据

（3）

aws

（3）

python机器学习

（3）

数据治理

（3）

图片文件格式

（2）

并行处理

（2）

科技新闻

（2）

客户分析

（2）

自然语言处理

（2）

数据存储

（2）

心理学

（2）

bedrock

（2）

时间戳

（2）

gartner

（2）

企业运营

（2）

relu

（2）

teradata

（2）

presto

（2）

企业流程管理

（2）

chatgpt

（2）

soda

（2）

openai

（2）

etl工具

（2）

input

（2）

代理模式

（2）

相关性分析

（2）

retriever

（2）

设计原则

（2）

重命名

（2）

oracle

（2）

效用函数

（2）

软件体系结构

（2）

druid

（2）

chat

（2）

模型公司

（2）

node

（2）

iphone

（2）

core

（2）

空间维度

（2）

数据建模

（2）

主题模型

（2）

人工智能技术

（2）

phoenix

（2）

编码转换

（2）

命令模式

（2）

颜色模型

（2）

文本文件格式

（2）

tasks

（2）

矢量

（2）

软件工程

（2）

客户感知

（2）

数据科学家

（2）

hdfs命令

（2）

实体关系图

（2）

稀疏编码

（2）

同行评审

（2）

数据库系统

（2）

jdbc

（2）

治理理论

（2）

全文检索

（2）

能力模型

（2）

魔力象限

（2）

质量管理

（2）

cde

（2）

用户分析

（2）

稀疏表示

（2）

多维数据库

（2）

企业架构

（2）

数据库集群

（2）

矢量数据

（2）

非结构化数据

（2）

rdf

（2）

shell

（2）

label

（2）

数据转换

（2）

云计算

（2）

入门指南

（2）

csp

（2）

语义分析

（2）

section

（2）

科学

（2）

亚马逊

（2）

外部表

（2）

结构化思维

（2）

交易风险

（2）

早餐

（2）

全文搜索

（2）

敏捷开发

（1）

决策树

（1）

关系模型

（1）

非结构网格

（1）

tez

（1）

内存优化

（1）

资源池

（1）

对象存储

（1）

开发流程

（1）

cpu时间

（1）

数据库事务

（1）

文件目录

（1）

优先级队列

（1）

数据同步

（1）

市场营销

（1）

偏移量

（1）

访问控制

（1）

hadoop

（1）

内存碎片

（1）

table

（1）

混合云

（1）

test

（1）

pandas

（1）

编译程序

（1）

阿里

（1）

编辑器

（1）

data

（1）

安全平台

（1）

数据中心

（1）

数据库分区

（1）

zeta

（1）

hue

（1）

paas

（1）

事务管理

（1）

mariadb

（1）

教程

（1）

信用卡

（1）

预测模型

（1）

达美航空

（1）

网络安全

（1）

mqtt

（1）

cpu参数

（1）

linux

（1）

容器

（1）

gpu

（1）

海量数据

（1）

oozie

（1）

srm

（1）

主机名

（1）

paas平台

（1）

word2vec

（1）

hudi

（1）

cdc

（1）

详细信息

（1）

kubernetes

（1）

哈希表

（1）

内存参数

（1）

展开

文章档案

2024年08月

(8)

2024年07月

(10)

2024年06月

(2)

2024年05月

(10)

2024年04月

(24)

2024年03月

(14)

2024年02月

(10)

2024年01月

(10)

2023年12月

(20)

2023年11月

(10)

2023年10月

(4)

2023年09月

(8)

2023年08月

(10)

2023年07月

(8)

2023年06月

(6)

2023年05月

(8)

2023年04月

(1)

2023年03月

(2)

2023年01月

(1)

2022年12月

(2)

2022年11月

(7)

2022年10月

(9)

2022年09月

(1)

2022年08月

(4)

2022年07月

(8)

2022年04月

(7)

2022年03月

(5)

2022年02月

(3)

2022年01月

(4)

2021年12月

(7)

2021年11月

(7)

2021年10月

(2)

2021年09月

(13)

2021年08月

(22)

2021年07月

(9)

2021年06月

(11)

2021年05月

(8)

2021年04月

(9)

2021年03月

(5)

2021年02月

(7)

2021年01月

(11)

2020年12月

(10)

2020年11月

(12)

2020年10月

(17)

2020年09月

(2)

2020年08月

(6)

2020年07月

(11)

2020年06月

(13)

2020年05月

(4)

2020年04月

(5)

2020年03月

(9)

2020年02月

(4)

2020年01月

(2)

2019年12月

(17)

2019年11月

(5)

展开

使用 ClickHouse 和 Amazon Bedrock 为 Google Analytics 构建 RAG 管道

在技术博客中广泛使用 RAG、ML 和 LLM 等缩写词的背景下，我抓住这个机会深入研究计算机科学领域，而我的经验无疑是有限的。这篇文章既是我的旅程记录，也是我使用 LLM 和 RAG 简化应用程序接口的实验。

发布文章于

2024-08-15

Spark Streaming比Flink好在哪里

Spark Streaming的可靠性、兼容性和窗口操作使得它在许多场景下仍然是更好的选择。

发布文章于

2024-08-15

如何构建自己的知识库

构建自己的知识库是一个良好的习惯，可以提高工作和学习效率。以下是一些高效构建自己的知识库的方法

发布文章于

2024-08-15

向量数据库前景展望

介绍向量数据库的概念、特点以及其在不同领域的前景展望，并探讨其可能带来的影响。

发布文章于

2024-08-15

SeaTunnel毕业！首个国人主导的数据集成项目成为Apache顶级项目

异构数据集成/同步项目SeaTunnel可以连接百余个数据源，成为Apache顶级项目后标志着其在开源软件开发领域的突破，并为其在技术、社区合作和开放创新方面的卓越表现获得了广泛认可。

发布文章于

2024-08-15

数据体系结构的过去、现在和未来

为什么我们需要数据架构？成为一个数据驱动的组织仍然是许多公司的首要战略目标。数据驱动意味着将数据置于组织中所有决策和流程的中心。领导者明白，成为数据驱动组织是改善客户体验的唯一途径，数据的蓬勃发展创造了繁荣的环境。

发布文章于

2024-08-15

Apache Flink vs Apache Spark：数据处理的详细比较

深入比较Apache Flink和Apache Spark，探索它们在数据处理方面的差异和优势，以帮助您确定最适合的数据处理框架。

发布文章于

2024-08-15

大数据处理引擎应该怎么选择

列存储是当今大数据处理和存储领域中经常被讨论的话题，有数百种格式、结构和优化方式可用于存储数据，甚至还有更多的检索方式，具体取决于计划如何使用这些数据。这种众多选项的出现，是由于不仅需要使用在线事务处理（OLTP）工具快速地摄入数据。

发布文章于

2024-08-15

Soda Core：最简单的开源数据可靠性工具

数据可靠性对于组织在当今数据驱动的业务环境中取得成功至关重要。它对于做出明智的决策、高效运营、遵守法规、满足客户需求以及获得竞争优势至关重要。通过整个数据管道启用数据可靠性解决方案可以建立对组织的信任，并消除可扩展性方面的主要障碍。

发布文章于

2024-08-15

Apache CarbonData 简介

Apache CarbonData 是一种索引列式数据格式，专为快速分析和实时洞察至关重要的大数据场景而开发。这个强大的数据存储解决方案是 Apache 软件基金会内的顶级项目，提供了一种更结构化、更高效、更快速的方法来处理和分析大型数据集

发布文章于

2024-08-15

用 Apache Doris 替换 Apache Hive、Elasticsearch 和 PostgreSQL

Apache Doris 支持数据摄取事务，因此可以确保数据只写入一次。\x0a它与数据生态系统集成良好，可以与大多数数据源和数据格式平滑对接。\x0a它允许我们使用命令行界面实现集群的弹性伸缩。\x0a它在连接查询方面优于 ClickHouse 。

发布文章于

2024-08-15

优化 Apache Spark 性能：消除 shuffle 以实现高效数据处理

Spark 的性能可能会受到称为“shuffle”的常见挑战的影响。在本文中，我们将探讨 shuffle 是什么、它的原因、与之相关的问题以及优化 Apache Spark 性能的有效解决方案。

发布文章于

2024-08-15

现代数据质量管理 (DQM) 指南

数据质量管理是创建高效业务仪表板的先决条件，它将帮助您制定决策并推动您的业务向前发展。

发布文章于

2024-08-15

大规模数据管理的路径

过去几年里，去中心化架构成为管理大数据的新范式。本文中我想阐述如何实现这样的联合设计。首先简短反思您的数据策略，以及您是否应该从集中式或分散式方法开始。然后我们将经历实施数据架构的各个阶段，从设定战略方向到奠定基础再到专业化的能力。

发布文章于

2024-08-15

送一波福利 CDH集群免费巡检和技术支持

近日，国内知名Hadoop平台第三方服务商碧茂科技宣布，将对CDH用户提供免费集群巡检和远程支持服务。有需要的同学可以自行申请。

发布文章于

2024-08-15

自动同步整个 MySQL/Oracle 数据库以进行数据分析

Flink-Doris-Connector 1.4.0 允许用户一步将包含数千个表的整个数据库（MySQL或Oracle ）摄取到Apache Doris 中。通过内置的Flink CDC，可以直接将上游源的表模式和数据同步到Doris。

发布文章于

2024-08-15

最大化 Spark 性能：最小化 Shuffle 开销

Apache Spark 通过将数据分布在多个节点并在每个节点上单独计算值来处理查询。然而有时节点需要交换数据。Shuffle 是分区之间交换数据的过程。当源分区和目标分区驻留在不同的计算机上时，数据行可以在工作节点之间移动。

发布文章于

2024-08-15

每个数据工程师都应该了解和使用的10 个 ChatGPT 提示

以下是每个数据工程师在日常工作中都应该了解和使用的10 个 ChatGPT 提示。

发布文章于

2024-08-15

如何识别您的业务关键数据

在这篇文章中，我们将研究：1、为什么您应该识别您的关键数据资产。2、如何识别关键仪表板和数据模型。3、如何创建关键数据正常运行的文化。

发布文章于

2024-08-15

如何消化每天 150 亿条日志，让大查询保持在 1 秒内

该数据仓库用例与规模有关。用户是中国联通，全球最大的电信服务提供商之一。使用 Apache Doris 在数

发布文章于

2024-08-15

Apache Doris 简介：下一代实时数据仓库

Apache Doris是一个开源实时数据仓库。它可以从各种数据源收集数据，包括关系数据库（MySQL、PostgreSQL、SQL Server、Oracle等）、日志和来自物联网设备的时间序列数据。

发布文章于

2024-08-15

适用于大数据环境的面向 OLAP 的数据库

这篇博文讨论了在大数据环境中使用面向OLAP的数据库。重点关注Hive作为用于实现大数据仓库 (BDW) 的SQL-on-Hadoop引擎，如何在Hive中将维度模型转换为表格模型。还介绍了Druid等新兴技术用于对大型数据集进行实时分析。

发布文章于

2024-08-15

组件更少，性能更高：Apache Doris 取代 ClickHouse、MySQL、Presto 和 HBase

这篇文章是关于构建统一的 OLAP 平台。一家保险公司试图构建一个数据仓库，可以承担所有面向客户、分析师和管

发布文章于

2024-08-15

数据驱动管理：WHY、WHAT、WHO、HOW

虽然许多企业渴望成为数据驱动型组织，但其中很大一部分往往只关注技术方面，主要将其视为技术资产。因此，他们的投

发布文章于

2024-08-15

用 Kafka、Spark、Airflow 和 Docker 构建数据流管道指南

在本指南中，我们将深入探讨构建强大的数据管道，用 Kafka 进行数据流处理、Spark 进行处理、Airflow 进行编排、Docker 进行容器化、S3 进行存储，Python 作为主要脚本语言。

发布文章于

2024-08-15

Data Mesh 崛起：您了解它的定义和价值吗？

研究数据网格架构如何彻底改变单一数据范式，以及它如何帮助您更快、更可靠地交付数据驱动的项目。

发布文章于

2024-08-15

Data Mesh 四原则：迈向数据驱动企业的必经之路！

如何实现数据网格？让我们探讨数据网格的四个原则、它们如何相互关联，以及如何使用它们来指导和优化您的实施过程。

发布文章于

2024-08-15

Data Mesh 常见问题汇总：你不得不知的解决方案！

数据网格（Data Mesh）架构是一种新的数据管理方法，它将数据去中心化与联合计算治理相结合。如果做得好，它可以提高数据质量、缩短上市时间并节省资金。但每个人都很难理解它所需要的改变。

发布文章于

2024-08-15

Data Mesh 关键组件：数据产品如何改变企业运营？

数据即产品。我们将回顾什么是数据产品、它们如何改进数据发现和治理以及如何创建它们。

发布文章于

2024-08-15

ClickHouse 提升数据效能

使用 ClickHouse 增强 Google Analytics 数据的简单方法，以每月不到 20 美元的价格提供灵活、快速的分析和无限保留

发布文章于

2024-08-15

数据域的力量：让你重新认识 Data Mesh 架构

探讨领域驱动的数据所有权的原则。我们解释什么是数据域，以及它们如何为新数据产品带来更好的可扩展性和更快的交付时间。

发布文章于

2024-08-15

数据摄取之架构模式

数据摄取是连接操作和分析世界的基本过程。对于将数据从原始操作环境中的多个来源传输到分析领域至关重要。

发布文章于

2024-08-15

简化数据管道：将 Kafka 与 Airflow 集成

Apache Kafka 是一个分布式事件流平台，凭借可扩展性、耐用性和容错能力而蓬勃发展。它充当消息代理，支持实时发布和订阅记录流。其架构可确保高吞吐量、低延迟的数据传输，使其成为跨多个应用程序处理大量实时数据的首选。

发布文章于

2024-08-15

从 Elasticsearch 到 Apache Doris：升级可观察性平台

可观察性平台类似于免疫系统。就像免疫细胞在人体中无处不在一样，可观察平台会巡逻设备、组件和架构的每个角落，识别任何潜在威胁并主动缓解它们。然而，我这个比喻可能有点过分了，因为直到今天，我们还没有发明出像人体一样复杂的系统，但总能取得进步。

发布文章于

2024-08-15

向量数据库简介和5个常用的开源项目介绍

随着数字时代推动我们进入人工智能和机器学习主导的时代，向量数据库已成为存储、搜索和分析高维数据向量不可或缺的工具。本博客旨在全面了解向量数据库、它们在人工智能中日益增长的重要性，并深入探讨 2023 年可用的最佳向量数据库。

发布文章于

2024-08-15

2024 年最佳 15 个向量数据库

向量数据库与标准关系数据库不同，后者是为了按行和列存储表格数据而构建的。它们也不同于以 JSON 形式存储数据的 MongoDB 等较新的 NoSQL 数据库。这是因为向量数据库旨在存储和检索一种类型的数据：向量嵌入。

发布文章于

2024-08-15

揭秘矢量数据库：人工智能背后的强大驱动力

这种变革技术的核心数据概念是矢量。通过矢量化和大型语言模型 (LLM) 的强大功能，生成式 AI 实现了其改变游戏规则的潜力。在生成式人工智能时代，矢量嵌入奠定了基础；矢量数据库扩大了其影响。

发布文章于

2024-08-15

RAG：如何与您的数据对话

LLM可以帮助我们进行这种分析，并节省大量时间来浏览客户的评论

发布文章于

2024-08-15

DataHub元数据管理平台概述

DataHub 是一个现代数据目录，旨在实现端到端数据发现、数据可观察性和数据治理。

发布文章于

2024-08-15

DataHub元数据治理平台架构

DataHub 是第三代元数据平台，支持为现代数据堆栈构建的数据发现、协作、治理和端到端可观察性。DataHub 采用模型优先的理念，重点是解锁不同工具和系统之间的互操作性。

发布文章于

2024-08-15

SQL Assistant：Streamlit 中的文本到 SQL 应用程序

Vanna.ai是一个Python 库，专门用于训练能够处理自然语言问题并生成 SQL 查询作为响应的模型。此实现将集成到 ✨Streamlit 应用程序中，创建一个 🤖 聊天机器人，方便提出问题并为返回的查询提供解释。

发布文章于

2024-08-15

数据人再不升级这项能力，可能有被淘汰的风险！

发布文章于

2024-08-15

2024 年数据目录的 15 个基本特征

数据目录应该具有一些基本功能，以促进整个组织数据环境中的无缝数据发现、治理、沿袭、协作和自动化。

发布文章于

2024-08-15

数据目录指南：示例、要查找的内容以及它们的去向

数据目录是现代数据管理的支柱，使组织能够有效地查找、理解、信任和使用其数据。请继续阅读，详细了解什么是数据目录以及为什么您在 2024 年需要数据目录

发布文章于

2024-08-15

OpenMetadata：设计原则、架构、应用程序等

OpenMetadata 是一个开源元数据存储，可以帮助您在整个数据生态系统中实现数据编目、发现和协作。

发布文章于

2024-08-15

向量数据库101-非结构化数据入门

非结构化数据是指无法以预先定义的格式存储或无法适应现有数据模型的数据。人工生成的数据——图像、视频、音频、文本文件等等——都是非结构化数据的好例子。但蛋白质结构、可执行文件散列、甚至人类可读的代码都是近乎无穷无尽的非结构化数据的例子。

发布文章于

2024-08-15

数据沿袭与数据溯源：7 个关键区别

数据沿袭揭示了数据从何而来以及它在生命周期中如何演变。另一方面，数据溯源更侧重于通过对数据和元数据的审计跟踪来验证数据的准确性、质量和可靠性的能力。

发布文章于

2024-08-15

AI 数据目录：探索人工智能为元数据应用和数据交互带来的可能性

借助 AI 数据目录，您可以在几秒钟内获取所需的所有数据和上下文，以便做出更好、更有洞察力的决策。让我们了解人工智能在数据编目方面的可能性，然后探讨人工智能数据编目对业务的影响。

发布文章于

2024-08-15

Gartner目录数据研究指南：如何阅读市场指南、魔力象限和同行评审

了解 Gartner 对数据目录的看法的关键是两个资源：\x0d\x0a1.他们对增强数据目录的研究\x0d\x0a2.他们的活力元数据管理市场指南\x0d\x0a·Gartner 强调现代数据目录应该：\x0d\x0a·自动化数据发现和治理流程\x0d\x0a·提供开放API以促进元数据跨工具流动

发布文章于

2024-08-15

使用上下文策略极大提高AI SQL 准确性

当通过上下文策略查看 SQL 准确性时，很明显这就是造成差异的原因。比当仅使用模式时，我们的准确率从约 3% 提高到智能使用上下文示例时的约 80%。

发布文章于

2024-08-15