欢迎访问九五青年,本网站致力于大数据技术、应用和项目技术架构分享
  1. 文章总数:110
  2. 阅读总数:1,103,922
  3. 分类目录:28个
  4. 最近更新:2020年10月24日
  5. 稳定运行:1318天

在很多场景中,精确去重是一个重要指标,例如统计 UV。Kylin 从 1.5.3 版本开始支持精确去重。Kylin 使用 Bitmap 实现精确去重,使用全局字典实现字符串到 int 值的映射。 一、背景 当前全局字典介绍 基于改造后的 TireTree 实现的全局字典。默认在单一 Kylin Job 节点上进行构建,如果一个 Cube ……

美团外卖数据仓库通过MOLAP+ROLAP双引擎模式来适配不同应用场景。MOLAP引擎使用了Apache Kylin。ROLAP我们经过综合考虑,选择了Apache Doris。本文将介绍Doris在美团外卖数仓的实践。 序言 本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据引擎百花齐放,但由于……

Ambari有时候在重启集群或者进行某些操作时,agent节点会出现hearbeat lost的问题 解决方法: 重启ambari-agent,ambari-agent restart 如果上述方法没法解决问题,进入该节点,查看agent的日志。 如果显示异常如下: 可按照下面方法进行解决: 修改失去心跳节点的ambari-agent.i……

InfluxDB简介 InfluxDB 是用Go语言编写的一个开源分布式时序、事件和指标数据库,无需外部依赖。 类似的数据库有Elasticsearch、Graphite等。 其主要特色功能 基于时间序列,支持与时间有关的相关函数(如最大,最小,求和等) 可度量性:你可以实时对大量数据进行计算 基于事件:它支持任意的事件数据 Influx……

Grafana是一个跨平台的开源的度量分析和可视化工具,可以通过将采集的数据查询然后可视化的展示,并及时通知。它主要有以下六大特点: 1、展示方式:快速灵活的客户端图表,面板插件有许多不同方式的可视化指标和日志,官方库中具有丰富的仪表盘插件,比如热图、折线图、图表等多种展示方式; 2、数据源:Graphite,InfluxDB,OpenT……

随着公司业务的增多,服务器上虚拟化机器越来越多,管理起来也不方便,虚拟机一般使用的KVM来做虚拟化,所以对于小型私有云,安装WebVirMgr进行web可视化管理还是很有必要的。简要介绍一下安装方法。 安装KVM 1.首先,对服务器Bios开启虚拟化支持,然后,查看服务器CPU是否支持虚拟化,一般服务器都会支持,可以看到是支持的。 egr……

ETL测试在数据转移到生产数据仓库系统之前执行。它也被称为表平衡或生产调节。ETL测试的主要目标是识别和减少数据缺陷。 考虑到数据量,使用工具进行ETL测试势在必行。以下是前5个ETL测试工具的列表,具有关键功能和下载链接: 1) QuerySurge QuerySurge是RTTS开发的ETL测试解决方案。它是专门为自动化数据仓库和大数……

由于市场上有许多数据库仓库工具,因此很难为项目选择最佳工具。下面是最流行的开源/商业ETL工具的精选列表,其中包含一些关键特性和下载链接。 1) QuerySurge QuerySurge是RTTS开发的ETL测试解决方案。它是专门为自动化数据仓库和大数据的测试而建立的。它还确保从数据源提取的数据在目标系统中保持完整。 特点: 改进数据质……

什么是数据仓库? 数据仓库是一种技术,用于收集和管理来自不同来源的数据,以提供有意义的业务洞察。它是技术和组件的混合体,允许战略性地使用数据。 数据仓库是企业为查询和分析而不是为事务处理而设计的大量信息的电子存储。它是一个将数据转换成信息并使用户可以进行分析的过程。 什么是数据挖掘? 数据挖掘是在大型数据集中寻找隐藏的、有效的和潜在有用的……