欢迎访问九五青年,本网站致力于大数据技术、应用和项目技术架构分享
  1. 文章总数:110
  2. 阅读总数:1,103,915
  3. 分类目录:28个
  4. 最近更新:2020年10月24日
  5. 稳定运行:1318天

在很多场景中,精确去重是一个重要指标,例如统计 UV。Kylin 从 1.5.3 版本开始支持精确去重。Kylin 使用 Bitmap 实现精确去重,使用全局字典实现字符串到 int 值的映射。 一、背景 当前全局字典介绍 基于改造后的 TireTree 实现的全局字典。默认在单一 Kylin Job 节点上进行构建,如果一个 Cube ……

引言:调度(Scheduling)在计算机领域是个庞大概念,CPU 调度、内存调度、进程调度等都可称之为调度。它是指在特定的时机分配合理的资源去处理预先确定的任务,用于在适当的时机触发一个包含业务逻辑的应用。调度无论在单机还是分布式环境中都是很重要的课题。在单机环境,调度与底层操作系统脱离不了干系;而在分布式环境中,调度直接决定运行集群的……

引言 在数字政府领域,许多项目中都有各种类型的文件,它们有不同的大小、不同的用途,甚至编码方式都会千差万别。我们希望通过 OSS 来将这些文件按照一定的规则存储起来,在我们需要的时候,能很快的取出来,并且应用到当前的项目中,甚至能和其他的应用系统集成起来,形成一整套的基于 OSS 存储的生态系统。百分点基于实践探索自主研发出了 OSS,可……

桔妹导读:滴滴HBase团队日前完成了0.98版本 -> 1.4.8版本滚动升级,用户无感知。新版本为我们带来了丰富的新特性,在性能、稳定性与易用性方便也均有很大提升。我们将整个升级过程中面临的挑战、进行的思考以及解决的问题总结成文,希望对大家有所帮助。 1、背景 目前HBase服务在我司共有国内、海外共计11个集群,总吞吐超过1k……

Elasticsearch 在各大互联网公司的应用以及业务解决方案和系统架构分享, ES在各大厂的应用还是很广泛的,包括携程、滴滴、今日头条、饿了么、360安全、小米、vivo等诸多知名公司。 除了搜索之外,结合Kibana、Logstash、Beats,Elastic Stack还被广泛运用在大数据近实时分析领域,包括日志分析、指标监控……

美团外卖数据仓库通过MOLAP+ROLAP双引擎模式来适配不同应用场景。MOLAP引擎使用了Apache Kylin。ROLAP我们经过综合考虑,选择了Apache Doris。本文将介绍Doris在美团外卖数仓的实践。 序言 本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据引擎百花齐放,但由于……

什么是数据湖? 数据湖是一个存储库,可以存储大量结构化、半结构化和非结构化数据。它是一个以本机格式存储每种类型数据的地方,不受帐户大小或文件的固定限制。它提供了高数据量来提高分析性能和本地集成。 数据湖就像一个大容器,非常类似于真实的湖泊和河流。就像在一个湖中有多个支流,一个数据湖有结构化数据,非结构化数据,机器对机器,实时流动的日志。 ……

什么是数据仓库? 数据仓库是一个包含来自单个或多个源的历史和交换数据的信息系统。它简化了组织的报告和分析过程。 对于任何一家公司来说,这也是一个用于决策和预测的真理的单一版本。 数据仓库的特点 数据仓库具有以下特点: 面向主题的(Subject-Oriented) 集成的(Integrated) 反映时间变化的(Time-Variant)……