创新永不停歇:构建度量集时的数据聚合

我们带着另一期创新永远休息!对于本系列的新手来说,《创新永不停歇》是一系列简短而详细的文章的汇编,每一篇都深入探讨了……的复杂性邓达斯BI给一些先进的功能我们的平台在商业智能(BI)行业中享有盛誉,并获得了评论性的好评。这也是一句不成文的格言。登达斯的创新从未停止,我们不断地推动商业智能和数据分析软件的可能边界。

虽然这个系列并不是详尽无遗的——我们实际上每年都会发布超过200个新特性!-我们正在利用它作为一个机会,强调和强调Dundas BI中最新和最令人兴奋的功能和增强,旨在帮助您更好地处理数据分析。在这一期中,我们将为您提供关于数据聚合所需了解的一切但首先,为了让你快速跟上进度,我列出了该系列的前八篇文章供你阅读:

新特性:概述
第一集:衣衫褴褛的层次结构
事件2:小倍数
第三集:属性层次结构
第四集:自动检测Excel内的表格
第五集:交付API
第六集:雷达图表
第七集:地图动画
第八集:回收站

数据聚合的速成班

如果您对一般的商业智能很熟悉,那么您很可能在职业生涯的某个时刻遇到过以某种方式、形成或形成的数据聚合的概念。事实上,我敢打赌,每个数据分析软件在可视化表达数据时都使用了一些聚合的想法,因此,如果您曾经测试过某些BI供应商的产品,那么您肯定已经与它面对面地接触过。虽然这个概念可能被认为或多或少司空见惯的事这是你需要有一个坚实的理解,以便真正利用和利用。另外,一些BI平台在这方面做得更好,或者对它的描述与其他平台不同,理解为什么会这样以及它是什么样子的是很重要的。

而这正是我们在这篇博客中要解决的问题!我将给你们上一堂数据聚合的速成课,并将使用Dundas BI——我们完全可编程的端到端商业智能平台——来解释它,并分享一些例子。那么,让我们进入正题吧。Dundas BI中的数据聚合是什么,为什么它如此重要,以及有哪些实际的用例?

在Dundas BI中,理解数据聚合是理解如何处理数据的关键。能从谚语中喝到水水管对于信息,你首先需要把它集中起来,转化成我们这样的普通人可以理解的小块形式。换句话说,你需要聚合它。但在此之前,您应该首先了解数据如何通过Dundas BI,以及在什么阶段会发生数据聚合。下面的图表从高层展示了Dundas BI数据模型的主要元素。

虽然这是一个高度简化的视图,但我们想要关注的是中间的两个部分准备数据/ ETL而且业务度量定义

正是在这些阶段,Dundas BI中才可能出现数据聚合。虽然数据聚合经常(并且错误地)被用作一个笼统的短语,但它只是一个更大的过程——提取、转换、加载(ETL)——的一个组件它直接内置在登达斯BI中通过我们的数据立方层(上图中红色矩形最左边的部分).

ETL是一种收集数据并以汇总格式表示的过程.在商业智能中,这通常意味着从多个数据源(可能来自RDBMS、OLAP、Excel等平面文件或其他地方)收集数据,并将它们组合在一起(可以将其视为一个总结)来执行数据清理或联接表以进行高级数据分析。在ETL期间——更具体地说,在处理度量集**时——数据聚合可能发生在Dundas BI中。我们将在这里度过余下的博客;研究在Dundas BI中构建度量集时如何进行数据聚合。

**度量集是特定于登达斯BI的东西。它是一组度量和维度,可以创建并稍后用于支持数据可视化。您可以将其视为源数据的视图(如仪表板或报告)。使用度量集,我们可以很容易地探索和分析数据,因为我们能够选择数据,并选择如何排序、过滤、可视化和聚合

准备好了,,总!

现在您已经了解了何时可以在Dundas BI中执行数据聚合,让我们来看一个实际的示例!在这里,您将开始理解数据聚合的价值,以及为什么要利用它。这里,我们在Dundas BI中有一个包含原始数据的简单数据集。这里没有应用聚合或操作。我们选择保持这个样本漂亮和小,这样我们就可以真正突出我们正在做的事情。

您可以看到,如果我们打开我们正在使用的原始数据的Metric集,原始数据表中的所有字段都包括在内(位置、熊类型、日期和数量)。

现在,让我们仔细查看源数据中的每一列,并看看如何聚合或简化它们以使它们更具可读性。从Location列开始,我们可以考虑在其中组合数据以简化数据的不同方式。数据本质上是分类的,这意味着我们在聚合它的方式上是有限的,所以让我们继续根据相似性对值进行分组。分组是Dundas BI中的一种聚合方法,可以让我们更清楚地看到来自源数据的信息。在本例中,我们现在已经对数据进行了分组,并拥有3个数据点,而不是5个。

在Dundas BI中也可以有多个分组,这意味着你不局限于只按一个类别聚合数据,如位置或熊类型。如果你的数据集像我们一样包含两个以上的类别,你可以让Dundas BI知道你想先按一个类别分组,然后再按另一个类别分组,最终将两者嵌套在一起。请记住,您分组的顺序实际上很重要!

现在,Date类别有点独特,因为在聚合时,除了简单地组合重复的数据点外,还可以使用它做更多的事情。这是因为date本身由多个组件组成,比如Time、Day、Month和Year。如果您愿意,可以通过这些组件中的一个进一步对数据进行分组,以继续简化视图。在更复杂的场景中,您甚至可能希望按最低最大日期。在讨论日期时,你有更多的聚合选项。

最后我们谈到了数量数量)我们的样品柱。例如,如果您必须将数据集中的数字表示为单个值,那么有很多方法可以做到这一点。例如,大多数人可能会将每个值相加以确定SUM。

现在,这一点也不正确;这实际上是许多商业智能工具默认的做法。但这就是登达斯商业内幕网的独特之处。当涉及到汇总数字时,有一个大量的选项随时可以开箱即用.我们的平台实际上提供了数学功能,我们可以用它来汇总我们的数字,只需轻轻点击一下。

如您所见,已经有一些非常有用的聚合可供您使用。你可以利用模式(分钟)而且模式(Max)如果您想快速了解值的范围(例如,如果您想创建一个度量),则使用聚合。或者你可以用平均值,中位数而且模式,这取决于您需要更好地理解哪种类型的分布。这些都是非常有用的聚合选项,特别是考虑到如果它们没有现成提供,那么计算它们是多么困难。

想要更直观地解释这些聚合是如何在Dundas BI中实现的,请看我们的视频,以下是关于聚合器你需要知道的一切

一个整洁的总结

如您所见,在使用商业智能和数据分析工具进行数据分析时,理解数据聚合是至关重要的,因为它是知识的组成部分之一,可以帮助您了解应用程序正在做什么以及为什么要显示哪些数据。如果你对Dundas BI的数据分析能力有兴趣,我建议你看一下我们关于公式的详细视频,比如,Dundas BI中的公式导论.公式的使用将允许您使用已经执行的聚合,并在它们之上应用更多的聚合。

打印