热点资讯
成人小说 在数据中查找群集
发布日期:2024-10-08 05:49 点击次数:149
群集分析将视图中的象征分为群集成人小说,与其他群蚁合的象征比拟,每个群集内的象征互相愈加近似。
经营演示使用示例数据创建群集的过程的示例,请参指教例:掌握全国经济看法数据创建群集。
创建群集若要在 Tableau 中查找视图中的群集,请实行以下气象。
创建视图。从“分析”窗格中拖动“群集”并将其放在视图内的标的区域中。您还不错双击“群集”以查找视图中的群集。
当您搁置或双击“群集”时:
Tableau 在“豪情”上创建一个“群集”组,并按群集对视图中的象征取色。要是“豪情”中依然存在字段,则 Tableau 会将该字段移到“详备信息”上,并在“豪情”上将该字段替换为群集效果。Tableau 将视图中的每个象征分拨给其中一个群集。在某些情况下,与某个群集不太相符的象征会分拨给“未建设群集”群集。
Tableau 线路“群集”对话框,您不错在其中自界说群集。当您添加变量时,系统使用字段的默许团员来团员度量;使用 ATTR 来团员维度,这是 Tableau 团员维度的轨范方法。
若要更动变量的团员,请右键单击该变量。
指定群集的数量(2 到 50)。要是未指定值,Tableau 将自动创建最多 25 个群集。
完成自界说群集效果的操作时,单击“群集”对话框右上角中的 X 以关闭此对话框:
谨防: 您不错将群集字段从“豪情”移到视图中的另一个功能区。然而,您无法将群集字段从“筛选器”功能区移到“数据”窗格。
若要重定名生成的群集,您必须先将群集保存为组。经营详备信息,请参见掌握群集效果创建组和裁剪群集。
群集不休群集在 Tableau Desktop 中可用,但无法用于在 Web(Tableau Server、Tableau Cloud)上创作。要是骄矜以下任何条目,群集也可不可用:
使用多维数据集(多维)数据源时。视图中存在搀和维度时。莫得字段可用作视图中群集的变量(输入)时。团员视图中莫得维度存在时。要是骄矜任何这些条目,则无法将“群集”从“分析”窗格拖到视图中。
此外,以下字段类型无法用作群集的变量(输入):
表研究混总研究临时研究生成的纬度/经度值组集数据桶参数日历度量称呼/度量值裁剪群集若要裁剪某个现存群集,请右键单击(在 Mac 上按住 Control 单击)“豪情”上的“群集”字段,并选拔“裁剪群集”。
若要更动用于每个群集的称呼,您领先需要将“群集”字段拖到“数据”窗格并将其另存为组。经营详备信息,请参见掌握群集效果创建组。
右键单击群集组,并选拔“裁剪组”对每个群集进行更动。
在“组”列表中选拔一个群集组,并单击“重定名”更更称呼。
要是将群集拖到“数据”窗格,则它将成为组维度,其中的单个成员(群集 1、群集 2 等)包含一些象征,群集算法已笃定与其他象征比拟这些象征互相愈加相同。
将群集组拖到“数据”窗格后,您不错在其他职责表中使用它。
将“群集”从“象征”卡拖到“数据”窗格,创建一个 Tableau 组:
掌握群集创建组后,该组和原始群集将会分离且不同。裁剪群集不会影响组,而裁剪组也不会影响群集效果。此组与任何其他 Tableau 组具有探求的特征。它是数据源的一部分。与原始群集不同,您不错在职责簿内的其他职责表中使用组。因此,要是您重定名保存的群集组,该重定名操作不会应用于视图中的原始群集。请参见通过将数据分组来改良数据荒唐或合并维度成员。
将群集另存为组时的限制在以下任何情况下,您无法将群集保存到“数据”窗格:
视图中的度量已解聚,况且用作群集变量的度量与视图中的度量不同期。经营详备信息,请参见怎样解聚数据。您思要保存的群集位于“筛选器”功能区上时。“度量称呼”或“度量值”位于视图中时。视图中存在搀和维度时。再行诊治保存的群集将“群集”字段另存为组时,会随其分析模子沿途保存。您不错在其他职责表和职责簿中使用您的群集组,但它们不会自动刷新。
在此示例中,已将保存的群集组偏激分析模子应用于其他职责表。因此,某些象征尚未包括在聚类分析中(由灰色象征示意)。
要是基础数据发生变化,您当今不错使用“再行诊治”选项来刷新和再行研究已保存群集组的数据。
再行诊治保存的群集
在“数据”窗格中右键单击群集组,然后单击“再行诊治”。底下是在再行诊治保存的群集之后更新的聚类分析的示例:
再行诊治保存的群集时,将会创建新群集,并用新的通用群集笔名替换每个群集组类别的现存笔名。请谨防,再行诊治保存的群集可能会转变使用现存群集和笔名的可视化项。
聚类分析的职责面貌
群集分析将视图中的象征分为群集,与其他群蚁合的象征比拟,每个群集内的象征互相愈加近似。Tableau 使用豪情来区分群集。
谨防:若要更深化了解 Tableau 中聚类分析的职责面貌,请参见博客著作了解 Tableau 10 中的聚类分析。
聚类分析算法Tableau 使用 k 均值算法进行聚类分析。关于给定的群集数量 k,算法将数据辨认为 k 个群集。每个群集王人有一个中心(质心),它是该群蚁合统共点的平均值。K 均值迭代过程来查找中心,该过程可最猛进程地镌汰群蚁合各个点与群蚁合心之间的距离。在 Tableau 中,您不错指定所需的群集数,约略让 Tableau 测试不同的 k 值并给出最好群集数冷漠(请参见用于笃定最好群集数的条目)。
K 均值需要群蚁合心的驱动范例。从一个群集入手,该方法会选拔一个变量,其平均值用作将数据拆分为两部分的阈值。然后,将使用这两部分的中心来驱动化 k 均值,以优化两个群集的成员身份。接着,将选拔两个群蚁合的一个用于拆分,况且将选拔该群集内的一个变量,该变量的均值用作将该群集拆分为两部分的阈值。然后,使用 K 均值将数据辨认为三个群集成人小说,驱动具有拆分群集的两部分的中心,以及剩余一个群集的中心。在达到树立的群集数之前,此过程会重迭进行。
Tableau 将 Lloyd 的算法与平方欧氏距离长入使用来研究每个 k 的 k 均值聚类。与拆分过程长入使用来笃定每个 k > 1 的驱动中心,生成的聚类是笃定性的,效果仅取决于群集数。
该算法领先选拔驱动群蚁合心:
然后通过将每一项分拨给其最近的中心,从而对象征进行分区:
接下来,通过求分拨给统一群集的统共点的平均值来研究每个分区的新中心,从而改善效果。
终末,复查分拨给群集的象征,并再行分拨当今比往日更接近于不同中心的任何象征。
此时,群蚁集被再行界说况且会以迭代面貌再行分拨象征,直到莫得更多的变化发生为止。
谨防:由于时间的根柢互异,在 x64 和 arm64 CPU 上为探求数据创建的群集之间可能会略有不同。
用于笃定最好群集数的条目Tableau 使用 Calinski-Harabasz 轨范来评估群集质料。Calinski Harabasz 轨范的界说是
其中 SSB 是群集间总体方差,SSW 是群集内总体方差,k 是群集数,N 是不雅察次数。
此比率的值越大,群集的内聚性越高(群集内方差小)况且单个群集的冲破性/分离性也越高(群集间方差大)。
由于莫得为 k=1 界说 Calinski-Harabasz 指数,因此无法使用它来检测一个群集的情况。
要是用户未指定群集数,Tableau 将选拔与第一个局部 Calinski-Harabasz 指数最大值对应的群集数。默许情况下,要是关于某个较小的 k 值未达到第一个局部指数最大值,则将为最多 25 个群集运行 k 均值。您不错树立最大值 50 个群集。
谨防:要是分类变量(即维度)具有的独一值进步 25 个,则 Tableau 在研究群集时会忽略该变量。
哪些值将分拨给“未建设群集”类别?当度量具有 Null 值时,Tableau 会将具有 Null 的行的值分拨给“未群集”类别。针对 ATTR 复返 *(意味着统共值王人不探求)的分类变量(即维度)也未进行群集。
缩放Tableau 会自动对值进行缩放,以便大小领域较大的列不会影响效果。例如,分析师可能会使用通胀和 GDP 看成群集的输入变量,然而由于 GDP 值以万亿好意思元为单元,这可能会导致通胀值在研究中简直齐备被忽视。Tableau 使用一种称为最小值-最大值轨范化的缩放方法,在这种方法中,每个变量的值将通过减去最小值并除以其领域来映射为 0 和 1 之间的值。
用于群集的统计模子的相干信息“描述群集”对话框提供经营 Tableau 为群集研究的模子的信息。您不错使用这些统计数据来评估群集的质料。
当视图包括群集时,通过右键单击(在 Mac 上按住 Control 单击)“象征”卡上的“群集”,并选拔“描述群集”,您不错绽放“描述群集”对话框。“描述群集”对话框中的信息是只读的,不外,您不错单击“复制到剪贴板”,然后将屏幕内容粘贴到可写文档中。
好看的三级片描述群集 -“节录”选项卡“节录”选项卡符号用于生成群集的输入,并提供一些描述集群特征的统计数据。
群集输入变量
符号 Tableau 研究群集所使用的字段。这些字段是“群集”对话框内“变量”框中列出的字段。
详备级别
符号组成视图详备级别的字段 - 即笃定团员级别的字段。经营详备信息,请参见维度会对视图中的详备级别产生怎样的影响。
缩放
符号用于预管制的缩放方法。目下是,“轨范化”是 Tableau 使用的独一缩放方法。此方法的公式(也称为最小值-最大值轨范化)为 (x – min(x))/(max(x) - min(x))。
节录会诊群集数
群蚁合的单个群集数。
点数
视图中的象征数。
组间平方和
此看法将群集驱逐量化为每个群集的中心(平均值,通过分拨给群集的数据点数加权)与数据蚁合心之间的平方距离总额。此值越大,群集之间的驱逐就越好。
组内平方和
此看法将群集内聚性量化为每个群集的中心与群蚁合单个象征之间的平方距离总额。此值越小,群集的内聚性就越高。
总平方和
研究组间平方和与组内平方和的总额。(组间平方和)/(总平方和)的比率提供模子所解说的差值百分比。值介于 0 和 1 之间;值越大,赓续标明模子越好。然而,您只需增多群集数便可普及此比率,因此,要是只使用此值将五群集模子与三群集模子进行比较,将可能会产生误导。
群集统计数据关于群蚁合的每个群集,系统提供了以下信息。
项数
群蚁合的象征数。
中心
每个群集(针对数字项而线路)内的平均值。
最常用
每个群集(仅针对类别项而线路)内的最常用值。
描述群集 -“模子”选项卡方差分析 (ANOVA) 是统计模子及关联步调的蚁集,用于分析已分区为组或群集的不雅察值内和不雅察值之间的差值。在这种情况下,将会为每个变量研究方差分析,况且生成的方差分析表可用于笃定关于区分群集最有用的变量。
聚类分析的相干方差分析统计数据包括:
F 统计数据单向或单成分 ANOVA 的 F 统计数据是变量所解说的方差分数。它是组间方差与总方差的比率。
F 统计数据越大,在群集之间就能更好地区分对应变量。
p 值p 值是指 F 统计数据统共可能值的 F 分散的值大于变量本色 F 统计数据的概率。要是 p 值低于指定的显赫性水平,则不错拒却零假设(变量的单独元素是单个群体的就地样本)。此 F 分散的解放度为 (k - 1, N - k,其中 k 是群集数,N 是已建设群集的项数(行数)。
p 值越低,对应变量的元素的预期值在群集之间的区别就越大。
模子平方和及解放度模子均方值是组间平方和与模子解放度的比率。组间平方和是对群集均值之间差值的度量。要是群集均值互相很接近(因此与总均值也很接近),则值将很小。模子的解放度为 k-1,其中 k 为群集数。
迤逦平方和及解放度迤逦平方和是组内平均和与迤逦解放度的比率。组内平方和测量每个群集内的不雅察值之间的差值。迤逦的解放度为 N-k,其中 N 是已建设群集的总不雅察值数(行数),k 为群集数。
不错将迤逦平方和看作是总体均方迤逦,并假设每个群蚁合心王人示意每个群集的“简直值”。
示例:掌握全国经济看法数据创建群集Tableau 群集功能将视图中的象征分为群集,与其他群蚁合的象征比拟,每个群集内的象征互相愈加近似。此示例演示商榷员怎样使用群集来查找数据源中的最优象征集(本例中为国度/地区)。
标的跟着寰球领域平均寿命的增长,况且老年东谈主保抓愈加积极的生涯景况,关于知谈怎样发现潜在客户并投其所好的公司而言,老年旅游可能是一个故意可图的商场。Tableau 附带的全国看法示例数据集包含了这种数据,可匡助公司笃定有鼓胀这种稳当客户的国度或地区。
查找正确的国度/地区底下的示例演示 Tableau 群集怎样能匡助这么的公司笃定老年旅游业务可能取顺利利的国度/地区。假设您是分析东谈主员。底下是您可实行的气象。
在 Tableau Desktop 中绽放全国看法示例数据源。在“数据”窗格中双击“国度/地区”。Tableau 将使用每个国度/地区中的一个象征自动创建舆图视图。
在“象征”卡上,将象征类型更动为“舆图”:当今,您应该会看到一个用纯色填充统共国度/地区的舆图投影:
这是您必须看成定名研究字段创建的度量。公式为:
SUM([Tourism Outbound])/SUM([Population Total])
Tourism Outbound 对某个国度/地区的住户每年糜费在海外旅游上的资金(以好意思元为单元)进行团员。但必须将这一总金额除以每个国度/地区的东谈主口来笃定每个住户糜费在海外旅游上的平均金额。
咱们不可保证这些字段是可选拔的理思字段,也不可保证这些字段生成的群集效果明晰明了。建设群集是一种迭代过程 — 执行带来发现,而发现反过来又会带来更多执行。
将这五个字段从“数据”窗格拖到“象征”卡上的“详备信息”。单击以绽放“分析”窗格:从“分析”窗格中拖动“群集”并将其放在视图中:
Tableau 将线路“群集”对话框,并将视图中的度量添加到变量列表:
它还会将群集添加到“豪情”以更新视图。在本例中,Tableau 发现了两个不同的群集,但不可将某些国度/地区(红粉色)分拨给任何群集:
谨防:经营 Tableau 分拨给“未建设群集”的数据的详备信息,请参见聚类分析的职责面貌。
您以为两个群集不够 — 您莫得资源在寰球一半的国度/地区开店。因此您在“群集”对话框的“群集数”字段中键入 4。舆图变得愈加意旨:
但这些群集与您选拔的变量有何经营?哪个群集与撑抓老年旅游的成分最相干?是时候望望群集背后的统计数据了。
单击“群集”对话框右上角的 X 将其关闭:“描述群集”对话框中“模子”选项卡底部的表线路每个群蚁合每个变量的平均值:
群集 4 的平均寿命最高(男性和女性均如斯)、城市东谈主口蚁合度最高,况且海外旅游的糜费最高:东谈主均 1360.40 好意思元。群集 4 不具有最高值的独一变量是“Population 65+”(65 岁以上东谈主群),在这一变量中,群集 3 具有上风:在群集 4 中为 0.15493(略低于 16%)至 0.11606(略高于 11%)。
群集算法不知谈您是在查找这些变量的最大值、最小值照旧中间值,它只会查找关联。但您知谈,这些变量的较高值即是您所查找的信号,群集 4 即是最好选拔。
您可能会尝试从舆图中中式群集 4 的国度/地区,但还有更闲居的面貌。关闭“描述群集”对话框,然后在“豪情”图例上单击“Cluster 4”(群集 4),并选拔“只保留”。您当今将看到群集 4 中国度/地区的列表:
此列表不代表历程罢了。您不错尝试使用一组稍有不同的变量以及可能不同的一些群集再次建设群集,约略,您不错凭据其他成分向列表中添加一些国度/地区并移除其他国度/地区。例如来说,要是您主要蓄意热带地区旅游,则不错从列表中移除像库拉索岛和巴哈马群岛这么的国度/地区,因为热带旅游关于这些国度/地区的住户可能莫得蛊惑力。
另一个选项是在再行建设群集之前筛选您的数据,以便仅线路东谈主口大于特定阈值的国度/地区成人小说,约略将标的笃定为位于特定地舆区域的国度/地区。