当前位置：网站首页 > 热门文章 > 正文

层次凝聚聚类 && C#实现凝聚层次聚类算法步骤

bigegpt 2024-10-30 01:52 31 浏览

背景

无监督学习是一种机器学习方法，其特点是在训练数据中没有标签或目标变量，根据类别没有被标记的训练样本解决模式识别中的各种问题。

那无监督学习是怎么知道对错的呢？

以语言模型为例，最简单的一个做法，就是拿掉句子的一个词，然后让AI猜测是哪一个词，因为有原句作为标准答案，这样就可以训练模型了。

Google的BERT模型就是这样的训练机制，效果非常的好。

层次聚合聚类

层次凝聚聚类（Hierarchical Agglomerative Clustering，HAC）也是一种无监督学习的方法，用于将数据集中的样本按照相似性进行分组。

策略通常有两种：

1. 凝聚（Agglomerative ）：一种自底向上方法，从每个样本作为单独的一类开始，逐渐合并相似的类直到所有样本都被合并为一个类。这种方法的优点是容易理解和实现，但计算复杂度较高。
2. 分裂（Divisive ）：一种自顶向下方法，从所有样本作为一个类开始，逐渐将类一分为二，直到每个样本都成为一个单独的类。这种方法的计算复杂度较高，且不太常用。

主要步骤：

? 计算样本间的相似性或距离（如欧氏距离、曼哈顿距离、相关系数等）。
? 将每个样本视为一个单独的类。
? 不断合并或分裂相似性最高的类，直到满足停止条件（如达到指定的类别数量）为止。

凝聚和分裂的操作通常用贪心算法实现，结果通常用树状图展示。

DotNET完整实现

如下图，对以下7点个，进行聚类。

'A=紫色' 、 'B=红色'。

首先定义一个数据点类，如用来表示二维欧几里得空间中的点，如下所示：

class DataPoint : IComparable<DataPoint>
{
    public DataPoint(string id, double x, double y) { ... }
    public int CompareTo(DataPoint other) { ... }
    ...
}

然后为这种类型定义一个不相似度度量：

class DssimilarityMetric : IDissimilarityMetric<DataPoint>
{
    public double Calculate(DataPoint instance1, DataPoint instance2) { ... }
}

可以通过以下方式定义数据集：

var dataPoints = new HashSet<DataPoint>(
    new[]
    {
        new DataPoint("1", 2.00, 2.00),
        new DataPoint("2", 5.50, 4.00),
        new DataPoint("3", 5.00, 5.00),
        new DataPoint("4", 1.50, 2.50),
        new DataPoint("5", 1.00, 1.00),
        new DataPoint("6", 7.00, 5.00),
        new DataPoint("7", 5.75, 6.50)
    });

现在选择一个链接准则并创建聚类算法：

var metric = new DissimilarityMetric();
var linkage = new AverageLinkage<DataPoint>(metric);
var algorithm = new AgglomerativeClusteringAlgorithm<DataPoint>(linkage);

简单执行得到聚类结果：

var clusteringResult = algorithm.GetClustering(dataPoints);

对结果进行遍历（a ClusteringResult object），得到以下内容：

[0]        {0.000        {(1), (2), (3), (4), (5), (6), (7)}}
[1]        {0.707        {(2), (3), (5), (6), (7), (1;4)}}
[2]        {1.118        {(5), (6), (7), (1;4), (2;3)}}
[3]        {1.498        {(6), (7), (2;3), (1;4;5)}}
[4]        {1.901        {(7), (1;4;5), (2;3;6)}}
[5]        {2.047        {(1;4;5), (2;3;6;7)}}
[6]        {5.496        {(1;4;5;2;3;6;7)}}

我们可以根据簇的数量、距离、外部标准等选择适当的数据集。

Aglomera的主要功能

1、支持以下用于考虑簇之间不相似性的链接标准：

支持完全（最远邻居）、平均（UPGMA）、质心、最小能量、单链接（最近邻居）、Ward最小方差方法。

2、提供以下外部聚类评估标准，用于在每个数据点关联特定标签/类别的情况下评估给定聚类集的质量：

纯度，标准化的互信息，准确率，精确率，召回率，F值。
要对聚类结果进行外部评估，首先指定每个数据点的类别，例如，一个字符，并指定一个评估标准：

var pointClasses = new Dictionary<DataPoint, char>{...};
var criterion = new NormalizedMutualInformation<DataPoint, char>();

第5个聚类集的评估分数通过执行以下操作得到：

var score = criterion.Evaluate(clusteringResult[5], pointClasses);

3、提供以下内部聚类评估标准，用于在没有基准真值的情况下选择最佳聚类数量：

轮廓系数，邓恩指数，戴维斯-布尔丁指数，Calinski-Harabasz指数，修改的Gamma统计量，Xie-Beni指数，内部-外部比率，I指数，Xu指数，RMSSD，R平方。
要对聚类结果进行内部评估，我们只需选择一个评估标准并计算得分：

var criterion = new SilhouetteCoefficient<DataPoint>(metric);
var score = criterion.Evaluate(clusteringResult[5]);

4、CSV 导出

T要将聚类结果导出到逗号分隔值（CSV）文件中，我们只需执行以下操作：

clusteringResult.SaveToCsv(FILE_PATH);

这将生成一个CSV文件，其中包含算法每一步聚类集合中每个簇的内容，每行一个实例。

5、D3.js 导出

将聚类的结果导出到一个Json文件中，该文件包含聚类过程的层次结构，可以加载到DendrogramViewer中以生成一个树状图，例如：

using Aglomera.D3;
...
clusteringResult.SaveD3DendrogramFile(fullPath, formatting: Formatting.Indented);

将生成类似以下的Json文本：

{
  "n": "(1;4;5;2;3;6;7)", "d": 5.5,
  "c": [
    { "n": "(2;3;6;7)", "d": 2.05,
      "c": [
        {
          "n": "(2;3;6)", "d": 1.9,
          "c": [
            {
              "n": "(2;3)", "d": 1.12,
              "c": [
                { "n": "(3)", "d": 0.0, "c": [] },
                { "n": "(2)", "d": 0.0, "c": [] } ] },
            { "n": "(6)", "d": 0.0, "c": [] } ] },
        { "n": "(7)", "d": 0.0, "c": [] } ]
    },
    { "n": "(1;4;5)", "d": 1.5,
      "c": [
        { "n": "(1;4)", "d": 0.71,
          "c": [
            { "n": "(4)", "d": 0.0, "c": [] },
            { "n": "(1)", "d": 0.0, "c": [] } ] },
        { "n": "(5)", "d": 0.0, "c": [] } ]
    } ]
}

小结

HAC易于理解和解释，能够生成层次化的聚类结果，适用于小型数据集。

HAC的缺点是计算复杂度较高，不适用于大规模数据集。

总的来说，HAC是一种强大的聚类算法，适用于需要探索数据内在结构并生成层次化聚类结果的场景。

c#string转double

上一篇：生成图片缩略图-C#学习进阶 c#图片处理
下一篇：C#集合概述与最全使用指南 c# 集合类型

层次凝聚聚类 && C#实现凝聚层次聚类算法步骤

背景

层次聚合聚类

DotNET完整实现

Aglomera的主要功能

小结

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解

PHP 远程调试最佳实践

7 个对 Java 意义重大的性能指标，你知道几个?

Laravel框架使用图片处理简单教程

层次凝聚聚类 &amp;&amp; C#实现 凝聚层次聚类算法步骤

背景

层次聚合聚类

DotNET完整实现

Aglomera的主要功能

小结

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

Ceph运维手册(基于P版本)

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解

PHP 远程调试最佳实践

7 个对 Java 意义重大的性能指标，你知道几个?

Laravel框架使用图片处理简单教程

层次凝聚聚类 && C#实现凝聚层次聚类算法步骤