خوشه‌بندی تک‌پیوندی

از ویکی‌پدیا، دانشنامهٔ آزاد

خوشه‌بندی تک‌پیوندی یکی از روش‌های خوشه‌بندی سلسله‌مراتبی است که با رویکرد از پایین به بالا یک سلسله‌مراتب از خوشه‌ها ایجاد می‌کند. خوشه‌بندی تجمعی که به نام تکنیک نزدیک‌ترین همسایه نیز شناخته می‌شود برای اولین بار در سال ۱۹۵۱ توسط فلورک مطرح شد.[۱] مبنای کار این روش آن است که در هر مرحله از اجرا، دو خوشه‌ای که کمترین فاصله از یک‌دیگر را دارند با هم ادغام می‌کند و فاصلهٔ یک خوشه از خوشه‌ای دیگر برابر با کمترین فاصله از هر یک از اعضای آن خوشه با هر یک از اعضای خوشه دیگر تعریف می‌شود.

یکی از معایب این روش نسبت به خوشه‌بندی کامل پیوند آن است که خوشه‌بندی کامل پیوند خوشه‌های منسجم‌تری به وجود می‌آورد درحالی که در روش خوشه بندی تک‌پیوندی تعداد کمی داده که با فاصله اندک از یک‌دیگر که به شکل یک پل بین دو خوشه قرار داشته باشند موجب ادغام شدن آن دو خوشه می‌شوند و این خاصیت «اثر زنجیره‌ای» نامیده می‌شود. اما یکی از مزایای این روش تطبیق‌پذیری بیشتر آن و حفظ کارایی خود روی مجموعه داده‌های مختلف است.[۲]

تعریف[ویرایش]

خوشه‌بندی‌های تجمعی احتمالاً یکی از پرمصرف‌ترین روش‌های خوشه‌بندی سلسله‌مراتبی هستند. در این نوع از خوشه‌بندی‌ها هر داده‌ای در ابتدا خود یک خوشه، سپس به صورت پیاپی در هر مرحله دو خوشه با یک‌دیگر ادغام شده و خوشه‌ای بزرگ‌تر تشکیل می‌دهند و این روند ادامه پیدا می‌کند تا تنها یک خوشه باقی بماند. نتیجهٔ چنین خوشه‌بندی ای معمولاً به صورت یک دندروگرام نمایش داده می‌شود و با برش دندروگرام در سطحی دلخواه از میزان شباهت یک خوشه‌بندی ایجاد می‌شود.[۲]

تفاوت روش‌های مختلف خوشه‌بندی تجمعی در نحوه انتخاب شدن آن دو خوشه‌ای است که در هر مرحله برای ادغام شدن انتخاب می‌شوند. در خوشه‌بندی تک پیوندی فاصلهٔ دو خوشه را نزدیک‌ترین جفت داده (که هر کدام در یکی از خوشه‌ها باشد) تعیین می‌کند.

به صورت ریاضی تابع فاصله خوشه‌ها به شکل تعریف می‌شود که و خوشه‌ها و فاصله دو داده و را نمایش می‌دهد.[۳]

در هر مرحله از این الگوریتم دو خوشه‌ای که کمترین فاصله را با یک‌دیگر دارند با هم ترکیب می‌شوند و فاصله خوشه حاصل از ادغام شدن و و خوشه دیگر به صورت زیر محاسبه می‌شود:

الگوریتم[ویرایش]

این الگوریتم مانند الگوریتم روش جفت گروه بدون وزن با میانگین حسابی است که شبه کد آن در زیر آمده‌است:[۴]

Single-Linkage(D, n)
      Clusters  n single-element clusters labeled 1, ... , n
      construct a graph T with n isolated nodes labeled by single elements 1, ... , n
    for every node v in T
        Age(v)  0
    while there is more than one cluster
        find the two closest clusters Ci and Cj
        merge Ci and Cj into a new cluster Cnew with |Ci| + |Cj| elements
        add a new node labeled by cluster Cnew to T
        connect node Cnew to Ci and Cj by directed edges
        Age(Cnew)  D(Ci, Cj) / 2
        remove the rows and columns of D corresponding to Ci and Cj
        remove Ci and Cj from Clusters
        add a row and column to D for Cnew by computing D(Cnew, C) for each C in Clusters
        add Cnew to Clusters
    root  the node in T corresponding to the remaining cluster
    for each edge (v, w) in T
        length of (v, w)  Age(v) - Age(w)
    return T

مثال[ویرایش]

فرض می‌کنیم ۵ داده با ماتریس فاصله [۱] داریم.

(e) (d) (c) (b) (a)
۹ ۱۰ ۶ ۲ ۰ (a)
۸ ۹ ۵ ۰ ۲ (b)
۵ ۴ ۰ ۵ ۶ (c)
۳ ۰ ۴ ۹ ۱۰ (d)
۰ ۳ ۵ ۸ ۹ (e)

نزدیک‌ترین خوشه‌ها (a) و (b) با فاصله ۲ هستند. این دو خوشه با یک دیگر ادغام کرده و خوشهٔ (u = (a, b حاصل می‌شود.

قرار می‌دهیم:

فاصله خوشه جدید با خوشه‌های دیگر را به شکل زیر محاسبه می‌کنیم.

ماتریس فاصله جدید() را با حذف سطر و ستون‌های مربوط به خوشه‌های (a) و (b) از و اضافه کردن سطر و ستون متناظر با خوشه (a, b) به دست می‌آوریم.

(a, b) (e) (d) (c)
۵ ۵ ۴ ۰ (c)
۹ ۳ ۰ ۴ (d)
۸ ۰ ۳ ۵ (e)
۰ ۸ ۹ ۵ (a, b)

حال نزدیک‌ترین خوشه‌ها (d) و (e) با فاصله ۳ هستند. این دو خوشه با یک دیگر ادغام کرده تا خوشهٔ (v = (d,e حاصل شود.

قرار می‌دهیم:

فاصله خوشه جدید با خوشه‌های دیگر را به شکل زیر محاسبه می‌کنیم.

ماتریس به شکل زیر خواهد شد:

(d, e) (a, b) (c)
۴ ۵ ۰ (c)
۸ ۰ ۵ (a, b)
۰ ۸ ۴ (d, e)

در این مرحله نزدیک‌ترین خوشه‌ها که با هم ترکیب می‌شوند خوشه‌های (c) و (d, e) به فاصلهٔ ۴ هستند و خوشه (w = (c, d, e از ترکیب‌شان به وجود می‌آید.

می‌دانیم بنابراین

و هم چنین داریم و ماتریس به شکل زیر خواهد شد:

(c, d, e) (a, b)
۵ ۰ (a, b)
۰ ۵ (c, d, e)

در نهایت نیز این دو خوشه باقیمانده با یک‌دیگر ادغام می‌شوند و خوشه (r = (a, b, c, d, e حاصل می‌شود.

می‌دانیم پس و

دندروگرام حاصل به شکل زیر است:

منابع[ویرایش]

  1. ۱٫۰ ۱٫۱ Everitt, Brian S; Sabine Landau Morven Leese Daniel Stahl (2011). Cluster Analysis (به انگلیسی).
  2. ۲٫۰ ۲٫۱ Maimon, Oded; Lior Rokach (2010). Data Mining and Knowledge Discovery Handbook (به انگلیسی).
  3. "Single-linkage clustering". Wikipedia (به انگلیسی). 2020-03-31.
  4. Compeau, Phillip; Pevzner, Pavel. Bioinformatics Algorithms: An Active Learning Approach. voll 2 (به انگلیسی).