خوشه‌بندی: تفاوت میان نسخه‌ها

از ویکی‌پدیا، دانشنامهٔ آزاد
محتوای حذف‌شده محتوای افزوده‌شده
FreshmanBot (بحث | مشارکت‌ها)
جز ←‏برخی از روش‌های خوشه بندی: اصلاح فاصله مجازی + اصلاح نویسه با استفاده از AWB
Heydari3096 (بحث | مشارکت‌ها)
جزبدون خلاصۀ ویرایش
برچسب‌ها: جمع عربی واژگان فارسی متن دارای ویکی‌متن نامتناظر افزودن فضای خالی زیاد ویرایشگر دیداری
خط ۱: خط ۱:
[[پرونده:Cluster-2.svg|240px|بندانگشتی|چپ|در خوشه‌بندی، هدف تقسیم داده به گروه‌های مختلف است که با رنگ‌های مختلف در اینجا نشان داده شده‌اند.]]
[[پرونده:Cluster-2.svg|240px|بندانگشتی|چپ|در خوشه‌بندی، هدف تقسیم داده به گروه‌های مختلف است که با رنگ‌های مختلف در اینجا نشان داده شده‌اند.]]
در تجزیه و تحلیل خوشه یا خوشه بندی، گروه بندی مجموعه ای از اشیاء انجام می شود اینکار به این صورت است که اشیاء در یک گروه (به نام خوشه) در مقایسه با دیگر دسته ها (خوشه ها) مشابه تر هستند. این وظیفه اصلی داده کاوی اکتشافی است و یک روش معمول برای تجزیه و تحلیل داده های آماری است که در بسیاری از زمینه ها از جمله یادگیری ماشین، تشخیص الگو،تجزیه و تحلیل تصویر، بازیابی اطلاعات، بیوانفورماتیک، فشرده سازی داده ها و گرافیک کامپیوتری استفاده می شود.
خوشه‌بندی یا آنالیز خوشه (به [[زبان انگلیسی|انگلیسی]]: Clustering) در [[آمار]] و [[یادگیری ماشینی]]، یکی از شاخه‌های [[یادگیری بی‌نظارت]] می‌باشد و فرآیندی است که در طی آن، نمونه‌ها به دسته‌هایی که اعضای آن مشابه یکدیگر می‌باشند تقسیم می‌شوند که به این دسته‌ها خوشه گفته می‌شود؛ بنابراین خوشه مجموعه‌ای از اشیاء می‌باشد که در آن اشیاء با یکدیگر مشابه بوده و با اشیاء موجود در خوشه‌های دیگر غیر مشابه می‌باشند.


تجزیه و تحلیل خوشه ای خود یک الگوریتم خاص نیست، بلکه روند کلی است و می تواند توسط الگوریتم های مختلفی به دست آید که در درک آنچه که یک خوشه را تشکیل می دهند و نحوه کارآمدی آنها را پیدا می کند.
مسئلهٔ خوشه‌بندی به دو شکل می‌تواند مطرح شود: (۱) یک ماتریس <math>n\times n</math> بی‌شباهتی داده می‌شود یا (۲) یک ماتریس <math>n\times d</math> که هر سطر آن یک شیء را توصیف می‌کند. خروجی الگوریتم می‌تواند به دو صورت باشد: (۱) گروه‌بندی اشیا به [[مجموعه‌های مجزا]] یا (۲) خوشه‌بندی سلسله مراتبی که یک [[درخت (ساختار داده)|درخت]] برای تقسیم‌بندی اشیا پیدا می‌کند. الگوریتم‌های نوع اول سریعتر هستند با زمان <math>\mathcal{O}(nd)</math> در مقابل زمان <math>\mathcal{O}(n^2\log(n))</math> برای خوشه‌بندی سلسله‌مراتبی. از الگوریتم‌های مشهور برای خوشه‌بندی می‌توان به k-means اشاره کرد.<ref>{{یادکرد کتاب|نام خانوادگی=Murphy|نام=Kevin|کتاب=Machine learning a probabilistic perspective|ناشر=MIT Press|سال=2012|شابک=0262018020|صفحه=875|زبان=en|تاریخ بازبینی=2014-02-16}}</ref>

اصطلاحات خوشه ها شامل گروه هایی با فاصله های کم بین اعضای خوشه، مناطق متراکم فضای داده، فواصل و یا توزیع های آماری خاص است. بنابراین خوشه بندی می تواند به عنوان یک مسئله بهینه سازی چند هدفه صورت گیرد. الگوریتم خوشه بندی مناسب و تنظیمات پارامتر (از جمله پارامترهایی مانند تابع فاصله مورد استفاده، آستانه تراکم یا تعداد خوشه مورد انتظار) بستگی به تنظیم مجموعه داده ها توسط فرد و استفاده خاص فرد از نتایج دارد. تجزیه و تحلیل خوشه ای یک روش اتوماتیک نیست، بلکه یک فرآیند تکراری از کشف دانش یا بهینه سازی چند هدفه تعاملی است که شامل آزمایش و شکست است. اغلب لازم است که داده های پیش پردازش شده و پارامترهای مدل اصلاح شوند تا نتیجه حاصل ، همان نتیجه ی دلخواه باشد.

علاوه بر اصطلاحات خوشه بندی، تعدادی از اصطلاح با معانی مشابه وجود دارد، از جمله طبقه بندی خودکار، طبقه بندی عددی، روش شناسی و تجزیه و تحلیل توپولوژیکی. تفاوت های کم اغلب در نتایج استفاده می شود: در داده کاوی، نتیجه گروه ها مورد توجه هست و در طبقه بندی خودکار، قدرت تشخیصی مورد توجه است.

تجزیه و تحلیل خوشه ای در انسان شناسی توسط Driver و Kroeber در سال 1932 آغاز شد و در روان شناسی توسط زوبین در سال 1938 و رابرت تیرون در سال<ref>{{یادکرد وب|نام خانوادگی=Tryon|نام=Robert C.|تاریخ=1937|وب‌گاه=PsycEXTRA Dataset|نشانی=http://dx.doi.org/10.1037/e538282011-066|عنوان=Correlation Profile Analysis|بازبینی=2018-06-29}}</ref> 1939<ref>{{یادکرد کتاب|نشانی=https://www.worldcat.org/oclc/44963048|عنوان=Typologies and taxonomies : an introduction to classification techniques|نام خانوادگی=D.|نام=Bailey, Kenneth|تاریخ=1994|ناشر=Sage Publications|شابک=0585217203|مکان=Thousand Oaks, Calif.|oclc=44963048}}</ref> معرفی شد و در سال 1943 <ref>{{Cite journal|last=Cattell|first=Raymond B.|date=1943|title=The description of personality: basic traits resolved into clusters.|url=http://dx.doi.org/10.1037/h0054116|journal=The Journal of Abnormal and Social Psychology|volume=38|issue=4|pages=476–506|doi=10.1037/h0054116|issn=0096-851X}}</ref>برای طبقه بندی نظریه رفتاری در روانشناسی شخصیت توسط Cattell استفاده شد.


== نگارخانه ==
== نگارخانه ==
خط ۱۰: خط ۱۶:
</gallery>
</gallery>


== تعریف ==
== برخی از روش‌های خوشه بندی ==
مفهوم "خوشه" را دقیقا نمیتوان تعریف کرد،یکی از دلایلش این است که الگوریتم های خوشه بندی زیادی وجود دارد<ref name=":0">{{Cite journal|last=Estivill-Castro|first=Vladimir|date=2002-06-01|title=Why so many clustering algorithms|url=http://dx.doi.org/10.1145/568574.568575|journal=ACM SIGKDD Explorations Newsletter|volume=4|issue=1|pages=65–75|doi=10.1145/568574.568575|issn=1931-0145}}</ref>. همه ی آنها یک قسمت مشترک دارند و آن یک گروه از اشیاء داده است. با این حال، محققان از مدل های مختلف خوشه استفاده می کنند و برای هر یک از این مدل های خوشه، الگوریتم های مختلفی را می توان ارائه داد. مفهوم یک خوشه، همانطور که توسط الگوریتم های مختلف یافت می شود، به طور خاصی در خواص تفاوت دارند. درک این مدلهای خوشه ، کلید فهمیدن تفاوت بین الگوریتم های مختلف است. مدل های خوشه ای معمول عبارتند از:
''': hierarchical clustering'''


*    مدل های متصل: به عنوان مثال، خوشه بندی سلسله مراتبی، مدل هایی براساس فاصله متصل را ایجاد می کند.
خوشه بندی سلسله مراتبی یکی از روش‌های خوشه بندی بوده که خود شامل دو نوع خوشه بندی می‌باشد:
*    مدل های مرکزی: به عنوان مثال، الگوریتم k-means ، هر خوشه را با یک بردار متوسط نشان می دهد.​​
*    مدل های توزیع: خوشه ها با استفاده از توزیع های آماری، مانند توزیع نرمال چند متغیره که در الگوریتم حداکثر انتظار ، استفاده شده است.
*    مدلهای تراکم: به عنوان مثال، DBSCAN و OPTICS خوشه را به عنوان مناطق متراکم متصل در فضای داده تعریف می کنند.
*    مدل های زیر فضایی: در biclustering (که به عنوان خوشه مشترک یا خوشه ای دو حالت شناخته می شود)، خوشه ها با هر دو اعضای خوشه و ویژگی های مرتبط مدل سازی می شوند.
*    مدل های گروهی: برخی از الگوریتم ها یک مدل تصحیح شده برای نتایج خود را ارائه نمی دهند و فقط اطلاعات گروه بندی را ارائه می دهند.
*    مدل های مبتنی بر گراف: یک کلاس، یعنی یک زیر مجموعه از گره ها در یک گراف به طوری که هر دو گره در زیر مجموعه با یک لبه متصل می شود که می تواند به عنوان یک شکل اولیه از خوشه مورد توجه قرار گیرد.
*   مدل های عصبی: شبکه عصبی غیرقابل نظارت ، شناخته شده ترین نقشه خود سازمانی است و معمولا این مدل ها می توانند به عنوان مشابه با یک یا چند مدل فوق شامل مدل های زیر فضایی، زمانی که شبکه های عصبی یک فرم تجزیه و تحلیل مولفه اصلی یا مستقل تجزیه و تحلیل المان می باشد.


"خوشه بندی" اساسا مجموعه ای از خوشه ها است که معمولا شامل تمام اشیاء در مجموعه داده ها می شود. علاوه بر این، می توان رابطه خوشه ها را به یکدیگر تعریف کند، به عنوان مثال، سلسله مراتب خوشه های تعبیه شده در یکدیگر.
single linkage -1
این روش که به روش Bottom-Up و Agglomerative نیز معروف است روشی است که در آن ابتدا هر داده به عنوان یک خوشه در نظر گرفته می‌شود. در ادامه با به کار‌گیری یک الگوریتم هر بار خوشه‌های دارای ویژگی‌های نزدیک به هم با یکدیگر ادغام شده و این کار ادامه می‌یابد تا به چند خوشهٔ مجزا برسیم.
مشکل این روش حساس بودن به نویز و مصرف زیاد حافظه می‌باشد.


خوشه بندی را می توان براساس سختی تمایز به صورت زیر مشخص کرد:
complete linkage -2
در این روش که به روش Top-Down و Divisive نیز معروف است ابتدا تمام داده‌ها به عنوان یک خوشه در نظر گرفته شده و با به کار‌گیری یک الگوریتم تکرار شونده هربار داده‌ای که کمترین شباهت را با داده‌های دیگر دارد به خوشه‌های مجزا تقسیم می‌شود. این کار ادامه می‌یابد تا یک یا چند خوشه یک عضوی ایجاد شود.
مشکل نویز در این روش برطرف شده‌است.


*    خوشه بندی سخت: هر شیء متعلق به خوشه است یا نه.
''': k-means clustering'''
*    خوشه بندی نرم (همچنین: خوشه فازی): هر شیء به درجه خاصی از هر خوشه متعلق است (به عنوان مثال، احتمال وابستگی به خوشه)


همچنین امکان تمایز دقیق تر وجود دارد، مثلا:
روش میانگین k در عین سادگی یک روش بسیار کاربردی و پایه چند روش دیگر مثل خوشه بندی فازی و Segment-wise distributional clustering Algorithm می‌باشد.

روش کار به این صورت است که ابتدا به تعداد دلخواه نقاطی به عنوان مرکز خوشه در نظر گرفته می‌شود. سپس با بررسی هر داده، آن را به نزدیک‌ترین مرکز خوشه نسبت می‌دهیم. پس از اتمام این کار با گرفتن میانگین در هر خوشه می‌توانیم مراکز خوشه و به دنبال آن خوشه‌های جدید ایجاد کنیم. (با تکرار مراحل قبل)
*    خوشه بندی جداسازی دقیق ( پارتیشن بندی): هر شیء دقیقا به یک خوشه متعلق است.
از جمله مشکلات این روش این است که بهینگی آن وابسته به انتخاب اولیه مراکز بوده و بنابراین بهینه نیست. مشکلات دیگر آن تعیین تعداد خوشه‌ها و صفر شدن خوشه‌ها می‌باشد.
*    خوشه بندی جداسازی دقیق با ناپیوستگی: اشیاء می توانند به هیچ خوشه ای تعلق نداشته باشند.
*    خوشه بندی همپوشانی (همچنین: خوشه بندی جایگزین، خوشه بندی چندگانه): اشیاء ممکن است متعلق به بیش از یک خوشه باشد؛ معمولا خوشه های سخت را شامل می شود
*    خوشه بندی سلسله مراتبی: اشیایی که متعلق به خوشه فرزند هستند، متعلق به خوشه پدر و مادر هم هستند.
*    خوشه بندی زیر فضا: در حالی که خوشه بندی همپوشانی، که در یک زیر فضای منحصر به فرد تعریف شده ، انتظار نمی رود که خوشه ها با همپوشانی داشته باشند.

== الگوریتم ==
همانطور که در بالا ذکر شد، الگوریتم های خوشه بندی را می توان بر اساس مدل خوشه ای طبقه بندی کرد. در ادامه نمونه های برجسته ای از الگوریتم های خوشه بندی بیان شده است، زیرا احتمالا بیش از 100 الگوریتم خوشه بندی منتشر شده وجود دارد. همه مدلها برای خوشه هایشان بیان نشده اند، بنابراین نمی توان به راحتی دسته بندی کرد.

الگوریتم خوشه بندی عینی "صحیح" وجود ندارد، اما همانطور که اشاره شد، "خوشه بندی در چشم بیننده است."<ref name=":0" /> بهترین الگوریتم خوشه بندی برای یک مسئله خاص، اغلب باید به صورت تجربی انتخاب شود، مگر اینکه یک دلیل ریاضی برای ترجیح دادن یک مدل خوشه بر دیگری وجود داشته باشد. لازم به ذکر است که یک الگوریتم که برای یک نوع مدل طراحی شده است و در یک مجموعه داده ای که شامل تفاوت اساسی مدل است، شکست می خورد. به عنوان مثال، k-means نمیتواند خوشه های غیرمحدب را پیدا کند.<ref name=":0" />

=== خوشه بندی براساس اتصال (خوشه بندی سلسه مراتبی) ===
خوشه بندی براساس اتصال، که همچنین به عنوان خوشه بندی سلسله مراتبی شناخته می شود، بر مبنای ایده اصلی اشیائی است که بیشتر مربوط به اشیای نزدیک، نسبت به اشیاء دورتر است. این الگوریتم ها "اشیا" را برای ایجاد "خوشه ها" بر اساس فاصله آنها متصل می کنند. خوشه را می توان به طورکلی با حداکثر فاصله مورد نیاز برای اتصال قطعات خوشه توصیف کرد. در فاصله های مختلف، خوشه های متفاوتی شکل می گیرند که می تواند با استفاده از یک دندروگرام نشان داده شود، که توضیح می دهد که نام معمول "خوشه بندی سلسله مراتبی" از آن می آید: این الگوریتم ها یک پارتیشن بندی مچموعه داده را ارائه نمی دهند، بلکه یک سلسله مراتب گسترده ای از خوشه هایی که در فاصله های معینی با یکدیگر ادغام می شوند، ارائه میدهد. در یک دندروگرام، محور y نشان دهنده فاصله ای است که خوشه ها ادغام می کنند، در حالی که اشیا در امتداد محور x قرار می گیرند به طوری که خوشه ها با هم مخلوط نمی شوند.

خوشه بندی سلسله مراتبی شامل دو نوع خوشه بندی می‌باشد:

single linkage -1 این روش که به روش Bottom-Up و Agglomerative نیز معروف است روشی است که در آن ابتدا هر داده به عنوان یک خوشه در نظر گرفته می‌شود. در ادامه با به کار‌گیری یک الگوریتم هر بار خوشه‌های دارای ویژگی‌های نزدیک به هم با یکدیگر ادغام شده و این کار ادامه می‌یابد تا به چند خوشهٔ مجزا برسیم. مشکل این روش حساس بودن به نویز و مصرف زیاد حافظه می‌باشد.

complete linkage -2 در این روش که به روش Top-Down و Divisive نیز معروف است ابتدا تمام داده‌ها به عنوان یک خوشه در نظر گرفته شده و با به کار‌گیری یک الگوریتم تکرار شونده هربار داده‌ای که کمترین شباهت را با داده‌های دیگر دارد به خوشه‌های مجزا تقسیم می‌شود. این کار ادامه می‌یابد تا یک یا چند خوشه یک عضوی ایجاد شود. مشکل نویز در این روش برطرف شده‌است.

=== خوشه بندی براساس centroid ===
در خوشه بندی براساس centroid، خوشه ها با یک بردار مرکزی نشان داده می شوند، که ممکن است لزوما جزء مجموعه داده نباشد. هنگامی که تعدادی از خوشه ها به k متصل می شوند، خوشه بندی k-means یک تعریف رسمی را به عنوان یک مسئله بهینه سازی ارائه می دهد.

روش میانگین k در عین سادگی یک روش بسیار کاربردی و پایه چند روش دیگر مثل خوشه بندی فازی و Segment-wise distributional clustering Algorithm می‌باشد.روش کار به این صورت است که ابتدا به تعداد دلخواه نقاطی به عنوان مرکز خوشه در نظر گرفته می‌شود. سپس با بررسی هر داده، آن را به نزدیک‌ترین مرکز خوشه نسبت می‌دهیم. پس از اتمام این کار با گرفتن میانگین در هر خوشه می‌توانیم مراکز خوشه و به دنبال آن خوشه‌های جدید ایجاد کنیم. (با تکرار مراحل قبل)از جمله مشکلات این روش این است که بهینگی آن وابسته به انتخاب اولیه مراکز بوده و بنابراین بهینه نیست. مشکلات دیگر آن تعیین تعداد خوشه‌ها و صفر شدن خوشه‌ها می‌باشد.

K-means دارای تعدادی خواص نظری است. اول، فضای داده را به یک ساختار معروف به یک نمودار Voronoi تقسیم می کند. دوم، به لحاظ مفهومی نزدیک به طبقه بندی نزدیکترین همسایه است و به همین علت در یادگیری ماشین محبوب است. سوم، می توان آن را به عنوان تنوع خوشه بندی براساس مدل مشاهده کرد.

=== خوشه بندی براساس توزیع ===
این مدل خوشه بندی که دقیقا مربوط به آمار می باشد، بر اساس مدل های توزیع است.خوشه ها به راحتی می توانند به عنوان اشیایی تعریف می شوند که به احتمال زیاد ب توزیع یکسانی دارند. یک ویژگی خوب این رویکرد این است که با نمونه برداری از اشیاء تصادفی از یک توزیع، دقیقا شبیه نحوه تولید مجموعه داده های مصنوعی است. مبنای نظری این روش ها عالی است، ولی مشکل اصلی overfitting دارند، مگر اینکه محدودیت ها بر پیچیدگی مدل قرار بگیرد.

یک روش شناخته شده ،مدل مخلوط گاوس (با استفاده از الگوریتم حداکثر سازی انتظار) است. مجموعه داده ها معمولا با یک ثابت (برای جلوگیری از overfitting) تعداد توزیع های گاوسی که به صورت تصادفی استفاده شده و به منظور مناسب تر کردن مجموعه داده مدل ، پارامترهای آن به طور تکراری بهینه شده است که به یک بهینه محلی همگرا می شود، بنابراین در طول چند اجرا ممکن است نتایج متفاوتی تولید کند. به منظور به دست آوردن خوشه بندی سخت، اشیاء اغلب به توزیع گاوسی که به احتمال زیاد متعلق به آنهاست، اختصاص داده است که برای خوشه بندی نرم، اینکار لازم نیست.خوشه بندی مبتنی بر توزیع، مدل های پیچیده ای را برای خوشه ها ایجاد می کند که می تواند همبستگی و وابستگی ویژگی را نشان دهد.


''': Density-based clustering'''
''': Density-based clustering'''
خط ۳۳: خط ۷۳:
در این تکنیک این اصل مطرح می‌شود که خوشه‌ها مناطقی با چگالی بیشتر هستند که توسط مناطق با چگالی کمتر از هم جدا شده‌اند.
در این تکنیک این اصل مطرح می‌شود که خوشه‌ها مناطقی با چگالی بیشتر هستند که توسط مناطق با چگالی کمتر از هم جدا شده‌اند.
یکی از مهم‌ترین الگوریتم‌ها در این زمینه الگوریتم DBSCAN است.
یکی از مهم‌ترین الگوریتم‌ها در این زمینه الگوریتم DBSCAN است.
روش این الگوریتم به این صورت است که هر داده متعلق به یک خوشه در دسترس چگالی سایر داده‌های همان خوشه است، ولی در دسترسی چگالی سایر داده‌های خوشه‌های دیگر نیست.
روش این الگوریتم به این صورت است که هر داده متعلق به یک خوشه در دسترس چگالی سایر داده‌های همان خوشه است، ولی در دسترسی چگالی سایر داده‌های خوشه‌های دیگر نیست.(چگالی داده همسایگی به مرکز داده و شعاع همسایگی دلخواه ε است)مزیت این روش این است که تعداد خوشه‌ها به صورت خودکار مشخص می‌شود. در تشخیص نویز نیز بسیار کاراست.

(چگالی داده همسایگی به مرکز داده و شعاع همسایگی دلخواه ε است)
=== پیشرفت های اخیر ===
مزیت این روش این است که تعداد خوشه‌ها به صورت خودکار مشخص می‌شود. در تشخیص نویز نیز بسیار کاراست.
در سال های اخیر تلاش های قابل توجهی در بهبود عملکرد الگوریتم های موجود انجام شده است.<ref>{{Cite journal|last=Sculley|first=D.|date=2010|title=Web-scale k-means clustering|url=http://dx.doi.org/10.1145/1772690.1772862|journal=Proceedings of the 19th international conference on World wide web - WWW '10|location=New York, New York, USA|publisher=ACM Press|doi=10.1145/1772690.1772862|isbn=9781605587998}}</ref> <ref>{{Cite journal|last=Huang|first=Zhexue|date=1998|url=http://dx.doi.org/10.1023/a:1009769707641|journal=Data Mining and Knowledge Discovery|volume=2|issue=3|pages=283–304|doi=10.1023/a:1009769707641|issn=1384-5810}}</ref>با توجه به نیازهای جدید به پردازش داده های خیلی بزرگ، تمایل به کاربرد خوشه های تولید شده برای عملکرد تجاری افزایش یافته است. این امر منجر به توسعه روش های پیش خوشه سازی مانند خوشه بندیcanopy می شود که می تواند داده های حجیم را به طور موثر پردازش کند.

برای داده های با ابعاد بزرگ، بسیاری از روش های موجود به علت ابعاد شکست خورده است، که باعث می شود که توابع خاص فاصله در فضاهای بزرگ بعدی مشکل ساز باشند. این باعث شد که الگوریتم های خوشه بندی جدید برای داده های با ابعاد بزرگ ، بر خوشه بندی زیر فضایی تمرکز کنند و استفاده شود.

چندین سیستم خوشه بندی مختلف مبتنی بر اطلاعات متقابل پیشنهاد شده است. یکی از آن ها، تغییرات اطلاعات مارینا مالگا<ref>{{یادکرد کتاب|نشانی=http://dx.doi.org/10.1007/978-3-540-45167-9_14|عنوان=Comparing Clusterings by the Variation of Information|نام خانوادگی=Meilă|نام=Marina|تاریخ=2003|ناشر=Springer Berlin Heidelberg|شابک=9783540407201|مکان=Berlin, Heidelberg|صفحات=173–187}}</ref> است که یکی دیگر از خوشه بندی سلسله مراتبی را فراهم می کند.<ref>{{یادکرد کتاب|نشانی=http://dx.doi.org/10.1007/978-3-540-30110-3_27|عنوان=Reliability of ICA Estimates with Mutual Information|نام خانوادگی=Stögbauer|نام=Harald|نام خانوادگی۲=Andrzejak|نام۲=Ralph G.|نام خانوادگی۳=Kraskov|نام۳=Alexander|نام خانوادگی۴=Grassberger|نام۴=Peter|تاریخ=2004|ناشر=Springer Berlin Heidelberg|شابک=9783540230564|مکان=Berlin, Heidelberg|صفحات=209–216}}</ref> با استفاده از الگوریتم های ژنتیکی، طیف گسترده ای از تناسب توابع مختلف، از جمله اطلاعات متقابل، می تواند بهینه سازی شود،پیشرفت اخیر در علوم کامپیوتری و فیزیک آماری، منجر به ایجاد انواع جدیدی از الگوریتم های خوشه بندی شده است. <ref>{{Cite journal|last=Frey|first=B. J.|last2=Dueck|first2=D.|date=2007-02-16|title=Clustering by Passing Messages Between Data Points|url=http://dx.doi.org/10.1126/science.1136800|journal=Science|volume=315|issue=5814|pages=972–976|doi=10.1126/science.1136800|issn=0036-8075}}</ref>


== ارزیابی مدل خوشه‌بندی ==
== ارزیابی مدل خوشه‌بندی ==
ارزیابی (یا «اعتبار سنجی») نتایج خوشه بندی به همان اندازه خوشه بندی سخت است.<ref>{{Cite journal|last=Pfitzner|first=Darius|last2=Leibbrandt|first2=Richard|last3=Powers|first3=David|date=2008-07-05|title=Characterization and evaluation of similarity measures for pairs of clusterings|url=http://dx.doi.org/10.1007/s10115-008-0150-6|journal=Knowledge and Information Systems|volume=19|issue=3|pages=361–394|doi=10.1007/s10115-008-0150-6|issn=0219-1377}}</ref> رویکردهای محبوب شامل ارزیابی "درونی" است که در آن خوشه بندی به یک عدد کیفیت واحد خلاصه می شود، ارزیابی "خارجی"، که در آن خوشه بندی با طبقه بندی "ground truth" موجود، ارزیابی "دستی" توسط متخصص و ارزیابی "غیر مستقیم " با استفاده از خوشه بندی در برنامه مورد نظر مقایسه می شود. <ref name=":1">{{یادکرد کتاب|نشانی=http://dx.doi.org/10.1017/cbo9780511546914.011|عنوان=Visualization Approaches|نام خانوادگی=Feldman|نام=Ronen|نام خانوادگی۲=Sanger|نام۲=James|ناشر=Cambridge University Press|شابک=9780511546914|مکان=Cambridge|صفحات=189–241}}</ref>

مشکلی که ارزیابی خارجی دارد این است که اگر ما برچسبهای "ground truth" داشته باشیم، دیگر نیازی به خوشه نخواهیم داشت و در برنامه های کاربردی معمولا چنین برچسب هایی را نداریم. از سوی دیگر، برچسب ها فقط یک پراکندگی از مجموعه داده نشان می دهد، که به این معنی نیست که خوشه ای متفاوت و شاید حتی بهتر از آن وجود نداشته باشد.

بنابراین هیچکدام از این روشها نهایتا نمیتوانند کیفیت واقعی خوشه بندی را قضاوت کنند، اما اینکار نیاز به ارزیابی انسانی دارد <ref name=":1" />که بسیار ذهنی است.

ارزیابی مدل‌های خوشه‌بندی در سه موضوع زیر مورد بررسی قرار می‌گیرد:<ref>Han, J. , Kamber, M. , & Pei, J. (2011). Data mining: concepts and techniques (3rd ed.). Morgan Kaufmann Publishers</ref>
ارزیابی مدل‌های خوشه‌بندی در سه موضوع زیر مورد بررسی قرار می‌گیرد:<ref>Han, J. , Kamber, M. , & Pei, J. (2011). Data mining: concepts and techniques (3rd ed.). Morgan Kaufmann Publishers</ref>


خط ۶۲: خط ۱۱۳:


مقدار این شاخص بین ۱- و ۱ است. مقدار a)o) فشردگی خوشه‌ای را که o به آن تعلق دارد نشان می‌دهد. این مقدار هر چه کمتر باشد خوشه فشرده‌تر است. مقدار b)o) نشان می‌دهد که o چه‌قدر از سایر خوشه‌ها جدا است. هر چه b)o) بیشتر باشد o از سایر خوشه‌ها بیشتر جدا شده‌است؛ بنابراین در شاخص سیلوئت هر چه مقدار شاخص به یک نزدیک می‌شود خوشه فشرده‌تر است و از سایر خوشه‌ها دورتر است بنابراین حالت مطلوبی است. در شرایطی که شاخص سیلوئت منفی باشد، به این معناست که o به اشیاء خوشه دیگری غیر از خوشه‌ای که به آن تعلق دارد، نزدیکتر است. این حالت نامطلوب است و باید از بروز آن جلوگیری کرد.
مقدار این شاخص بین ۱- و ۱ است. مقدار a)o) فشردگی خوشه‌ای را که o به آن تعلق دارد نشان می‌دهد. این مقدار هر چه کمتر باشد خوشه فشرده‌تر است. مقدار b)o) نشان می‌دهد که o چه‌قدر از سایر خوشه‌ها جدا است. هر چه b)o) بیشتر باشد o از سایر خوشه‌ها بیشتر جدا شده‌است؛ بنابراین در شاخص سیلوئت هر چه مقدار شاخص به یک نزدیک می‌شود خوشه فشرده‌تر است و از سایر خوشه‌ها دورتر است بنابراین حالت مطلوبی است. در شرایطی که شاخص سیلوئت منفی باشد، به این معناست که o به اشیاء خوشه دیگری غیر از خوشه‌ای که به آن تعلق دارد، نزدیکتر است. این حالت نامطلوب است و باید از بروز آن جلوگیری کرد.

== کاربرد ==
'''زیست شناسی، زیست شناسی محاسباتی و بیوانفورماتیک'''

'''بوم شناسی گیاه و حیوانات'''

       تجزیه و تحلیل خوشه ای برای توصیف و مقایسه مقادیر مکانی و زمانی جوامع ارگانیسم ها در محیط های ناهمگن استفاده می شود؛ از آن نیز در سیستماتیک گیاه برای تولید phylogenies مصنوعی یا خوشه های ارگانیسم (افراد) در گونه، جنس و یا سطح بالاتر که دارای تعدادی از ویژگی های مشترک است، استفاده می شود.

  '''Transcriptomics'''

       خوشه بندی برای ساخت گروهی از ژن ها با الگوی بیان مربوطه به عنوان الگوریتم خوشه بندی HCS استفاده می شود. اغلب این گروه ها حاوی عملکرد پروتئین های مرتبط هستند، مانند آنزیم ها برای یک مسیر خاص، یا ژن هایی که هم تنظیم می شوند. آزمایشات با توان بالا با استفاده از نشانگرهای ترتیبی بیان شده (ESTs) یا میکروآرایه های DNA میتواند یک ابزار قدرتمند برای حاشیه نویسی ژنوم، یک جنبه عمومی ژنومیک باشد.

    '''تجزیه و تحلیل متوالی'''

       خوشه بندی برای دسته بندی توالی های همولوگ به خانواده های ژن ،مورد استفاده قرار می گیرد.به طور کلی این مفهوم بسیار مهمی در بیوانفورماتیک و زیست شناسی تکاملی است.

    '''سیستم عامل های ژنوتایپ با بازده بالا'''

       الگوریتم خوشه بندی به طور خودکار برای تعیین ژنوتیپ ها استفاده می شود.

   '''خوشه بندی ژنتیک انسانی'''

       شباهت داده های ژنتیکی در خوشه بندی برای به دست آوردن ساختار جمعیت استفاده می شود.

'''پزشکی'''

   '''تصویربرداری پزشکی'''

       در PET، تجزیه خوشه ای می تواند برای تمایز بین انواع مختلف بافت در یک تصویر سه بعدی برای بسیاری از اهداف مختلف مورد استفاده قرار گیرد. <ref>{{Cite journal|last=Filipovych|first=Roman|last2=Resnick|first2=Susan M.|last3=Davatzikos|first3=Christos|date=2011-02|title=Semi-supervised cluster analysis of imaging data|url=http://dx.doi.org/10.1016/j.neuroimage.2010.09.074|journal=NeuroImage|volume=54|issue=3|pages=2185–2197|doi=10.1016/j.neuroimage.2010.09.074|issn=1053-8119}}</ref>

   '''تجزیه و تحلیل فعالیت ضد میکروبی'''

       تجزیه خوشه ای می تواند برای تجزیه و تحلیل الگوهای مقاومتی آنتی بیوتیکی، طبقه بندی ترکیبات ضد میکروبی مطابق با مکانیسم عمل آن ها، طبقه بندی آنتی بیوتیک ها بر اساس فعالیت ضد باکتری آنها استفاده شود.

   '''بخش بندی IMRT'''

       خوشه بندی می تواند برای تقسیم یک نقشه فلوئنسی به مناطق مجزا برای تبدیل به زمینه های قابل ارائه در پرتودرمانی براساس MLC استفاده شود.

'''کسب و کار و بازاریابی'''

   '''تحقیقات بازار'''

       تجزیه و تحلیل خوشه ای در تحقیقات بازار به طور گسترده در کار با داده های چندمتغیره از نظرسنجی ها و پانل های آزمایش استفاده می شود. محققان بازار از تحلیل خوشه ای استفاده می کنند تا جمعیت عمومی مصرف کنندگان را به بخش های بازار تقسیم کنند و به درک بهتر روابط بین گروه های مختلف مصرف کنندگان / مشتریان بالقوه و برای استفاده در تقسیم بندی بازار، موقعیت محصول، توسعه محصول جدید و انتخاب تست بازار کمک می کند.

   '''گروه بندی اقلام خرید'''

       خوشه بندی را می توان برای دسته بندی تمام اقلام خرید موجود در وب به مجموعه ای از محصولات منحصر به فرد استفاده کرد. به عنوان مثال، تمام اقلام در eBay را می توان به محصولات منحصر به فرد گروه بندی کرد.

'''وب جهان گستر'''

   '''تجزیه و تحلیل شبکه اجتماعی'''

       در مطالعه شبکه های اجتماعی، خوشه بندی ممکن است برای تشخیص ارتباط جوامع در گروه های بزرگ مردم استفاده شود.

   '''گروه بندی نتایج جستجو'''

       در فرایند گروه بندی هوشمند از فایل ها و وب سایت ها، خوشه بندی ممکن است برای ایجاد یک مجموعه مناسب تر از نتایج جستجو در مقایسه با موتورهای جستجوی معمول مانند Google استفاده شود. در حال حاضر تعدادی از ابزارهای خوشه سازی مبتنی بر وب مانند Clusty وجود دارد.

   '''بهینه سازی نقشه Slippy'''

       در نقشه Flickr از عکس ها و سایر krai سایت ها از خوشه بندی برای کاهش تعداد نشانگر ها در یک نقشه استفاده شده است. این باعث می شود که هر دو سریعتر و میزان خطای بصری را کاهش دهد.

'''علوم کامپیوتر'''

   '''تکامل نرم افزار'''

       خوشه بندی در تکامل نرم افزار مفید است، زیرا آن را با اصلاح قابلیت هایی که پراکنده شده است، کمک می کند تا خواص میراث را در کد کاهش دهد. این یک نوع بازسازی است و از این رو، راه مستقیم نگهداری پیشگیرانه است.

   '''بخش بندی تصویر'''

       خوشه بندی می تواند برای تقسیم یک تصویر دیجیتال به مناطق مشخص برای تشخیص مرز یا تشخیص شی مورد استفاده قرار گیرد.

   '''الگوریتم های تکاملی'''

       خوشه بندی ممکن است برای شناسایی nichهای مختلف در جمعیت یک الگوریتم تکاملی استفاده شود تا فرصت تولید مجد را به طور یکنواخت تر بین گونه ها یا گونه های در حال رشد توزیع کرد.

   '''سیستم توصیه گر'''

       سیستم های توصیه شده به منظور توصیف ایتم جدید بر اساس سلیقه کاربر طراحی شده اند. گاهی اوقات از الگوریتم خوشه بندی برای پیش بینی ترجیحات کاربر بر اساس ترجیحات دیگر کاربران در خوشه کاربر استفاده می کنند.

   '''روش مارکوف مونت کارلو زنجیره ای'''

       خوشه بندی اغلب برای تعیین مکان و تشخیص اکسترمم در توزیع هدف، مورد استفاده قرار می گیرد.

   '''تشخیص ناهنجاری'''

       ناهنجاری ها معمولا - به صراحت یا به طور ضمنی - با توجه به ساختار خوشه ای در داده ها تعریف می شود.

'''علوم اجتماعی'''

   '''تجزیه و تحلیل جرم'''

      از تجزیه و تحلیل خوشه ای می توان برای شناسایی مناطق که در آن موارد بیشتر از انواع خاصی از جرم وجود دارد استفاده شود. با شناسایی این مناطق متمایز یا "hot spot" که جرم مشابهی در طی یک دوره زمانی اتفاق افتاده است، می توان منابع اجرای قانون را به طور موثرتر مدیریت کرد.

   '''داده کاوی آموزشی'''

       به عنوان مثال، تجزیه و تحلیل خوشه ای برای شناسایی گروه های مدارس یا دانشجویانی با ویژگی مشابه استفاده می شود.

   '''تایپولوژی ها'''

       در داده های نظرسنجی، پروژه هایی نظیر آنچه که توسط مرکز تحقیقاتی Pew انجام شده، از تجزیه و تحلیل خوشه ای استفاده می کنند تا نوع شناسی عقاید، عادت ها و جمعیت شناسایی را که ممکن است در سیاست و بازاریابی سودمند باشد، شناسایی کند.

'''و کاربردهای دیگر'''

   '''در زمینه رباتیک'''

       الگوریتم خوشه بندی برای آگاهی موقعیت رباتیک برای ردیابی اشیاء و تشخیص خروجی ها در داده های سنسور استفاده می شود.<ref>{{Cite journal|last=Bewley|first=Alex|last2=Shekhar|first2=Rajiv|last3=Leonard|first3=Sam|last4=Upcroft|first4=Ben|last5=Lever|first5=Paul|date=2011-05|title=Real-time volume estimation of a dragline payload|url=http://dx.doi.org/10.1109/icra.2011.5979898|journal=2011 IEEE International Conference on Robotics and Automation|publisher=IEEE|doi=10.1109/icra.2011.5979898|isbn=9781612843865}}</ref>

   '''شیمی محاسباتی'''

       به عنوان مثال، برای پیدا کردن شباهت ساختاری و غیره، به عنوان نمونه، 3000 ترکیب شیمیایی در فضای 90 شاخص توپولوژیکی ،خوشه بندی شدند. <ref>{{Cite journal|last=Basak|first=S.C.|last2=Magnuson|first2=V.R.|last3=Niemi|first3=G.J.|last4=Regal|first4=R.R.|date=1988-03|title=Determining structural similarity of chemicals using graph-theoretic indices|url=http://dx.doi.org/10.1016/0166-218x(88)90004-2|journal=Discrete Applied Mathematics|volume=19|issue=1-3|pages=17–44|doi=10.1016/0166-218x(88)90004-2|issn=0166-218X}}</ref>

   '''اقلیم شناسی'''

       برای پیدا کردن آب و هوایی و یا الگوهای فشار جو در سطح دریا مورد نظر است.<ref>{{Cite journal|last=Huth|first=Radan|last2=Beck|first2=Christoph|last3=Philipp|first3=Andreas|last4=Demuzere|first4=Matthias|last5=Ustrnul|first5=Zbigniew|last6=Cahynová|first6=Monika|last7=Kyselý|first7=Jan|last8=Tveito|first8=Ole Einar|date=2008-12|title=Classifications of Atmospheric Circulation Patterns|url=http://dx.doi.org/10.1196/annals.1446.019|journal=Annals of the New York Academy of Sciences|volume=1146|issue=1|pages=105–152|doi=10.1196/annals.1446.019|issn=0077-8923}}</ref>

   '''زمین شناسی نفت'''

       تجزیه و تحلیل خوشه ای برای بازسازی داده های اصلی ازدست رفته سوراخ پایین یا منحنی های لگاریتمی از دست رفته به منظور بررسی خواص مخزن استفاده می شود.

   '''جغرافیای فیزیکی'''

       خوشه بندی خواص شیمیایی در مکان های مختلف نمونه.


== جستارهای وابسته ==
== جستارهای وابسته ==

نسخهٔ ‏۲۹ ژوئن ۲۰۱۸، ساعت ۲۰:۴۱

در خوشه‌بندی، هدف تقسیم داده به گروه‌های مختلف است که با رنگ‌های مختلف در اینجا نشان داده شده‌اند.

در تجزیه و تحلیل خوشه یا خوشه بندی، گروه بندی مجموعه ای از اشیاء انجام می شود اینکار به این صورت است که اشیاء در یک گروه (به نام خوشه) در مقایسه با دیگر دسته ها (خوشه ها) مشابه تر هستند. این وظیفه اصلی داده کاوی اکتشافی است و یک روش معمول برای تجزیه و تحلیل داده های آماری است که در بسیاری از زمینه ها از جمله یادگیری ماشین، تشخیص الگو،تجزیه و تحلیل تصویر، بازیابی اطلاعات، بیوانفورماتیک، فشرده سازی داده ها و گرافیک کامپیوتری استفاده می شود.

تجزیه و تحلیل خوشه ای خود یک الگوریتم خاص نیست، بلکه روند کلی است و می تواند توسط الگوریتم های مختلفی به دست آید که در درک آنچه که یک خوشه را تشکیل می دهند و نحوه کارآمدی آنها را پیدا می کند.

اصطلاحات خوشه ها شامل گروه هایی با فاصله های کم بین اعضای خوشه، مناطق متراکم فضای داده، فواصل و یا توزیع های آماری خاص است. بنابراین خوشه بندی می تواند به عنوان یک مسئله بهینه سازی چند هدفه صورت گیرد. الگوریتم خوشه بندی مناسب و تنظیمات پارامتر (از جمله پارامترهایی مانند تابع فاصله مورد استفاده، آستانه تراکم یا تعداد خوشه مورد انتظار) بستگی به تنظیم مجموعه داده ها توسط فرد و استفاده خاص فرد از نتایج دارد. تجزیه و تحلیل خوشه ای یک روش اتوماتیک نیست، بلکه یک فرآیند تکراری از کشف دانش یا بهینه سازی چند هدفه تعاملی است که شامل آزمایش و شکست است. اغلب لازم است که داده های پیش پردازش شده و پارامترهای مدل اصلاح شوند تا نتیجه حاصل ، همان نتیجه ی دلخواه باشد.

علاوه بر اصطلاحات خوشه بندی، تعدادی از اصطلاح با معانی مشابه وجود دارد، از جمله طبقه بندی خودکار، طبقه بندی عددی، روش شناسی و تجزیه و تحلیل توپولوژیکی. تفاوت های کم اغلب در نتایج استفاده می شود: در داده کاوی، نتیجه گروه ها مورد توجه هست و در طبقه بندی خودکار، قدرت تشخیصی مورد توجه است.

تجزیه و تحلیل خوشه ای در انسان شناسی توسط Driver و Kroeber در سال 1932 آغاز شد و در روان شناسی توسط زوبین در سال 1938 و رابرت تیرون در سال[۱] 1939[۲] معرفی شد و در سال 1943 [۳]برای طبقه بندی نظریه رفتاری در روانشناسی شخصیت توسط Cattell استفاده شد.

نگارخانه

تعریف

مفهوم "خوشه" را دقیقا نمیتوان تعریف کرد،یکی از دلایلش این است که الگوریتم های خوشه بندی زیادی وجود دارد[۴]. همه ی آنها یک قسمت مشترک دارند و آن یک گروه از اشیاء داده است. با این حال، محققان از مدل های مختلف خوشه استفاده می کنند و برای هر یک از این مدل های خوشه، الگوریتم های مختلفی را می توان ارائه داد. مفهوم یک خوشه، همانطور که توسط الگوریتم های مختلف یافت می شود، به طور خاصی در خواص تفاوت دارند. درک این مدلهای خوشه ، کلید فهمیدن تفاوت بین الگوریتم های مختلف است. مدل های خوشه ای معمول عبارتند از:

  •    مدل های متصل: به عنوان مثال، خوشه بندی سلسله مراتبی، مدل هایی براساس فاصله متصل را ایجاد می کند.
  •    مدل های مرکزی: به عنوان مثال، الگوریتم k-means ، هر خوشه را با یک بردار متوسط نشان می دهد.​​
  •    مدل های توزیع: خوشه ها با استفاده از توزیع های آماری، مانند توزیع نرمال چند متغیره که در الگوریتم حداکثر انتظار ، استفاده شده است.
  •    مدلهای تراکم: به عنوان مثال، DBSCAN و OPTICS خوشه را به عنوان مناطق متراکم متصل در فضای داده تعریف می کنند.
  •    مدل های زیر فضایی: در biclustering (که به عنوان خوشه مشترک یا خوشه ای دو حالت شناخته می شود)، خوشه ها با هر دو اعضای خوشه و ویژگی های مرتبط مدل سازی می شوند.
  •    مدل های گروهی: برخی از الگوریتم ها یک مدل تصحیح شده برای نتایج خود را ارائه نمی دهند و فقط اطلاعات گروه بندی را ارائه می دهند.
  •    مدل های مبتنی بر گراف: یک کلاس، یعنی یک زیر مجموعه از گره ها در یک گراف به طوری که هر دو گره در زیر مجموعه با یک لبه متصل می شود که می تواند به عنوان یک شکل اولیه از خوشه مورد توجه قرار گیرد.
  •   مدل های عصبی: شبکه عصبی غیرقابل نظارت ، شناخته شده ترین نقشه خود سازمانی است و معمولا این مدل ها می توانند به عنوان مشابه با یک یا چند مدل فوق شامل مدل های زیر فضایی، زمانی که شبکه های عصبی یک فرم تجزیه و تحلیل مولفه اصلی یا مستقل تجزیه و تحلیل المان می باشد.

"خوشه بندی" اساسا مجموعه ای از خوشه ها است که معمولا شامل تمام اشیاء در مجموعه داده ها می شود. علاوه بر این، می توان رابطه خوشه ها را به یکدیگر تعریف کند، به عنوان مثال، سلسله مراتب خوشه های تعبیه شده در یکدیگر.

خوشه بندی را می توان براساس سختی تمایز به صورت زیر مشخص کرد:

  •    خوشه بندی سخت: هر شیء متعلق به خوشه است یا نه.
  •    خوشه بندی نرم (همچنین: خوشه فازی): هر شیء به درجه خاصی از هر خوشه متعلق است (به عنوان مثال، احتمال وابستگی به خوشه)

همچنین امکان تمایز دقیق تر وجود دارد، مثلا:

  •    خوشه بندی جداسازی دقیق ( پارتیشن بندی): هر شیء دقیقا به یک خوشه متعلق است.
  •    خوشه بندی جداسازی دقیق با ناپیوستگی: اشیاء می توانند به هیچ خوشه ای تعلق نداشته باشند.
  •    خوشه بندی همپوشانی (همچنین: خوشه بندی جایگزین، خوشه بندی چندگانه): اشیاء ممکن است متعلق به بیش از یک خوشه باشد؛ معمولا خوشه های سخت را شامل می شود
  •    خوشه بندی سلسله مراتبی: اشیایی که متعلق به خوشه فرزند هستند، متعلق به خوشه پدر و مادر هم هستند.
  •    خوشه بندی زیر فضا: در حالی که خوشه بندی همپوشانی، که در یک زیر فضای منحصر به فرد تعریف شده ، انتظار نمی رود که خوشه ها با همپوشانی داشته باشند.

الگوریتم

همانطور که در بالا ذکر شد، الگوریتم های خوشه بندی را می توان بر اساس مدل خوشه ای طبقه بندی کرد. در ادامه نمونه های برجسته ای از الگوریتم های خوشه بندی بیان شده است، زیرا احتمالا بیش از 100 الگوریتم خوشه بندی منتشر شده وجود دارد. همه مدلها برای خوشه هایشان بیان نشده اند، بنابراین نمی توان به راحتی دسته بندی کرد.

الگوریتم خوشه بندی عینی "صحیح" وجود ندارد، اما همانطور که اشاره شد، "خوشه بندی در چشم بیننده است."[۴] بهترین الگوریتم خوشه بندی برای یک مسئله خاص، اغلب باید به صورت تجربی انتخاب شود، مگر اینکه یک دلیل ریاضی برای ترجیح دادن یک مدل خوشه بر دیگری وجود داشته باشد. لازم به ذکر است که یک الگوریتم که برای یک نوع مدل طراحی شده است و در یک مجموعه داده ای که شامل تفاوت اساسی مدل است، شکست می خورد. به عنوان مثال، k-means نمیتواند خوشه های غیرمحدب را پیدا کند.[۴]

خوشه بندی براساس اتصال (خوشه بندی سلسه مراتبی)

خوشه بندی براساس اتصال، که همچنین به عنوان خوشه بندی سلسله مراتبی شناخته می شود، بر مبنای ایده اصلی اشیائی است که بیشتر مربوط به اشیای نزدیک، نسبت به اشیاء دورتر است. این الگوریتم ها "اشیا" را برای ایجاد "خوشه ها" بر اساس فاصله آنها متصل می کنند. خوشه را می توان به طورکلی با حداکثر فاصله مورد نیاز برای اتصال قطعات خوشه توصیف کرد. در فاصله های مختلف، خوشه های متفاوتی شکل می گیرند که می تواند با استفاده از یک دندروگرام نشان داده شود، که توضیح می دهد که نام معمول "خوشه بندی سلسله مراتبی" از آن می آید: این الگوریتم ها یک پارتیشن بندی مچموعه داده را ارائه نمی دهند، بلکه یک سلسله مراتب گسترده ای از خوشه هایی که در فاصله های معینی با یکدیگر ادغام می شوند، ارائه میدهد. در یک دندروگرام، محور y نشان دهنده فاصله ای است که خوشه ها ادغام می کنند، در حالی که اشیا در امتداد محور x قرار می گیرند به طوری که خوشه ها با هم مخلوط نمی شوند.

خوشه بندی سلسله مراتبی شامل دو نوع خوشه بندی می‌باشد:

single linkage -1 این روش که به روش Bottom-Up و Agglomerative نیز معروف است روشی است که در آن ابتدا هر داده به عنوان یک خوشه در نظر گرفته می‌شود. در ادامه با به کار‌گیری یک الگوریتم هر بار خوشه‌های دارای ویژگی‌های نزدیک به هم با یکدیگر ادغام شده و این کار ادامه می‌یابد تا به چند خوشهٔ مجزا برسیم. مشکل این روش حساس بودن به نویز و مصرف زیاد حافظه می‌باشد.

complete linkage -2 در این روش که به روش Top-Down و Divisive نیز معروف است ابتدا تمام داده‌ها به عنوان یک خوشه در نظر گرفته شده و با به کار‌گیری یک الگوریتم تکرار شونده هربار داده‌ای که کمترین شباهت را با داده‌های دیگر دارد به خوشه‌های مجزا تقسیم می‌شود. این کار ادامه می‌یابد تا یک یا چند خوشه یک عضوی ایجاد شود. مشکل نویز در این روش برطرف شده‌است.

خوشه بندی براساس centroid

در خوشه بندی براساس centroid، خوشه ها با یک بردار مرکزی نشان داده می شوند، که ممکن است لزوما جزء مجموعه داده نباشد. هنگامی که تعدادی از خوشه ها به k متصل می شوند، خوشه بندی k-means یک تعریف رسمی را به عنوان یک مسئله بهینه سازی ارائه می دهد.

روش میانگین k در عین سادگی یک روش بسیار کاربردی و پایه چند روش دیگر مثل خوشه بندی فازی و Segment-wise distributional clustering Algorithm می‌باشد.روش کار به این صورت است که ابتدا به تعداد دلخواه نقاطی به عنوان مرکز خوشه در نظر گرفته می‌شود. سپس با بررسی هر داده، آن را به نزدیک‌ترین مرکز خوشه نسبت می‌دهیم. پس از اتمام این کار با گرفتن میانگین در هر خوشه می‌توانیم مراکز خوشه و به دنبال آن خوشه‌های جدید ایجاد کنیم. (با تکرار مراحل قبل)از جمله مشکلات این روش این است که بهینگی آن وابسته به انتخاب اولیه مراکز بوده و بنابراین بهینه نیست. مشکلات دیگر آن تعیین تعداد خوشه‌ها و صفر شدن خوشه‌ها می‌باشد.

K-means دارای تعدادی خواص نظری است. اول، فضای داده را به یک ساختار معروف به یک نمودار Voronoi تقسیم می کند. دوم، به لحاظ مفهومی نزدیک به طبقه بندی نزدیکترین همسایه است و به همین علت در یادگیری ماشین محبوب است. سوم، می توان آن را به عنوان تنوع خوشه بندی براساس مدل مشاهده کرد.

خوشه بندی براساس توزیع

این مدل خوشه بندی که دقیقا مربوط به آمار می باشد، بر اساس مدل های توزیع است.خوشه ها به راحتی می توانند به عنوان اشیایی تعریف می شوند که به احتمال زیاد ب توزیع یکسانی دارند. یک ویژگی خوب این رویکرد این است که با نمونه برداری از اشیاء تصادفی از یک توزیع، دقیقا شبیه نحوه تولید مجموعه داده های مصنوعی است. مبنای نظری این روش ها عالی است، ولی مشکل اصلی overfitting دارند، مگر اینکه محدودیت ها بر پیچیدگی مدل قرار بگیرد.

یک روش شناخته شده ،مدل مخلوط گاوس (با استفاده از الگوریتم حداکثر سازی انتظار) است. مجموعه داده ها معمولا با یک ثابت (برای جلوگیری از overfitting) تعداد توزیع های گاوسی که به صورت تصادفی استفاده شده و به منظور مناسب تر کردن مجموعه داده مدل ، پارامترهای آن به طور تکراری بهینه شده است که به یک بهینه محلی همگرا می شود، بنابراین در طول چند اجرا ممکن است نتایج متفاوتی تولید کند. به منظور به دست آوردن خوشه بندی سخت، اشیاء اغلب به توزیع گاوسی که به احتمال زیاد متعلق به آنهاست، اختصاص داده است که برای خوشه بندی نرم، اینکار لازم نیست.خوشه بندی مبتنی بر توزیع، مدل های پیچیده ای را برای خوشه ها ایجاد می کند که می تواند همبستگی و وابستگی ویژگی را نشان دهد.

: Density-based clustering

در این تکنیک این اصل مطرح می‌شود که خوشه‌ها مناطقی با چگالی بیشتر هستند که توسط مناطق با چگالی کمتر از هم جدا شده‌اند. یکی از مهم‌ترین الگوریتم‌ها در این زمینه الگوریتم DBSCAN است. روش این الگوریتم به این صورت است که هر داده متعلق به یک خوشه در دسترس چگالی سایر داده‌های همان خوشه است، ولی در دسترسی چگالی سایر داده‌های خوشه‌های دیگر نیست.(چگالی داده همسایگی به مرکز داده و شعاع همسایگی دلخواه ε است)مزیت این روش این است که تعداد خوشه‌ها به صورت خودکار مشخص می‌شود. در تشخیص نویز نیز بسیار کاراست.

پیشرفت های اخیر

در سال های اخیر تلاش های قابل توجهی در بهبود عملکرد الگوریتم های موجود انجام شده است.[۵] [۶]با توجه به نیازهای جدید به پردازش داده های خیلی بزرگ، تمایل به کاربرد خوشه های تولید شده برای عملکرد تجاری افزایش یافته است. این امر منجر به توسعه روش های پیش خوشه سازی مانند خوشه بندیcanopy می شود که می تواند داده های حجیم را به طور موثر پردازش کند.

برای داده های با ابعاد بزرگ، بسیاری از روش های موجود به علت ابعاد شکست خورده است، که باعث می شود که توابع خاص فاصله در فضاهای بزرگ بعدی مشکل ساز باشند. این باعث شد که الگوریتم های خوشه بندی جدید برای داده های با ابعاد بزرگ ، بر خوشه بندی زیر فضایی تمرکز کنند و استفاده شود.

چندین سیستم خوشه بندی مختلف مبتنی بر اطلاعات متقابل پیشنهاد شده است. یکی از آن ها، تغییرات اطلاعات مارینا مالگا[۷] است که یکی دیگر از خوشه بندی سلسله مراتبی را فراهم می کند.[۸] با استفاده از الگوریتم های ژنتیکی، طیف گسترده ای از تناسب توابع مختلف، از جمله اطلاعات متقابل، می تواند بهینه سازی شود،پیشرفت اخیر در علوم کامپیوتری و فیزیک آماری، منجر به ایجاد انواع جدیدی از الگوریتم های خوشه بندی شده است. [۹]

ارزیابی مدل خوشه‌بندی

ارزیابی (یا «اعتبار سنجی») نتایج خوشه بندی به همان اندازه خوشه بندی سخت است.[۱۰] رویکردهای محبوب شامل ارزیابی "درونی" است که در آن خوشه بندی به یک عدد کیفیت واحد خلاصه می شود، ارزیابی "خارجی"، که در آن خوشه بندی با طبقه بندی "ground truth" موجود، ارزیابی "دستی" توسط متخصص و ارزیابی "غیر مستقیم " با استفاده از خوشه بندی در برنامه مورد نظر مقایسه می شود. [۱۱]

مشکلی که ارزیابی خارجی دارد این است که اگر ما برچسبهای "ground truth" داشته باشیم، دیگر نیازی به خوشه نخواهیم داشت و در برنامه های کاربردی معمولا چنین برچسب هایی را نداریم. از سوی دیگر، برچسب ها فقط یک پراکندگی از مجموعه داده نشان می دهد، که به این معنی نیست که خوشه ای متفاوت و شاید حتی بهتر از آن وجود نداشته باشد.

بنابراین هیچکدام از این روشها نهایتا نمیتوانند کیفیت واقعی خوشه بندی را قضاوت کنند، اما اینکار نیاز به ارزیابی انسانی دارد [۱۱]که بسیار ذهنی است.

ارزیابی مدل‌های خوشه‌بندی در سه موضوع زیر مورد بررسی قرار می‌گیرد:[۱۲]

۱-ارزیابی جهت‌دار بودن خوشه‌ها

ارزیابی جهت‌دار بودن خوشه‌ها تعیین می‌کند که داده‌ها ساختار غیرتصادفی دارند. در غیر این‌صورت حتی اگر الگوریتم چند خوشه را به عنوان خروجی به ما بدهد این خوشه‌ها معتبر و معنی‌دار نخواهند بود.

آماره هاپکینز شاخصی در آمار است که تصادفی بودن مقدار متغیرها را می‌آزماید. این سنجش بر اساس یک آزمون فرض است که به صورت زیر تعریف شده‌است:

  • فرض صفر: داده‌ها به صورت یکنواخت توزیع شده‌اند و هیچ خوشه معنی‌داری در آن‌ها وجود ندارد.
  • فرض یک: داده‌ها به صورت یکنواخت توزیع نشده‌اند و در آن‌ها خوشه معنی‌دار مشاهده می‌شود.

این آزمون را می‌توان با تکرارهای مختلف انجام داد. در صورتی که آماره آزمون بزرگتر از ۰٫۵ باشد می‌توانیم فرض یک را رد کنیم و بپذیریم که داده‌ها به صورت یکنواخت توزیع شده‌اند.

۲-ارزیابی تعداد خوشه‌ها

تعیین درست تعداد خوشه‌ها نقش مهمی در الگوریتم‌های خوشه بندی ایفا می‌کند به این علت که دانه‌بندی تحلیل خوشه‌ای را مشخص می‌کند. تعیین تعداد خوشه‌ها را می‌توان به صورت موازنه‌ای بین قابلیت فشرده‌سازی و دقت تعریف کرد. برای توصیف این دو مفهوم می‌توان دو حالت را در نظر گرفت. در حالت اول کل داده‌ها در یک خوشه جای می‌گیرند. در این حالت قابلیت فشرده‌سازی در وضعیت بیشینه است ولی خوشه مفهومی ندارد. در حالت دوم هر شیء در داده‌ها در یک خوشه قرار می‌گیرد. در این حالت دقت در وضعیت بیشینه است زیرا بین هر شیء و مرکز خوشه فاصله صفر وجود دارد. در این حالت هم خوشه‌بندی مفهومی ندارد؛ بنابراین در تعیین تعداد خوشه‌ها باید موازنه بین این دو شاخص در نظر گرفته شود.

۳-ارزیابی کیفیت خوشه‌ها

کیفیت خوشه‌ها در روش‌های یادگیری بدون نظارت از طریق روش‌های ارزیابی درونی انجام می‌شود. این روش‌ها ارزیابی می‌کنند که خوشه‌ها تا چه حد از هم جدا هستند و تا چه حد به هم فشرده‌اند. نمونه‌ای از این شاخص‌ها شاخص سیلوئت می‌باشد که به شکل زیر تعریف می‌شود:

a)o) به صورت میانگین فاصله بین o و سایر اشیاء خوشه‌ای که o به آن تعلق دارد، تعریف می‌شود. به روش مشابهی b)o) کمترین میانگین فاصله بین o و همه خوشه‌هایی است که o به آن‌ها تعلق ندارد.

مقدار این شاخص بین ۱- و ۱ است. مقدار a)o) فشردگی خوشه‌ای را که o به آن تعلق دارد نشان می‌دهد. این مقدار هر چه کمتر باشد خوشه فشرده‌تر است. مقدار b)o) نشان می‌دهد که o چه‌قدر از سایر خوشه‌ها جدا است. هر چه b)o) بیشتر باشد o از سایر خوشه‌ها بیشتر جدا شده‌است؛ بنابراین در شاخص سیلوئت هر چه مقدار شاخص به یک نزدیک می‌شود خوشه فشرده‌تر است و از سایر خوشه‌ها دورتر است بنابراین حالت مطلوبی است. در شرایطی که شاخص سیلوئت منفی باشد، به این معناست که o به اشیاء خوشه دیگری غیر از خوشه‌ای که به آن تعلق دارد، نزدیکتر است. این حالت نامطلوب است و باید از بروز آن جلوگیری کرد.

کاربرد

زیست شناسی، زیست شناسی محاسباتی و بیوانفورماتیک

بوم شناسی گیاه و حیوانات

       تجزیه و تحلیل خوشه ای برای توصیف و مقایسه مقادیر مکانی و زمانی جوامع ارگانیسم ها در محیط های ناهمگن استفاده می شود؛ از آن نیز در سیستماتیک گیاه برای تولید phylogenies مصنوعی یا خوشه های ارگانیسم (افراد) در گونه، جنس و یا سطح بالاتر که دارای تعدادی از ویژگی های مشترک است، استفاده می شود.

  Transcriptomics

       خوشه بندی برای ساخت گروهی از ژن ها با الگوی بیان مربوطه به عنوان الگوریتم خوشه بندی HCS استفاده می شود. اغلب این گروه ها حاوی عملکرد پروتئین های مرتبط هستند، مانند آنزیم ها برای یک مسیر خاص، یا ژن هایی که هم تنظیم می شوند. آزمایشات با توان بالا با استفاده از نشانگرهای ترتیبی بیان شده (ESTs) یا میکروآرایه های DNA میتواند یک ابزار قدرتمند برای حاشیه نویسی ژنوم، یک جنبه عمومی ژنومیک باشد.

    تجزیه و تحلیل متوالی

       خوشه بندی برای دسته بندی توالی های همولوگ به خانواده های ژن ،مورد استفاده قرار می گیرد.به طور کلی این مفهوم بسیار مهمی در بیوانفورماتیک و زیست شناسی تکاملی است.

    سیستم عامل های ژنوتایپ با بازده بالا

       الگوریتم خوشه بندی به طور خودکار برای تعیین ژنوتیپ ها استفاده می شود.

   خوشه بندی ژنتیک انسانی

       شباهت داده های ژنتیکی در خوشه بندی برای به دست آوردن ساختار جمعیت استفاده می شود.

پزشکی

   تصویربرداری پزشکی

       در PET، تجزیه خوشه ای می تواند برای تمایز بین انواع مختلف بافت در یک تصویر سه بعدی برای بسیاری از اهداف مختلف مورد استفاده قرار گیرد. [۱۳]

   تجزیه و تحلیل فعالیت ضد میکروبی

       تجزیه خوشه ای می تواند برای تجزیه و تحلیل الگوهای مقاومتی آنتی بیوتیکی، طبقه بندی ترکیبات ضد میکروبی مطابق با مکانیسم عمل آن ها، طبقه بندی آنتی بیوتیک ها بر اساس فعالیت ضد باکتری آنها استفاده شود.

   بخش بندی IMRT

       خوشه بندی می تواند برای تقسیم یک نقشه فلوئنسی به مناطق مجزا برای تبدیل به زمینه های قابل ارائه در پرتودرمانی براساس MLC استفاده شود.

کسب و کار و بازاریابی

   تحقیقات بازار

       تجزیه و تحلیل خوشه ای در تحقیقات بازار به طور گسترده در کار با داده های چندمتغیره از نظرسنجی ها و پانل های آزمایش استفاده می شود. محققان بازار از تحلیل خوشه ای استفاده می کنند تا جمعیت عمومی مصرف کنندگان را به بخش های بازار تقسیم کنند و به درک بهتر روابط بین گروه های مختلف مصرف کنندگان / مشتریان بالقوه و برای استفاده در تقسیم بندی بازار، موقعیت محصول، توسعه محصول جدید و انتخاب تست بازار کمک می کند.

   گروه بندی اقلام خرید

       خوشه بندی را می توان برای دسته بندی تمام اقلام خرید موجود در وب به مجموعه ای از محصولات منحصر به فرد استفاده کرد. به عنوان مثال، تمام اقلام در eBay را می توان به محصولات منحصر به فرد گروه بندی کرد.

وب جهان گستر

   تجزیه و تحلیل شبکه اجتماعی

       در مطالعه شبکه های اجتماعی، خوشه بندی ممکن است برای تشخیص ارتباط جوامع در گروه های بزرگ مردم استفاده شود.

   گروه بندی نتایج جستجو

       در فرایند گروه بندی هوشمند از فایل ها و وب سایت ها، خوشه بندی ممکن است برای ایجاد یک مجموعه مناسب تر از نتایج جستجو در مقایسه با موتورهای جستجوی معمول مانند Google استفاده شود. در حال حاضر تعدادی از ابزارهای خوشه سازی مبتنی بر وب مانند Clusty وجود دارد.

   بهینه سازی نقشه Slippy

       در نقشه Flickr از عکس ها و سایر krai سایت ها از خوشه بندی برای کاهش تعداد نشانگر ها در یک نقشه استفاده شده است. این باعث می شود که هر دو سریعتر و میزان خطای بصری را کاهش دهد.

علوم کامپیوتر

   تکامل نرم افزار

       خوشه بندی در تکامل نرم افزار مفید است، زیرا آن را با اصلاح قابلیت هایی که پراکنده شده است، کمک می کند تا خواص میراث را در کد کاهش دهد. این یک نوع بازسازی است و از این رو، راه مستقیم نگهداری پیشگیرانه است.

   بخش بندی تصویر

       خوشه بندی می تواند برای تقسیم یک تصویر دیجیتال به مناطق مشخص برای تشخیص مرز یا تشخیص شی مورد استفاده قرار گیرد.

   الگوریتم های تکاملی

       خوشه بندی ممکن است برای شناسایی nichهای مختلف در جمعیت یک الگوریتم تکاملی استفاده شود تا فرصت تولید مجد را به طور یکنواخت تر بین گونه ها یا گونه های در حال رشد توزیع کرد.

   سیستم توصیه گر

       سیستم های توصیه شده به منظور توصیف ایتم جدید بر اساس سلیقه کاربر طراحی شده اند. گاهی اوقات از الگوریتم خوشه بندی برای پیش بینی ترجیحات کاربر بر اساس ترجیحات دیگر کاربران در خوشه کاربر استفاده می کنند.

   روش مارکوف مونت کارلو زنجیره ای

       خوشه بندی اغلب برای تعیین مکان و تشخیص اکسترمم در توزیع هدف، مورد استفاده قرار می گیرد.

   تشخیص ناهنجاری

       ناهنجاری ها معمولا - به صراحت یا به طور ضمنی - با توجه به ساختار خوشه ای در داده ها تعریف می شود.

علوم اجتماعی

   تجزیه و تحلیل جرم

      از تجزیه و تحلیل خوشه ای می توان برای شناسایی مناطق که در آن موارد بیشتر از انواع خاصی از جرم وجود دارد استفاده شود. با شناسایی این مناطق متمایز یا "hot spot" که جرم مشابهی در طی یک دوره زمانی اتفاق افتاده است، می توان منابع اجرای قانون را به طور موثرتر مدیریت کرد.

   داده کاوی آموزشی

       به عنوان مثال، تجزیه و تحلیل خوشه ای برای شناسایی گروه های مدارس یا دانشجویانی با ویژگی مشابه استفاده می شود.

   تایپولوژی ها

       در داده های نظرسنجی، پروژه هایی نظیر آنچه که توسط مرکز تحقیقاتی Pew انجام شده، از تجزیه و تحلیل خوشه ای استفاده می کنند تا نوع شناسی عقاید، عادت ها و جمعیت شناسایی را که ممکن است در سیاست و بازاریابی سودمند باشد، شناسایی کند.

و کاربردهای دیگر

   در زمینه رباتیک

       الگوریتم خوشه بندی برای آگاهی موقعیت رباتیک برای ردیابی اشیاء و تشخیص خروجی ها در داده های سنسور استفاده می شود.[۱۴]

   شیمی محاسباتی

       به عنوان مثال، برای پیدا کردن شباهت ساختاری و غیره، به عنوان نمونه، 3000 ترکیب شیمیایی در فضای 90 شاخص توپولوژیکی ،خوشه بندی شدند. [۱۵]

   اقلیم شناسی

       برای پیدا کردن آب و هوایی و یا الگوهای فشار جو در سطح دریا مورد نظر است.[۱۶]

   زمین شناسی نفت

       تجزیه و تحلیل خوشه ای برای بازسازی داده های اصلی ازدست رفته سوراخ پایین یا منحنی های لگاریتمی از دست رفته به منظور بررسی خواص مخزن استفاده می شود.

   جغرافیای فیزیکی

       خوشه بندی خواص شیمیایی در مکان های مختلف نمونه.

جستارهای وابسته

منابع

  1. Tryon، Robert C. (۱۹۳۷). «Correlation Profile Analysis». دریافت‌شده در ۲۰۱۸-۰۶-۲۹. از پارامتر ناشناخته |وب‌گاه= صرف نظر شد (|وبگاه= پیشنهاد می‌شود) (کمک)
  2. D.، Bailey, Kenneth (۱۹۹۴). Typologies and taxonomies : an introduction to classification techniques. Thousand Oaks, Calif.: Sage Publications. OCLC 44963048. شابک ۰۵۸۵۲۱۷۲۰۳.
  3. Cattell, Raymond B. (1943). "The description of personality: basic traits resolved into clusters". The Journal of Abnormal and Social Psychology. 38 (4): 476–506. doi:10.1037/h0054116. ISSN 0096-851X.
  4. ۴٫۰ ۴٫۱ ۴٫۲ Estivill-Castro, Vladimir (2002-06-01). "Why so many clustering algorithms". ACM SIGKDD Explorations Newsletter. 4 (1): 65–75. doi:10.1145/568574.568575. ISSN 1931-0145.
  5. Sculley, D. (2010). "Web-scale k-means clustering". Proceedings of the 19th international conference on World wide web - WWW '10. New York, New York, USA: ACM Press. doi:10.1145/1772690.1772862. ISBN 9781605587998.
  6. Huang, Zhexue (1998). Data Mining and Knowledge Discovery. 2 (3): 283–304. doi:10.1023/a:1009769707641. ISSN 1384-5810 http://dx.doi.org/10.1023/a:1009769707641. {{cite journal}}: Missing or empty |title= (help)
  7. Meilă، Marina (۲۰۰۳). Comparing Clusterings by the Variation of Information. Berlin, Heidelberg: Springer Berlin Heidelberg. صص. ۱۷۳–۱۸۷. شابک ۹۷۸۳۵۴۰۴۰۷۲۰۱.
  8. Stögbauer، Harald؛ Andrzejak، Ralph G.؛ Kraskov، Alexander؛ Grassberger، Peter (۲۰۰۴). Reliability of ICA Estimates with Mutual Information. Berlin, Heidelberg: Springer Berlin Heidelberg. صص. ۲۰۹–۲۱۶. شابک ۹۷۸۳۵۴۰۲۳۰۵۶۴.
  9. Frey, B. J.; Dueck, D. (2007-02-16). "Clustering by Passing Messages Between Data Points". Science. 315 (5814): 972–976. doi:10.1126/science.1136800. ISSN 0036-8075.
  10. Pfitzner, Darius; Leibbrandt, Richard; Powers, David (2008-07-05). "Characterization and evaluation of similarity measures for pairs of clusterings". Knowledge and Information Systems. 19 (3): 361–394. doi:10.1007/s10115-008-0150-6. ISSN 0219-1377.
  11. ۱۱٫۰ ۱۱٫۱ Feldman، Ronen؛ Sanger، James. Visualization Approaches. Cambridge: Cambridge University Press. صص. ۱۸۹–۲۴۱. شابک ۹۷۸۰۵۱۱۵۴۶۹۱۴.
  12. Han, J. , Kamber, M. , & Pei, J. (2011). Data mining: concepts and techniques (3rd ed.). Morgan Kaufmann Publishers
  13. Filipovych, Roman; Resnick, Susan M.; Davatzikos, Christos (2011-02). "Semi-supervised cluster analysis of imaging data". NeuroImage. 54 (3): 2185–2197. doi:10.1016/j.neuroimage.2010.09.074. ISSN 1053-8119. {{cite journal}}: Check date values in: |date= (help)
  14. Bewley, Alex; Shekhar, Rajiv; Leonard, Sam; Upcroft, Ben; Lever, Paul (2011-05). "Real-time volume estimation of a dragline payload". 2011 IEEE International Conference on Robotics and Automation. IEEE. doi:10.1109/icra.2011.5979898. ISBN 9781612843865. {{cite journal}}: Check date values in: |date= (help)
  15. Basak, S.C.; Magnuson, V.R.; Niemi, G.J.; Regal, R.R. (1988-03). "Determining structural similarity of chemicals using graph-theoretic indices". Discrete Applied Mathematics. 19 (1–3): 17–44. doi:10.1016/0166-218x(88)90004-2. ISSN 0166-218X. {{cite journal}}: Check date values in: |date= (help)
  16. Huth, Radan; Beck, Christoph; Philipp, Andreas; Demuzere, Matthias; Ustrnul, Zbigniew; Cahynová, Monika; Kyselý, Jan; Tveito, Ole Einar (2008-12). "Classifications of Atmospheric Circulation Patterns". Annals of the New York Academy of Sciences. 1146 (1): 105–152. doi:10.1196/annals.1446.019. ISSN 0077-8923. {{cite journal}}: Check date values in: |date= (help)