جنگل انزوا

جنگل اِنزِوا (به انگلیسی Isolation Forest) یک روش یادگیری نظارت نشده برای تشخیص داده‌های پَرت است.

یک جنگل انزوا مجموعه‌ای از درخت‌های انزوا (به انگلیسی Isolation Tree) است. هر درخت انزوا در واقع یک درخت دودویی می‌باشد.

به طور خلاصه این الگوریتم فضای دادگان را به کمک خطوطی موازی پایه های متعامد فضا جداسازی می کند و به دادگانی که در قسمت های مختلف این فضا قرار گرفته اند امتیازی برای میزان غیر طبیعی بودن اختصاص می دهد. نحوه ی تخصیص این امتیاز نیز بدین صورت است که دادگانی که به خطوط جداساز کمتری برای قرار گیری در یک خوشه ی جداگانه نیاز دارند امتیاز بیشتری دریافت می کنند.

شکل سمت چپ کاربردی از این الگوریتم را نشان میدهد. در ابن شکل فاصله ی زمانی بین فوران بر حسب زمان هر فوران برای آبفشان مخروطی Old Faithful ^[۱] نشان داده شده است. نواحی قرمز تیره امتیاز ناهنجاری بیشتری را نشان می دهند.

در درخت انزوا داده‌هایی که زودتر از بقیه جدا شوند نزدیک‌تر به ریشهٔ درخت می‌باشند و به این ترتیب احتمال پَرت بودن آن‌ها بیشتر می‌شود. میزان پرت بودن یک داده در یک درخت انزوا به صورت کلی برابر است با تعداد یال‌هایی که باید از ریشهٔ درخت تا گرهٔ برگ (Leaf Node) طی شود؛ بنابراین هرچه این مسیر کوتاه‌تر باشد احتمال پرت بودن داده بیشتر می‌شود. در نهایت جنگل انزوا برای تشخیص پرت بودن میانگین مسیرهای طی شده در هر درخت انزوا برای هر داده را محاسبه می‌کند.^[۲]

تاریخچه[ویرایش]

در یادگیری ماشین، تشخیص ناهنجاری در داده ها یکی از مسائل مهم است. روش های مختلفی برای تشخیص ناهنجاری وجود دارد، اما بسیاری از این روش ها به دلیل نیاز به داده های برچسب خورده و یا تلاش برای تخمین توزیع داده ها، در مواقعی که داده های برچسب خورده کمی در دسترس هستند، مشکل دارند.

این الگوریتم اولین بار در سال 2008 توسط فی تونی لیو و ژی هوا ژو توسعه داده شد.^[۳] در سال 2010 یک نسخه ی دیگری از این الگوریتم به نام سای فارست^[۴] توسعه داده شد تا مسئله ی مربوز به ناهنجاری های خوشه ای و ناهنجاری های موازی با پایه های متعامد فضا را حل کند. این الگوریتم برای تشخیص ناهنجاری در داده های بدون برچسب و با توزیع نامعلوم استفاده می شود.

الگوریتم[ویرایش]

ساختن درخت انزوا[ویرایش]

روند ساختن یک درخت ایزوله از روی یک مجموعهٔ دادهٔ $X=\lbrace x_{1},...,x_{n}\rbrace$ به‌طور خلاصه به ترتیب زیر است:^[۵]

اگر $\left\vert X\right\vert \leq 1$ $\left\vert X\right\vert \leq 1$ یا ارتفاع درخت به یک حد از پیش تعیین شدهٔ $l$ $l$ رسیده باشد:
1. ساختن یک گرهٔ برگ.
در غیر این صورت:
1. انتخاب تصادفی یک ویژگی $q$ (Feature) از میان تمامی ویژگی‌های موجود در مجوعهٔ دادهٔ $X$ .
2. انتخاب کمترین و بیشترین مقدار در ویژگی $q$ به نام‌های $min$ و $max$ .
3. انتخاب تصادفی یک مقدار $p$ بین $min$ و $max$ .
4. ساختن یک گرهٔ داخلی $X_{l}\subseteq X$ به عنوان فرزند چپ درخت به طوری که ویژگی $q$ تمامی عناصر مجموعهٔ $X_{l}$ کمتر از $p$ باشد و فراخوانی دوبارهٔ الگوریتم بر روی این مجموعه از داده‌ها.
5. ساختن یک گرهٔ داخلی $X_{r}\subseteq X$ به عنوان فرزند راست درخت به طوری که ویژگی $q$ تمامی عناصر مجموعهٔ $X_{r}$ بزرگتر یا مساوی $p$ باشد و فراخوانی دوبارهٔ الگوریتم بر روی این مجموعه از داده‌ها.

خصوصیات الگوریتم[ویرایش]

- این الگوریتم پیچیدگی زمانی از مرتبه ی خطی دارد و برای اجرا به حافظه ی کمی نیاز دارد. این موضوع این الگوریتم را برای اجرا روی دادگان حجیم مناسب می سازد.

- جنگل انزوا با استفاده از درخت های تصمیم گیری که به صورت تصادفی ساخته شده اند، ناهنجاری را تشخیص می دهد.

- هر درخت تصمیم گیری در جنگل انزوا، به صورت جداگانه از داده های دیگر ساخته می شود.

- این الگوریتم برای تشخیص ناهنجاری، از مفهوم "ارزش انزوا" استفاده می کند.

- جنگل انزوا به عنوان یک الگوریتم یادگیری نظارت نشده شناخته می شود، به این معنی که از داده های بدون برچسب استفاده می کند.

ساختن جنگل انزوا[ویرایش]

برای ساخت جنگل انزوا، ابتدا باید یک مجموعه داده تهیه شود. سپس به ازای هر درخت تصمیم گیری در جنگل، داده های تصادفی از مجموعه داده انتخاب می شوند. برای ساخت هر درخت، از یک الگوریتم تصمیم گیری مانند CART (Classification and Regression Trees) استفاده می شود. سپس، برای هر نمونه در مجموعه داده، ارزش انزوا محاسبه می شود. در نهایت، با محاسبه میانگین ارزش انزوای هر نمونه، نمونه هایی که بیشترین ارزش انزوا را دارند، به عنوان ناهنجاری ها شناسایی می شوند.

محاسبهٔ امتیاز پرت بودن (Anomaly score)[ویرایش]

برای محاسبه امتیاز پرت بودن یا ناهنجاری، از مفهوم "ارزش انزوا" استفاده می شود. ارزش انزوا برای هر نمونه محاسبه می شود و نشان دهنده میزان انحراف آن نمونه از دیگر نمونه ها است. برای محاسبه ارزش انزوا، ابتدا باید درخت تصمیم گیری ساخته شده را روی داده ها آموزش داد. سپس، برای هر نمونه در مجموعه داده، مسیری که درخت تصمیم گیری برای آن دنبال کرده است، پیدا می شود. سپس با محاسبه میزان انحراف هر نمونه از سایر نمونه ها، ارزش انزوای آن نمونه محاسبه می شود.

خصوصیات جنگل انزوا[ویرایش]

زیرنمونه برداری (Sub-sampling): این الگوریتم نیازی به آن ندارد که همهٔ داده‌های مربوط به مرحلهٔ آموزش (Training) را در اختیار داشته باشد. به همین دلیل تنها یک زیرنمونه از داده‌ها برای آموزش الگوریتم کفایت می‌کند. این در حالی است که اکثر الگوریتم‌ها هرچه داده‌های بیشتری را دراختیار داشته باشند بهتر عمل می‌کنند. به این ترتیب می‌توان گفت که یکی از ویژگی‌های مثبت این الگوریتم زیرنمونه برداری و قابلیت کار کردن با داده‌های کم می‌باشد.^[۶]

جنگل انزوا به دلیل استفاده از درخت های تصمیم گیری، برای داده های با بعد بالا نیز قابل استفاده است.
این الگوریتم دارای قابلیت تشخیص ناهنجاری در داده های بدون برچسب و با توزیع نامعلوم است.
جنگل انزوا دارای پارامترهای قابل تنظیمی است که می تواند تاثیر مستقیم بر دقت الگوریتم داشته باشد.

کاربردها[ویرایش]

- تشخیص ناهنجاری در داده های پزشکی، مانند تصاویر پزشکی و ...

منابع[ویرایش]

↑ «Old Faithful».
↑ Tan, Swee Chuan; Ting, Kai Ming; Liu, Fei Tony (2011). "Fast anomaly detection for streaming data". Proceedings of the Twenty-Second international joint conference on Artificial Intelligence. 2. AAAI Press. pp. 1511–1516. doi:10.5591/978-1-57735-516-8/IJCAI11-254. ISBN 978-1-57735-514-4.
↑ Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (2008-12). "Isolation Forest". 2008 Eighth IEEE International Conference on Data Mining. IEEE. doi:10.1109/icdm.2008.17. {{cite journal}}: Check date values in: |date= (help)
↑ Liu, F.T., Ting, K.M., Zhou, ZH. (2010). On Detecting Clustered Anomalies Using SCiForest. In: Balcázar, J.L., Bonchi, F., Gionis, A., Sebag, M. (eds) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2010. Lecture Notes in Computer Science(), vol 6322. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-15883-4_18. پارامتر |عنوان= یا |title= ناموجود یا خالی (کمک); پیوند خارجی در |ژورنال= وجود دارد (کمک)
↑ Shaffer, Clifford A. (2011). Data structures & algorithm analysis in Java (3rd Dover ed.). Mineola, NY: Dover Publications. ISBN 978-0-486-48581-2. OCLC 721884651.
↑ Hariri, Sahand; Carrasco Kind, Matias; Brunner, Robert J. (2019). "Extended Isolation Forest". IEEE Transactions on Knowledge and Data Engineering: 1. arXiv:1811.02141. doi:10.1109/TKDE.2019.2947676. S2CID 53236735.

[1] «Old Faithful».

[2] Tan, Swee Chuan; Ting, Kai Ming; Liu, Fei Tony (2011). "Fast anomaly detection for streaming data". Proceedings of the Twenty-Second international joint conference on Artificial Intelligence. 2. AAAI Press. pp. 1511–1516. doi:10.5591/978-1-57735-516-8/IJCAI11-254. ISBN 978-1-57735-514-4.

[3] Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (2008-12). "Isolation Forest". 2008 Eighth IEEE International Conference on Data Mining. IEEE. doi:10.1109/icdm.2008.17. {{cite journal}}: Check date values in: |date= (help)

[4] Liu, F.T., Ting, K.M., Zhou, ZH. (2010). On Detecting Clustered Anomalies Using SCiForest. In: Balcázar, J.L., Bonchi, F., Gionis, A., Sebag, M. (eds) Machine Learning and Knowledge Discovery in Databases. ECML PKDD 2010. Lecture Notes in Computer Science(), vol 6322. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-15883-4_18. پارامتر |عنوان= یا |title= ناموجود یا خالی (کمک); پیوند خارجی در |ژورنال= وجود دارد (کمک)

[5] Shaffer, Clifford A. (2011). Data structures & algorithm analysis in Java (3rd Dover ed.). Mineola, NY: Dover Publications. ISBN 978-0-486-48581-2. OCLC 721884651.

[6] Hariri, Sahand; Carrasco Kind, Matias; Brunner, Robert J. (2019). "Extended Isolation Forest". IEEE Transactions on Knowledge and Data Engineering: 1. arXiv:1811.02141. doi:10.1109/TKDE.2019.2947676. S2CID 53236735.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]