مدل‌های گرافی تصادفی نمایی

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به ناوبری پرش به جستجو

مدل‌های گراف تصادفی نمایی (به انگلیسی: Exponential Random Graph Models) یا مدل‌های *p یکی از مدل‌های خانواده نمایی هستند که برای تحلیل داده‌های شبکه‌ها به خصوص شبکه‌های اجتماعی به کار می‌روند.[۱] استفاده از مدل ERG زمانی مؤثر است که بخواهیم بدون ورود به جزئیات فرایند شکل‌گیری شبکه، مدل شبکه‌ای درست کنیم که تا حد ممکن با ویژگی‌های شبکه مشاهده شده مطابقت داشته باشد. این مدل‌های گراف برای مطالعه ویژگی‌های ساختاری شبکه‌ها و مدل‌های فرایندهایی که روی شبکه‌ها اتفاق می‌افتند، مانند گسترش بیماری واگیر، انتشار اطلاعات، شکل‌گیری نظرات در شبکه‌های اجتماعی و … کاربرد دارند.[۲]

پیشینه تاریخی[ویرایش]

اولین گروه مدل از شبکه‌ها توسط Solomonof و Rapoport در سال ۱۹۵۱ معرفی شد.[۳] در این مدل مجموعه تمام گراف‌های ساده غیر جهت‌دار با تعداد ثابت N گره در نظر گرفته شده که هر جفت گره با احتمال p با یک یال به یکدیگر وصل شده‌اند.[۴][۵] تا کنون این مدل را به نام مدل Bernoulli یا مدل Erdös-Rènyi شناخته شده‌است و در حقیقت اولین مثال از مدل ERG است.

مدل گراف تصادفی نمایی، اوایل دههٔ ۱۹۸۰ توسط Holland و Leinhard مطرح شد.[۶] توسعه‌های بعدی توسط نویسندگان دیگر در دههٔ ۱۹۹۰ ادامه پیدا کرد.[۷] در سال‌های اخیر، تعدادی از فیزیکدانان مطالعه‌های تئوری از جمله[۸][۹][۱۰][۱۱][۱۲][۱۳] در این زمینه انجام داده‌اند.

امروزه، مدل‌های ERG بیشتر در تحلیل شبکه‌های اجتماعی (SNA) استفاده می‌شوند.[۷][۱۴] علاوه بر این جعبه ابزار روش‌ها/مدل‌های شبکه اجتماعی معمولاً به مدل ERG مجهز هستند. به احتمال زیاد این موضوع به دلیل این است که ERGها به عنوان یک ابزار عملی برای مدل کردن هر شبکه پیچیده در نظر گرفته شده‌اند. مخصوصاً اینکه، چند ابزار کامپیوتری استاندارد، مانند بسته ERGM، برای شبیه‌سازی آن‌ها در نظر گرفته شده‌است.[۱۵]

مقدمه[ویرایش]

برای توصیف ویژگی‌های ساختاری یک شبکه مشاهده شده معیارهای بسیاری مانند تراکم، مرکزیت یا جذب وجود دارند. اما این معیارها تنها شبکه مشاهده شده را که فقط یک نمونه از تعداد زیادی شبکه جایگزین ممکن است، توصیف می‏‌کند. مجموعه شبکه‌های جایگزین، ممکن است ویژگی‌های ساختاری مشابه یا متفاوتی داشته باشند. یک مدل آماری در فرآیندهای موثر بر شکل‌گیری ساختار شبکه، باید مجموعه تمام شبکه‌های جایگزین ممکن را با توجه به شباهت آن‌ها به شبکه مشاهده شده در نظر بگیرد[۱].

مدل‌های ERG بیان کننده فرآیندهایی هستند که ویژگی‌های تعیین شده از گراف مشاهده شده را استخراج می‌کنند. این ویژگی‌ها معیارهای شبکه را مشخص می‌کنند. ویژگی‌ها در ERGM تا حدودی متفاوت از مدل‌های آماری سنتی است. در مدل سنتی، داده شامل مجموعه‌ای از مشاهدات است که هر کدام روی تعدادی متغیر مجزا اندازه‌گیری شده‌ است. یک یا تعداد بیشتری از این متغیرها، متغیر پاسخ (وابسته) و بقیهٔ متغیرها به عنوان پیش‌بینی کننده (مستقل) در نظر گرفته می‌شوند. با وجود اینکه این متغیرها ممکن است همبستگی داشته باشند اما به صورت مجزا اندازه‌گیری می‌شوند. در یک شبکه، مشاهدات علاوه بر متغیرهای پاسخ، ویژگی‌های گره را به عنوان متغیر مستقل دربر دارند. اما در ERGM متغیرهای پیش‌بینی کننده عملکرد مستقیم متغیرهای پاسخ هستند، در نتیجه برای گراف مشاهده شده، تنها متغیر پیش‌بینی کننده داریم که پیکربندی‌هایی از گره‌ها مثل مثلث، دوستاره و سه‌ستاره هستند.[۱۶]

چرایی نیاز به مدل ERG[ویرایش]

تخمین شبکه جایگزین به دو دلیل چالش برانگیز است. اول؛ روابط به طور کلی مستقل نیستند، دوم؛ معمولا فقط یک شبکه مشاهده شده داریم. برای حل این چالش‌ها از مدل ERG استفاده می‌کنیم که با در نظر گرفتن وابستگی متقابل بین مولفه‌ها این چالش‌ها را برطرف می‌کند. به طور مثال در شبکه‌های اجتماعی، افراد گره‌های شبکه هستند و ارتباط بین دو گره مستقل از وجود یا عدم وجود ارتباط بین دیگر گره‌ها نیست. مثلا احتمال ارتباط بین دو نفر در شرایطی که دوست مشترک داشته باشند بیشتر می‌شود (وابستگی مارکف). پس برای تخمین یک شبکه اجتماعی باید این وابستگی‌ها را در نظر گرفت و در نتیجه باید از مدل ERG استفاده کرد[۱۷].

وابستگی مارکف

Frank و Strauss در [۱۸] 1986 وابستگی مارکوف را معرفی کردند. این وابستگی بیان می‌کند که اگر گره i و j به یکدیگر متصل باشند؛ این اتصال روی هر اتصال دیگری که شامل i و j است تاثیر می‌گذارد. حتی اگر وضعیت همه‌ی اتصال‌های دیگر در شبکه معلوم باشد. در واقع وابستگی مارکف بیان می‌کند زمانی که دو اتصال بازیگر مشترک دارند، به صورت شرطی وابسته هستند. به عنوان مثال، رابطه بین پیتر و مری ممکن است وابسته به این باشد که آیا مری به جان وابسته است یا خیر (پیتر و جان دشمن همدیگر هستند). در واقع می‌توان گفت به دلیل اینکه گره m (مری) بین روابط احتمال Pim و Pmj مشترک است، بین این دو احتمال رابطه شرطی برقرار است[۱۴].

مدل ERG[ویرایش]

برای ساخت مدل گراف تصادفی نمایی از روی یک شبکه واقعی، نیاز به تعیین ویژگی‌های قابل اندازه‌گیری شبکه است که در مدل نشان داده می‌شوند. این ویژگی‌ها احتمال کلی یک یال در شبکه جهت‌دار و بدون جهت را در نظر می‌گیرد. به‌طور مثال ویژگی‌های زیر می‌توانند برای ساخت مدل استفاده شوند:

شکل [۱]: چند نمونه از ویژگی‌های مدل گراف تصادفی نمایی[۱۴]
  • تعداد یال‌ها (E)
  • دنباله درجه گره‌ها: ki} = k1, k2, . . . kN}
  • متوسط طول کوتاه‌ترین مسیر (l)
  • ضریب خوشه‌بندی (C)تعداد مثلث‌ها یا زیرگراف‌های دیگر مثل دوستاره، سه ستاره،..
  • تراکم: این معیار همان چگالی شبکه است که برابر است با تعداد یال‌های شبکه تقسیم بر (تعداد یال‌های گراف کامل)
  • تعداد مولفه‌های متصل در گراف[۱۹]
  • گره‌های متقابل (mutual): این ویژگی تنها می‌تواند در گراف‌های جهت‌دار استفاده شود و برابر تعداد یال‌هایی است که هم (i → j) و هم (j → i) وجود دارد. یا می‌توان تنها یال‌هایی را شمارش کرد که مربوط به گره خاصی هستند.
  • گره‌های نامتقارن: این ویژگی تنها می‌تواند در گراف‌های جهت‌دار استفاده شود و برابر تعداد یال‌هایی است که یا (i → j) یا (j → i) وجود دارد. یا می‌توان تنها یال‌هایی را شمارش کرد که مربوط به گره خاصی هستند.[۱۶]

ویژگی‌های مشاهده شده را با xi} = x1, x2, . . . xr} و مقادیر اندازه‌گیری شده آن‌ها در شبکه واقعی را با xi } = x1, x2, . . . x*r} نشان می‌دهیم.

پس از تعیین ویژگی‌ها باید مجموعه تمام گراف‌های ممکن که شبکه واقعی می‌تواند داشته باشد را مشخص کرد؛ {g={G. با توجه به کاربردهای مختلف می‌توان گراف‌های ساده، با حلقه، با یال چندگانه، وزن‌دار یا جهت‌دار را در نظر گرفت اما برای سادگی گراف‌های ساده در نظر گرفته می‌شود. در شکل [۲] یک گروه آماری از گراف‌های ساده به عنوان نمونه آورده شده‌ است:

شکل [۲]: تناظر یک به یک بین گراف‌های ساده و ماتریس‌های متقارن با اندازهٔ N و عناصر Aij که می‌توانند ۰ یا ۱ باشند را نشان می‌دهد.[۲]

در مدل گراف تصادفی نمایی، هر گراف G با احتمال (P(G) ∝ eH(G ظاهر می‌شود؛ (H(G گراف همیلتونی است که تعیین‌کننده ویژگی‌های شبکه‌‌های مختلف است. در ERGM توزیع احتمال (P(G به فرم زیر می‌باشد:

که Z تابع پارتیشن نامیده می‌شود و می‌تواند با توجه به شرط نرمال بودن محاسبه شود:

در نتیجه:

اما شبکه همیلتونی را می‌توان به صورت زیر نوشت:

که {(xi(G} مقادیر مشاهدات {xi} برای گراف G هستند و θi} = θ1, θ2, . . . θr} پارامترهای مجموعه گراف‌ها هستند و مقدار x*i که در شبکه واقعی اندازه‌گیری شده‌ است، با متوسط مقدار درون مجموعه گراف مطابقت دارد، یعنی:

برای i = 1, 2, .... , r.[۲]

مثال[ویرایش]

اگر فرض کنیم احتمال یک شبکه به تعداد لینک‌ها، تعداد دو ستاره‌ها، تعداد سه ستاره‌ها و تعداد مثلث‌های آن شبکه بستگی داشته باشد، آنگاه:

در نتیجه:

چالش‌های اصلی ساخت یک مدل ERG[ویرایش]

دو چالش مهم برای ساخت این مدل مطرح است:

  • از چه ویژگی‌هایی استفاده کنیم؟
  • کدام ویژگی‌ها می‌توانند در شرایط خاص استفاده شوند و کدام یک نمی‌توانند؟

برای حل برخی چالش‌ها می‌توان مواردی را در نظر گرفت. به‌طور مثال معمولاً در مدل‌سازی آماری کاربر باید از انتخاب وابستگی‌های خطی بین ویژگی‌ها جلوگیری کند، مثلاً از هر دو ویژگی یال و تراکم در یک مدل استفاده نکند. انتخاب ویژگی‌های مؤثر برای یک مدل ERG بستگی به مفهوم آن شبکه دارد. به همین دلیل از ویژگی‌هایی که در یک زمینه مثلاً شبکه‌های اجتماعی استفاده کرده‌ایم، نمی‌توان برای نشان دادن فرایندها در زمینه دیگری مانند وب غذا استفاده کرد.[۱۶]

ویژگی‌های کلی مدل ERG[ویرایش]

  • مشاهده واحد به جای مشاهدات متوالی
  • شبکه مشاهده شده را با استفاده از ویژگی‌ها به گروه شبکه‌های تصادفی تغییر می‌دهد.
  • همچنان ویژگی‌های آماری مارکوف یا شبه مارکوف را محاسبه می‌کند.
  • می‌تواند هر دو پارامترهای ساختاری و ویژگی را مدل کند.
  • فرضیات و محدودیت‌های هر شبکه برای تخمین‌ها مهم هستند.
  • خطای استاندارد (SE) بهبود یافته‌ است.
  • گام قابل توجه به سمت مدل‌سازی صحیح شبکه‌ها به صورت اتفاقی[۱۶]

مدل‌های ERG یک توزیع احتمالی روی هر شبکه ممکن از n گره را نشان می‌دهد. اندازه مجموعه شبکه‌های ممکن برای یک گراف ساده با سایز n گره، 2n(n-1)/2 است. به دلیل اینکه تعداد شبکه‌های ممکن در مجموعه بسیار بیشتر از تعداد پارامترهایی است که می‌تواند مدل را محدود کند، توزیع احتمالی ایده‌ال است که آنتروپی گبیز را ماکزیمم کند.[۱]

نمایش مدل‌های مختلف شبکه به صورت خانواده نمایی[ویرایش]

وقتی وابستگی متقابل بین نودها وجود داشته باشد، تخمین شکل‌گیری شبکه نمی‌تواند در سطح جفت نودها اتفاق بیفتد بلکه باید کل شبکه را در نظر بگیرد. ERGMs این وابستگی‌ها را در نظر می‌گیرد و بنابراین مدل‌های جامعی برای تخمین شکل‌گیری شبکه هستند. در واقع همان‌طور که به وسیله نظریه قدرتمند Hammersley و Clifford در [۲۰] 1971 نشان داده شده است، فرم نمایی می‌تواند هر مدل گراف تصادفی را در برگیرد و وابستگی‌های دلخواه درون ارتباطات را نیز شامل شود. البته این نظریه برای شبکه‌های بدون جهت و بدون وزن مورد استفاده قرار می‌گیرد. علاوه بر این ERGM انواع مدل‌های شکل‌گیری شبکه استراتژیک (انتخابی) را در نظر می‌گیرد.

در ERGM احتمال مشاهده یک شبکه (G) به بردار ویژگی‌های آن (S(G بستگی دارد و احتمال شبکه متناسب است با:

که β بردار پارامترهای مدل است.

هر مدل شبکه را می‌توان به صورت خانواده نمایی با شمارش ویژگی‌های آماری گراف بیان کرد. در ادامه تبدیل مدل (Erdös-Rènyi G(n,p به خانواده نمایی آورده شده‌ است. در این مدل احتمال یک گراف به احتمال هر یال (p) و تعداد یال‌های درون گراف ((L(G) بستگی دارد. پس:

که (S1(G همان ویژگی آماری گراف است که در اینجا (L(G می‌باشد و β1 پارامتر گراف است. c نیز مقدار ثابت است[۱۷].

مدل کردن شبکه‌های اجتماعی با ERGM[ویرایش]

تکنیک‌های معروف زیادی وجود دارند که ویژگی‌های یک شبکه را از روی گره‌ها یا زیرمجموعه‌‌ای از گره‌ها اندازه‌گیری می‌کنند (مثلا چگالی، مرکزیت و زیرمجموعه‌های همبسته). این تکنیک‌ها برای توصیف و درک ویژگی‌های شبکه خیلی مفید هستند اما برای یافتن یک مدل مناسب از شبکه اجتماعی مشاهده شده، به دلایل زیر می‌توان فراتر از این تکنیک‌ها رفته و به خصوص از مدل‌های آماری استفاده کرد[۱۴]:

  1. به دلیل پیچیدگی رفتارهای اجتماعی، به احتمال زیاد متغیرهایی وجود دارد که بعید است بتوانیم آن‌ها را به درستی شناسایی کنیم، مدل‌های تصادفی این امکان را می‌دهد تا این متغیرها را در نظر بگیریم. همان‌طور که واتس (1999)[۲۱] نشان داده است، "اضافه کردن" مقدار تصادفی کم به یک فرآیند به طور منظم می‌تواند روی ویژگی‌های حاصل تاثیر زیادی بگذارد. در واقع، یک مدل تصادفی باور قطعی نبودن نتایج مشاهده شده را القا می‌کند.
  2. گاهی اوقات، فرآیندهای اجتماعی مختلف می‌توانند ساختارهای شبکه مشابهی را پیش‌بینی کنند و تنها با استفاده از مدل‌سازی دقیق، تفاوت پیش‌بینی‌ها را می‌توان ارزیابی کرد. به عنوان مثال، خوشه‌بندی شبکه‌ها ممکن است یا با توجه به ساختار کلی شبکه و یا با توجه به ویژگی‌های گره‌ها به دست آید. برای تصمیم‌گیری بین دو پیشنهاد، نیاز به مدلی است که هر دو اثر را ترکیب کرده و سپس سهم نسبی هر یک را ارزیابی کند.
  3. با استفاده از شبکه با ساختار پیچیده‌تر، مدل‌ها به صورت مناسب‌تری فرموله شده و کارایی آنها بالا می‌رود. روش‌های قطعی متنوعی برای تجزیه و تحلیل شبکه‌ها وجود دارد، اما بسیاری از آن‌ها برای مدل کردن اطلاعات پیچیده مناسب نیستند. از این رو می‌توان از روش‌های ساده‌تر به همراه متغیرهای تصادفی برای ایجاد مدل استفاده کرد.

منابع[ویرایش]

  1. ۱٫۰ ۱٫۱ ۱٫۲ "Exponential random graph models". Wikipedia. 2019-06-29.
  2. ۲٫۰ ۲٫۱ ۲٫۲ https://arxiv.org/pdf/1210.7828
  3. Solomonoff, Ray; Rapoport, Anatol (1951-06). "Connectivity of random nets". The Bulletin of Mathematical Biophysics. 13 (2): 107–117. doi:10.1007/bf02478357. ISSN 0007-4985. Check date values in: |date= (help)
  4. Erdos P, Renyi A (1959) On random graphs. Publicationes Mathematicae 6:290–297
  5. Erdos P, Renyi A (1960) On the evolution of random graphs. Publications of the Mathematical Institute of the Hungarian Academy of Sciences 5:17–61
  6. Holland, Paul W.; Leinhardt, Samuel (1981-03). "An Exponential Family of Probability Distributions for Directed Graphs". Journal of the American Statistical Association. 76 (373): 33–50. doi:10.1080/01621459.1981.10477598. ISSN 0162-1459. Check date values in: |date= (help)
  7. ۷٫۰ ۷٫۱ Anderson, Carolyn J; Wasserman, Stanley; Crouch, Bradley (1999-01). "A p* primer: logit models for social networks". Social Networks. 21 (1): 37–66. doi:10.1016/s0378-8733(98)00012-4. ISSN 0378-8733. Check date values in: |date= (help)
  8. Burda, Z.; Correia, J. D.; Krzywicki, A. (2001-09-24). "Statistical ensemble of scale-free random graphs". Physical Review E. 64 (4). doi:10.1103/physreve.64.046118. ISSN 1063-651X.
  9. Berg, Johannes; Lässig, Michael (2002-11-11). "Correlated Random Networks". Physical Review Letters. 89 (22). doi:10.1103/physrevlett.89.228701. ISSN 0031-9007.
  10. Burda, Z.; Krzywicki, A. (2003-04-25). "Uncorrelated random networks". Physical Review E. 67 (4). doi:10.1103/physreve.67.046118. ISSN 1063-651X.
  11. Park, Juyong; Newman, M. E. J. (2004-12-07). "Statistical mechanics of networks". Physical Review E. 70 (6). doi:10.1103/physreve.70.066117. ISSN 1539-3755.
  12. Fronczak, Agata; Fronczak, Piotr; Hołyst, Janusz A. (2006-01-10). "Fluctuation-dissipation relations in complex networks". Physical Review E. 73 (1). doi:10.1103/physreve.73.016108. ISSN 1539-3755.
  13. Newman MEJ (2010) Oxford University Press, Oxford, pp 565–588
  14. ۱۴٫۰ ۱۴٫۱ ۱۴٫۲ ۱۴٫۳ Robins, Garry; Pattison, Pip; Kalish, Yuval; Lusher, Dean (2007-05). "An introduction to exponential random graph (p*) models for social networks". Social Networks. 29 (2): 173–191. doi:10.1016/j.socnet.2006.08.002. ISSN 0378-8733. Check date values in: |date= (help)
  15. Hunter, David R.; Handcock, Mark S.; Butts, Carter T.; Goodreau, Steven M.; Morris, Martina (2008). "ergm: A Package to Fit, Simulate and Diagnose Exponential-Family Models for Networks". Journal of Statistical Software. 24 (3). doi:10.18637/jss.v024.i03. ISSN 1548-7660.
  16. ۱۶٫۰ ۱۶٫۱ ۱۶٫۲ ۱۶٫۳ Morris, Martina; Handcock, Mark S.; Hunter, David R. (2008). "Specification of Exponential-Family Random Graph Models: Terms and Computational Aspects". Journal of Statistical Software. 24 (4). doi:10.18637/jss.v024.i04. ISSN 1548-7660.
  17. ۱۷٫۰ ۱۷٫۱ Chandrasekhar, Arun; Jackson, Matthew (2014-7). "Tractable and Consistent Random Graph Models" (PDF). Cambridge, MA. doi:10.3386/w20276. Check date values in: |date= (help)
  18. Frank, Ove; Strauss, David (1986-09). "Markov Graphs". Journal of the American Statistical Association. 81 (395): 832. doi:10.2307/2289017. ISSN 0162-1459. Check date values in: |date= (help)
  19. Handcock, M. S. (2003), Assessing Degeneracy in Statistical Models of Social Networks,Working paper no. 39, Center for Statistics and the Social Sciences, University of Washington-Seattle
  20. Hammersley, J. and P. Clifford (1971): “Markov fields on finite graphs and lattices,” .
  21. Antsaklis, Panos J. (2001). "Large Networks, Small Worlds - Duncan J. Watts: Small Worlds: The Dynamics of Networks between Order and Randomness. (Princeton: Princeton University Press, 1999. Pp. xv, 262. $39.50.)". The Review of Politics. 63 (1): 192–195. doi:10.1017/s0034670500030655. ISSN 0034-6705.