تعبیه گراف دانش

از ویکی‌پدیا، دانشنامهٔ آزاد
تاف عبیه‌سازی یک گراف دانش. نمایش برداری موجودیت‌ها و روابط می‌تواند برای مقاصد مختلف یادگیری ماشین استفاده شود.

در یادگیری بازنمایی، تعبیه گراف دانش (معادل Knowledge Graph Embedding یا KGE)، که از آن به عنوان یادگیری بازنمایی دانش (KRL) و یا یادگیری چند رابطه‌ای هم یاد می‌شود،[۱] یک کار یادگیری ماشینی برای یادگیری یک نمایش کم بعدی از موجودیت ها و روابط یک نمودار دانش است. با حفظ معنای معنایی آنها[۲][۳][۴]. نمودارهای دانش (KGs) با استفاده از نمایش تعبیه شده آنها می‌توانند برای کاربردهای مختلفی مانند پیش‌بینی پیوند، طبقه‌بندی سه‌گانه، شناسایی موجودیت، خوشه بندی و استخراج رابطه استفاده شوند.

تعریف[ویرایش]

یک گراف دانش، با نمایش داده می‌شود و مجموعه‌ای‌ از موجودیت‌ها (entity) و روابط (relations) و حقایق (fact) است. یک حقیقت، سه‌گانه‌ای به صورت است که در آن، ارتباطی میان ابتدا یا سر () و انتها یا دم () برقرار می‌کند. طریقه دیگر نشان دادن حقیقت، به صورت است که به این نمادگذاری، چارچوب توصیف منابع (RDF) هم می‌گویند. نمودار دانش، نشان‌دهنده دانش مربوط به یک حوزه خاص است. با استفاده از این نمایش ساختاریافته، می‌توان پس از چند مرحله اصلاح، بخشی از دانش جدید را از آن استنتاج کرد. با این حال، امروزه، مردم برای استفاده از آنها در یک برنامه واقعی باید با پراکندگی داده ها و ناکارآمدی محاسباتی دست و پنجه نرم کنند. تعبیه یک نمودار دانش، هر موجودیت و رابطه یک نمودار دانش () را به بردار با یک بعد معین ( یا بعد تعبیه)، ترجمه می‌کند. مجموعه بردارهای جاسازی شده برای همه موجودیت ها و روابط در نمودار دانش، نمایش متراکم و کارآمدتری از دامنه است که می تواند به راحتی برای بسیاری از وظایف مختلف استفاده شود.

تعبیه گراف دانش با چهار جنبه مختلف مشخص می‌شود:

  1. فضای بازنمایی: فضایی با تعداد بعد کم که موجودیت ها و روابط در آن نمایش داده می‌شوند.
  2. تابع امتیاز دهی: معیار خوب بودن برای نمایش سه گانه تعبیه شده.
  3. مدل‌های رمزگذاری: روشی که در آن بازنمایی تعبیه‌شده موجودیت‌ها و روابط با یکدیگر تعامل دارند.
  4. اطلاعات اضافی: هر گونه اطلاعات اضافی که از نمودار دانش حاصل می‌شود و می‌تواند نمایش تعبیه شده را غنی کند. معمولاً برای هر اطلاعات اضافی، یک تابع امتیازدهی موقت در تابع امتیازدهی عمومی ادغام می‌شود.

فرایند تعبیه[ویرایش]

همه مدل‌های مختلف جاسازی نمودار دانش تقریباً از یک روش برای یادگیری معنای معنایی حقایق پیروی می‌کنند. در ابتدا، برای یادگیری یک نمایش تعبیه شده از یک نمودار دانش، بردارهای تعبیه شده موجودیت ها و روابط به مقادیر تصادفی مقداردهی اولیه می‌شوند. سپس، با شروع از یک مجموعه آموزشی تا رسیدن به یک شرط توقف، الگوریتم به طور مداوم تعبیه‌ها را بهینه می‌کند. معمولاً شرط توقف با اضافه شدن بیش از حد روی مجموعه تمرینی داده می‌شود. برای هر تکرار، یک دسته از اندازه از مجموعه آموزشی نمونه‌برداری می‌شود و برای هر سه‌گانه‌ای از دسته، یک واقعیت خراب تصادفی نمونه برداری می‌شود، (منظور از واقعیت خراب تصادفی، یعنی سه‌گانه‌ای که یک واقعیت درست و واقعی را در نمودار دانش نشان نمی‌دهد.) فساد سه‌گانه شامل جایگزینی سر یا دم (یا هر دو) سه گانه با موجودیت دیگری است که واقعیت را نادرست می کند. سه گانه اصلی و سه گانه خراب در دسته آموزشی اضافه می‌شوند و سپس جاسازی ها به روز می‌شوند و یک تابع امتیازدهی را بهینه می‌کنند. در پایان الگوریتم، تعبیه‌های آموخته شده باید معنای معنایی را از سه‌گانه استخراج کرده و حقایق واقعی را به درستی در نمودار دانش مشاهده نکرده باشند.

شبه کد[ویرایش]

شبه‌ کد برای توصیف رفتار یک KGE به صورت زیر است:[۵][۶]

Algorithm Compute entity and relation embeddings
input: The training set S={(h,r,t)}, entity set E, relation set R, embedding dimension k
output: Entity and relation embeddings 
initialization: the entities e and relations r, embeddings (vectors) are randomly initialized 
while stop condition do 
    S_batch <- sample(S,b) // From the training set randomly sample a batch of size b 
    for each (h,r,t) in S_{batch} do 
        (h',r,t') <- sample(S') // sample a corrupted fact of triple 
        T_{batch} <- T_{batch} union {((h,r,t),(h',r,t'))}}
    end for 
     Update embeddings by minimizing the loss function 
 end while

شاخصه‌های اجرا[ویرایش]

این شاخص‌ها اغلب برای اندازه‌گیری کیفیت تعبیه یک مدل استفاده می‌شوند. سادگی شاخص ها آنها را برای ارزیابی عملکرد یک الگوریتم جاسازی حتی در مقیاس بزرگ بسیار مناسب می کند. با فرض داشتن به عنوان مجموعه‌ای از تمام پیش‌بینی‌های رتبه‌بندی شده یک مدل، می‌توان سه شاخص عملکرد مختلف را تعریف کرد:

Hits@K[ویرایش]

Hits@K یا به طور خلاصه، H@K، یک شاخص عملکرد است که احتمال یافتن پیش‌بینی صحیح را در اولین K پیش‌بینی‌های برتر مدل اندازه‌گیری می‌کند. معمولاً از استفاده می‌شود. Hits@K منعکس کننده دقت یک مدل تعبیه شده برای پیش بینی رابطه بین دو سه‌گانه به درستی است.

Hits@K

مقادیر بالاتر، نشان‌دهنده نتایج پیش‌بینی بهتر است.[۷]

Mean rank (MR)[ویرایش]

میانگین رتبه، میانگین رتبه‌بندی اقلام پیش‌بینی شده توسط مدل در بین تمامی آیتم‌های ممکن است.

مقادیر پایین‌تر، نشان‌دهنده مدل بهتر است.[۷]

Mean reciprocal rank (MRR)[ویرایش]

میانگین رتبه متقابل، تعداد سه گانه های پیش بینی شده درست را اندازه می‌گیرد. اگر اولین سه‌گانه پیش‌بینی شده درست باشد، 1 اضافه می‌شود. اگر دومی درست باشد، اضافه می‌شود و به همین ترتیب تا انتها.

MRR معمولاً برای تعیین کمیت اثر الگوریتم های جستجو استفاده می شود.

مقادیر بالاتر، نشان‌دهنده مدل بهتر است.[۷]

کاربردها[۸][ویرایش]

وظایف یادگیری ماشین[ویرایش]

تکمیل نمودار دانش (KGC) مجموعه‌ای از تکنیک‌ها برای استنتاج دانش از نمایش نمودار دانش تعبیه‌شده است. به طور خاص، این تکنیک یک استنتاج سه‌گانه موجودیت یا رابطه گمشده را تکمیل می‌کند. وظایف فرعی مربوطه، پیش‌بینی پیوند یا موجودیت (یعنی حدس زدن یک موجودیت از جاسازی موجودیت دیگر سه‌گانه و رابطه) و پیش‌بینی رابطه (یعنی پیش‌بینی معقول‌ترین رابطه‌ای که دو موجودیت را به هم متصل می‌کند) نامیده می‌شوند.

طبقه بندی سه‌گانه یک مسئله طبقه‌بندی دودویی است. با فرض داده شدن یک سه‌گانه، مدل آموزش دیده معقول بودن سه‌گانه را با استفاده از تعبیه برای تعیین درست یا نادرست بودن یک سه گانه ارزیابی می‌کند. تصمیم با تابع امتیاز مدل و یک آستانه معین گرفته می‌شود. خوشه‌بندی برنامه دیگری است که از نمایش تعبیه شده یک نمودار دانش پراکنده برای متراکم کردن نمایش موجودیت های معنایی مشابه در یک فضای دو بعدی استفاده می‌کند.

کاربردهای مخصوص دنیای واقعی[ویرایش]

استفاده از جاسازی گراف دانش به طور فزاینده‌ای در بسیاری از کاربردها فراگیر شده است. در مورد سیستم‌های توصیه گر، استفاده از جاسازی نمودار دانش می‌تواند بر محدودیت‌های یادگیری تقویتی معمول غلبه کند. آموزش این نوع سیستم توصیه‌گر نیازمند حجم عظیمی از اطلاعات کاربران است. با این حال، تکنیک‌های نمودار دانش می‌توانند با استفاده از نموداری که قبلاً بر روی دانش قبلی از همبستگی آیتم ساخته شده است و استفاده از تعبیه برای استنباط از آن توصیه، این مسئله را برطرف کند. استفاده مجدد از دارو، استفاده از یک داروی قبلاً تأیید شده است، اما برای یک هدف درمانی متفاوت از آنچه در ابتدا برای آن طراحی شده بود. می توان از وظیفه پیش بینی پیوند برای استنباط جدید بین یک داروی موجود و یک بیماری با استفاده از یک نمودار دانش زیست پزشکی ساخته شده با استفاده از در دسترس بودن ادبیات عظیم و پایگاه های داده زیست پزشکی استفاده کرد. تعبیه نمودار دانش نیز می تواند در حوزه سیاست اجتماعی مورد استفاده قرار گیرد.

مدل‌ها[ویرایش]

با فرض داده‌ شدن مجموعه‌ای از سه‌گانه‌ها (یا حقایق) به صورت ، نمودار تعبیه دانش برای هر موجودیت و رابطه حاضر در داده‌ها، یک نمایش برداری پیوسته می‌سازد، که همان مدل ماست. متناظر با سه‌گانه‌ای با مشخصات و است که بیانگر بعد تعبیه برای موجودیت‌ها و برابر بعد تعبیه برای روابط است. مدل‌ها انواع مختلفی دارند که در ادامه به آنها می‌پردازیم.[۹]

مدل تجزیه تنسور[ویرایش]

تجزیه تنسور خانواده‌ای از مدل‌های تعبیه گراف دانش است که از یک ماتریس چند بعدی برای نشان دادن یک نمودار دانش استفاده می‌کند، که به دلیل شکاف‌های نمودار دانش که یک دامنه خاص را به طور کامل توصیف می‌کند، تا حدی قابل شناخت است.

مدل‌های دو خطی[ویرایش]

این خانواده از مدل‌ها از یک معادله خطی برای تعبیه ارتباط بین موجودیت‌ها از طریق یک رابطه استفاده می‌کنند. به طور خاص، نمایش تعبیه شده روابط، یک ماتریس دو بعدی است.

مدل‌های هندسی[ویرایش]

فضای هندسی تعریف شده توسط این خانواده از مدل‌ها، این رابطه را به عنوان یک تبدیل هندسی بین ابتدا و انتهای یک واقعیت و حقیقت رمزگذاری می‌کند.

مراجع[ویرایش]

  1. Ji, Shaoxiong; Pan, Shirui; Cambria, Erik; Marttinen, Pekka; Yu, Philip S. (2021). "A Survey on Knowledge Graphs: Representation, Acquisition, and Applications". IEEE Transactions on Neural Networks and Learning Systems. PP: 1–21. arXiv:2002.00388. doi:10.1109/TNNLS.2021.3070843. ISSN 2162-237X. PMID 33900922. S2CID 211010433.
  2. Ji, Shaoxiong; Pan, Shirui; Cambria, Erik; Marttinen, Pekka; Yu, Philip S. (2021). "A Survey on Knowledge Graphs: Representation, Acquisition, and Applications". IEEE Transactions on Neural Networks and Learning Systems. PP: 1–21. arXiv:2002.00388. doi:10.1109/TNNLS.2021.3070843. ISSN 2162-237X. PMID 33900922. S2CID 211010433.
  3. Mohamed, Sameh K; Nováček, Vít; Nounu, Aayah (2019-08-01). Cowen, Lenore (ed.). "Discovering Protein Drug Targets Using Knowledge Graph Embeddings". Bioinformatics (به انگلیسی). 36 (2): 603–610. doi:10.1093/bioinformatics/btz600. hdl:10379/15375. ISSN 1367-4803. PMID 31368482.
  4. Lin, Yankai; Han, Xu; Xie, Ruobing; Liu, Zhiyuan; Sun, Maosong (2018-12-28). "Knowledge Representation Learning: A Quantitative Review". arXiv:1812.10901 [cs.CL].
  5. Bordes, Antoine; Usunier, Nicolas; Garcia-Durán, Alberto; Weston, Jason; Yakhnenko, Oksana (May 2013). "Translating embeddings for modeling multi-relational data". Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2. NIPS'13. Lake Tahoe, Nevada: Curran Associates Inc.: 2787–2795.
  6. Dai, Yuanfei; Wang, Shiping; Xiong, Neal N.; Guo, Wenzhong (May 2020). "A Survey on Knowledge Graph Embedding: Approaches, Applications and Benchmarks". Electronics (به انگلیسی). 9 (5): 750. doi:10.3390/electronics9050750.
  7. ۷٫۰ ۷٫۱ ۷٫۲ Chen, Zhe; Wang, Yuehan; Zhao, Bin; Cheng, Jing; Zhao, Xin; Duan, Zongtao (2020). "Knowledge Graph Completion: A Review". IEEE Access. 8: 192435–192456. doi:10.1109/ACCESS.2020.3030076. ISSN 2169-3536. S2CID 226230006.
  8. Cai, Hongyun; Zheng, Vincent W.; Chang, Kevin Chen-Chuan (2018-02-02). "A Comprehensive Survey of Graph Embedding: Problems, Techniques and Applications". arXiv:1709.07604 [cs.AI].
  9. Rossi, Andrea; Barbosa, Denilson; Firmani, Donatella; Matinata, Antonio; Merialdo, Paolo (2020). "Knowledge Graph Embedding for Link Prediction: A Comparative Analysis". ACM Transactions on Knowledge Discovery from Data (به انگلیسی). 15 (2): 1–49. arXiv:2002.00819. doi:10.1145/3424672. ISSN 1556-4681. S2CID 211011226.