پرش به محتوا

راهنما:استخراج آمار از پایگاه داده مدیاویکی

از ویکی‌پدیا، دانشنامهٔ آزاد

دریافت اطلاعات از ویکی‌پدیا به دو روش انجام می‌شود:

  1. دریافت اطلاعات از دیتابیس که توسط اشتراک تول‌سرور یا دانلود دیتابیس ویکی‌پدیا مقدور است.
  2. دریافت اطلاعات از نرم‌افزار مدیاویکی توسط API:Query که از طریق پنجرهٔ نشانی (URL BAR) مرورگرها مقدور می‌باشد.

این راهنما برای استخراج اطلاعات به روش اول طراحی شده‌است. برای استخراج آمار و اطلاعات به روش دوم، ویکی‌پدیا:استخراج آمار از مدیاویکی را مطالعه نمائید.

مقدمه

[ویرایش]

در ابتدا برای آشنایی با ربات‌ها و فعال‌سازی حساب تول‌سرور شروع کار با ربات پایتون و شروع کار با تول‌سرور را مطالعه نمایید.

تول‌سرور به مجموعه کامپیوترهایی گفته می‌شود که ویکی‌پدیا بر روی آنها ذخیره و پردازش می‌گردد این کامپیوترها علاوه بر ویکی‌پدیا به کاربرهای حرفه‌ای خدمات و اشتراک‌هایی می‌دهند تا آنها نیز بتوانند در پیشبرد پروژه ویکی‌پدیا و بنیاد ویکی‌مدیا کمک کنند.

دیتابیس تول‌سرور بر پایه نرم‌افزار Mysql بنا شده‌است. برای استفاده از اطلاعات این دیتابیس نیاز به دانستن زبان Mysql و همچنین داشتن حساب کاربری در تول‌سرور است.

اتصال به دیتابیس تول سرور با حساب کاربری

[ویرایش]
  • برای آشنایی با دیتابیس تول‌سرور به این نشانی مراجعه نمایید.

ابزار کوئری‌گیری

[ویرایش]

اگر حسابی در آزمایشگاه لبز ندارید می‌توانید از این ابزار برای گرفتن کوئری‌های زیر استفاده کنید.

روش کار
  • به سامانه به کمک حساب کاربریتان در وب‌گاه مدیاویکی وارد شوید.
  • در بخش کوئری در ابتدا متن زیر و پس از آن کوئری‌هایی که در پائین هستند یا کوئری مورد نظر خودتان را بنویسد و در نهایت نتیجهٔ کوئری را با پسوند مورد نظرتان دانلود کنید.
USE fawiki_p;
نکته ۱

در متن بالا به ابزار می‌گویید از کدام دیتابیس استفاده کند مثلا برای

  • ویکی انگلیسی
USE enwiki_p;
  • ویکی‌انبار
USE commonswiki_p;
  • ویکی‌واژه فارسی
USE fawiktionary_p;
نکته ۲

برای کوئری‌های دیگر می‌توانید از اینجا موارد دیگر را مشاهده کنید.

معرفی tableهای موجود در تول‌سرور

[ویرایش]
تیبل‌های ورژن ۱.۲۸ مدیاویکی

برای اطلاع از table های تول سرور به این نشانی مراجعه نمایید.

استخراج آمار یا Queries

[ویرایش]

برای مشاهده کدهای کاربردی به این نشانی مراجعه نمایید.

بهینه‌سازی کوئری

[ویرایش]

برای بهینه کردن کوئری و افزایش سرعت موارد زیر، تاثیرگذارند:

  • قرار دادن شرط بعد از join on به جای where
select page_title
from page
join revision on page_id = rev_page 
where
      page_title not like '%/%' 
      and page_namespace = 10 
      and page_is_redirect = 0

بشود:

select page_title
from page
join revision on page_id = rev_page and page_title not like '%/%' and page_namespace = 10 and page_is_redirect = 0
  • کوچک کردن table به کمک شرط‌هایی مانند بازه زمانی، فضای نام و...

کوئری‌گیری از سرور

[ویرایش]

برای کوئری گرفتن از تول‌لبز یا تول‌سرور و ذخیره آن در فایل متنی result.txt به روش زیر عمل کنید:

sql fawiki < oursql.sql > result.txt
نکته۱

مثال فوق برای ویکی‌فا است برای انگلیسی enwiki_p و برای دیگر ویکی‌ها به همین نحو.

نکته۲

در مثال فوق oursql.sql نام فایل متنی است که کد اس‌کیوال در آن ذخیره شده‌است مانند کدهایی که در بخش بعدی مشاهده می‌کنید.

کوئری با jsub
jsub -l release=trusty -once -N foo_sql -mem 1g -o result.txt  -i /data/project/Yourbot/oursql.sql  sql fawiki_p

کوئری‌گیری با استفاده از ربات

[ویرایش]

اگر دارای حسابی در لبز باشید، با استفاده از ربات آمارگیر می‌توانید کل پروسهٔ استخراج آمار از پایگاه داده و ذخیرهٔ آن در ویکی‌پدیا را یکجا و به سادگی انجام دهید. به عنوان مثال، برای گرفتن فهرست همهٔ مقاله‌هایی که در عنوانشان واژهٔ «کتاب» وجود دارد، و ذخیره کردن نتیجهٔ آن در ویکی‌پدیا:گزارش دیتابیس/مقاله‌های کتاب می‌توانید دستور زیر را (پس از افزودن کد ربات به شاخهٔ scripts ربات‌تان) اجرا کنید:

python pwb.py stats -sql:"SELECT page_title FROM page WHERE page_namespace = 0 AND page_is_redirect = 0 AND page_title LIKE '%_کتاب_%'" -out:"ویکی‌پدیا:گزارش دیتابیس/مقاله‌های کتاب" -cols:"عنوان" -summary:"به روز کردن آمار مقاله‌های کتاب"

این دستور فهرست را از پایگاه داده گرفته و نتیجه را به صورت جدولی در صفحهٔ یادشده ذخیره خواهد کرد.

قالب خروجی

[ویرایش]

کد ربات آمار اجازه می‌دهد که شما قالب (فرمت) خروجی را تعیین کنید. برای مثال به دستور زیر نگاه کنید:

python ~/core/pwb.py stats -sql:"SELECT page_id, page_namespace, page_title FROM page ORDER BY page_id DESC LIMIT 10" -out:"وپ:گودال" -cols:"شناسه,عنوان" -summary:"آزمایش ربات آمار" -frmt:"| {{formatnum:%s}} || [[{{ns:%s}}:%s]]"

خروجی کوئری بالا سه ستون دارد (page_id و page_namespace و page_title). پارامتر frmt مشخص می‌کند که این سه باید به این شکل استفاده شوند: | %s || [[الگو:Ns:%s:%s]]

نویسهٔ اول (|) برای شروع ردیف در جدول است. در ادامه با استفاده از formatnum رشتهٔ اولی (که شناسهٔ صفحه یا page_id است) با ارقام فارسی نمایش می‌یابد، و بعد با استفاده از دستور ns و پارامتر دوم (که شمارهٔ فضای نام صفحه است) پیشوند مناسب (نظیر [[الگو: یا [[بحث کاربر) قبل از نام صفحه اضافه می‌شود و بعد پارامتر سوم که عنوان صفحه‌است نمایش می‌باید. محصول کار چیزی شبیه به | {{formatnum:3425175}} || [[{{ns:10}}:Chinese_name/توضیحات]] خواهد بود که به صورت ردیفی از جدول مانند زیر نمایش می‌باید:

۳٬۴۲۵٬۱۷۵ الگو:Chinese_name/توضیحات

اجرای دوره‌ای

[ویرایش]

برای آن که آمارها به صورت دوره‌ای (مثلاً هفته‌ای یک بار) به روز شوند، می‌توان از کرون جاب استفاده کرد. در لبز از رویکرد رایانش مشبک برای اجرای این قبیل کارها استفاده می‌شود به این شکل که ابتدا با دستور jsub کار را فرا می‌خوانید و بعد این دستور jsub را به crontab می‌دهید تا در بازه‌های زمانی مشخص اجرا کند. توضیحات بیشتر در wikitech:Help:Tool_Labs/Grid#Scheduling_jobs_at_regular_intervals_with_cron آمده‌است.

مشکل رویکرد بالا آن است که دست کم در حال حاضر، jsub قادر نیست پارامترهایی که متن یونیکد دارند را به درستی پردازش کند. اگر بخواهید ربات stats.py را مستقیماً، یا حتی از درون یک اسکریپت پوسته، فراخوانی بکنید می‌بایست پارامترهایی نظیر اسم صفحهٔ خروجی (out) را به آن بدهید که معمولاً حاوی نویسه‌های یونیکد هستند. لذا این روش به طور مستقیم (مثلاً از طریق jsub python .../pwb.py stats -out:"..." ...) قابل اجرا نیست.

از آن‌جا که ربات آمارگیر به صورت ماژول طراحی شده، شما می‌توانید به سادگی این مشکل را با ایجاد یک ماژول دیگر حل کنید. در زیر کد یک ماژول به اسم weekly را می‌بینید که ابتدا ماژول stats را فرا می‌خواند، پارامترهای دلخواه را به آن می‌دهد، و سپس آن را اجرا می‌کند.

#!/usr/bin/python
# -*- coding: utf-8  -*-
"""
weekly.py - a wrapper for stats.py to be called every week.

usage:

    python pwb.py weekly
"""
#
# (C) Pywikibot team, 2006-2014
# (C) w:fa:User:Huji, 2015
#
# Distributed under the terms of the MIT license.
#
from __future__ import unicode_literals

#

import pywikibot
from scripts import stats


def main():
    sql = "SELECT page_id, page_namespace, page_title from page limit 20"
    out = 'User:Huji/sandbox'
    cols = [u'شناسه', u'صفحه']
    summary = 'Weekly bot test'
    pref = ''
    frmt = '| %s || [[{{ns:%s}}%s]]'
    bot = stats.StatsBot(sql, out, cols, summary, pref, frmt)
    bot.run()

if __name__ == "__main__":
    main()

وقتی این ماژول را در scripts/weekly.py ذخیره کردید می‌توانید دستور python foo/bar/pwb.py weekly را در یک اسکریپت پوسته (مثلاً به اسم weekly.sh) ذخیره کنید و بعد وظیفه را با استفاده از دستوری نظیر jsub -once -mem 1g -o ~/err/weekly.out -e ~/err/weekly.err weekly.sh تعریف کنید. حال این وظیفه می‌تواند از طریق کرون جاب به صورت هفتگی تعریف بشود.

پس به طور خلاصه: هر هفته کرون دستور jsub را اجرا می‌کند، دستور jsub اسکریپت weekly.sh را اجرا می‌کند و به آن مقدار مناسب حافظه تخصیص می‌دهد، اسکریپت weekly.sh به نوبهٔ خود ماژول weekly.py را صدا می‌کند که آن هم به نوبهٔ خود، یک یا چند بار ربات آمارگیر stats.py را با پارامترهای مناسب فرا می‌خواند. در انتهای این پروسه تمام آمارهای هفتگی (که در weekly.py تعریف کرده‌اید) به روز خواهند شد.

نمونه کوئری‌ها

[ویرایش]

برای آشنایی با تعدادی از کدهای اس‌کیوال و همچنین دستورهای کاربردی در خط فرمان تول‌سرور به این نشانی مراجعه نمایید.

مقاله‌ها

[ویرایش]

مقاله‌هایی که عنوانشان حاوی واژهٔ خاصی است

[ویرایش]

فهرست ۵۰۰ مقاله‌ای که در نام آنها عبارت کتاب هست برای رده باید page_namespace = 14 قرار داد.

SELECT page_title
FROM page
WHERE page_namespace = 0
    AND page_is_redirect = 0
    AND page_title LIKE "%_کتاب_%" LIMIT 500;

تعداد ویرایش‌های مشکوک به خرابکاری (واگردانی + گزینهٔ ویرایش خرابکارانهٔ ابزارها)

[ویرایش]

مواردی که شامل وپ:خرابکاری است.

USE fawiki_p;
SELECT page_title, rev_user_text, comment_text, rev_timestamp
FROM revision JOIN page join comment  ON rev_page=page_id and rev_comment_id=comment_id
WHERE page_namespace = 0
AND (
  comment_text LIKE 'ویرایش%به_آخرین_تغییری_که%انجام_داده_بود%'
  OR comment_text LIKE '%خرابکاری%خنثی‌سازی%وپ:توینکل%'
  OR comment_text LIKE '%خرابکاری%خنثی‌سازی%وپ:تل%'
  OR comment_text LIKE '%خنثی‌سازی%به_آخرین_نسخهٔ%وپ:توینکل%'
  OR comment_text LIKE '%خنثی‌سازی%به_آخرین_نسخهٔ%وپ:تل%'
  OR comment_text LIKE '%ویرایش%خرابکارانهٔ%به_آخرین_ویرایش%'
  OR comment_text LIKE '%ویرایش%خرابکارانهٔ%بحث%واگردانی_شد%'
  OR comment_text LIKE '%خرابکاری%به_نسخهٔ%واگردانده_شد.%'
)
AND NOW() - INTERVAL 24 HOUR < rev_timestamp;

تعداد برگرداندن مقاله با فرض حسن نیت

[ویرایش]
مواردی که کاربر حسن نیت داشته.
USE fawiki_p;
SELECT page_title, rev_user_text, comment_text, rev_timestamp
FROM revision JOIN page join comment  ON rev_page=page_id and comment_text_id=comment_id
WHERE page_namespace = 0
AND (
  comment_text LIKE '%خنثی‌سازی_ویرایش%توسط%'
  OR comment_text LIKE '%ویرایش%به_وسیلهٔ_[[ویکی‌پدیا:تفاوت_سریع|تفاوت_سریع]]_خنثی_شد.%'

  OR comment_text LIKE '%آخرین_تغییر_متن_رد_شد%و_برگردانده_شد_به_نسخهٔ%'
  OR comment_text LIKE '%تغییر_آخر_متن_رد_شد%و_برگردانده_شد_به_نسخهٔ%'
  OR comment_text LIKE '%آخرین%تغییر_متن_رد_شد_و_برگردانده_شد_به_نسخهٔ%'
  
  OR comment_text LIKE '%خنثی‌سازی%وپ:توینکل%'
  OR comment_text LIKE '%خنثی‌سازی%وپ:تل%'
  OR comment_text LIKE '%برگردانده%وپ:توینکل%'
  OR comment_text LIKE '%برگردانده%وپ:تل%'
  OR comment_text LIKE '%به_نسخهٔ%ویرایش%واگردانده_شد%وپ:توینکل%'
  OR comment_text LIKE '%به_نسخهٔ%ویرایش%واگردانده_شد%وپ:تل%'
  OR comment_text LIKE '%با_فرض_حسن_نیت%ویرایش%'
  OR comment_text LIKE '%ویرایش‌های%با_فرض_حسن_نیت%خنثی‌سازی_شد%'
  OR comment_text LIKE '%ویرایش%بحث%خنثی‌سازی_شد:%'
  OR comment_text LIKE '%ویرایش%بحث%واگردانی_شد%'
  OR comment_text LIKE '%ویرایش‌های%با_فرض_حسن_نیت%واگردانده_شد%'
  OR comment_text LIKE '%واگردانی_به_نسخهٔ%وپ:توینکل%'
  OR comment_text LIKE '%واگردانی%ویرایش%وپ:توینکل%'
  OR comment_text LIKE '%تغییرات%به_نسخهٔ%واگردانده_شد%'
  OR comment_text LIKE '%واگردانی_به_نسخهٔ%تاریخ%توسط%'
 
  OR comment_text LIKE '%واگردانی_ویرایش‌های%وپ:هاگ%'
  OR comment_text LIKE '%برگرداندن_ویرایش‌های%وپ:هاگ%'
)
AND (
  comment_text NOT LIKE '%خرابکاری%خنثی‌سازی%وپ:توینکل%'
  AND comment_text NOT LIKE '%خرابکاری%خنثی‌سازی%وپ:تل%'
  AND comment_text NOT LIKE '%خنثی‌سازی%به_آخرین_نسخهٔ%وپ:توینکل%'
  AND comment_text NOT LIKE '%خنثی‌سازی%به_آخرین_نسخهٔ%وپ:تل%'
  AND comment_text NOT LIKE '%ویرایش%خرابکارانهٔ%بحث_کاربر:%واگردانی_شد%'
)
AND NOW() - INTERVAL 24 HOUR < rev_timestamp;

تعداد ویرایش‌های آسیب زننده (مجموع ۲ حالت بالا)

[ویرایش]

ویرایش‌های آسیب‌زننده مواردی که عمدی یا سهوی ویرایشی انجام شده که نباید در مقاله باشد و منظور صرفاً وپ:خرابکاری نیست.

USE fawiki_p;
SELECT page_title, rev_user_text, comment_text, rev_timestamp
FROM revision JOIN page join comment  ON rev_page=page_id and rev_comment_id=comment_id
WHERE page_namespace = 0
AND (
  comment_text LIKE '%خنثی‌سازی_ویرایش%توسط%'
  OR comment_text LIKE '%ویرایش%به_وسیلهٔ_[[ویکی‌پدیا:تفاوت_سریع|تفاوت_سریع]]_خنثی_شد.%'

  OR comment_text LIKE '%آخرین_تغییر_متن_رد_شد%و_برگردانده_شد_به_نسخهٔ%'
  OR comment_text LIKE '%تغییر_آخر_متن_رد_شد%و_برگردانده_شد_به_نسخهٔ%'
  OR comment_text LIKE '%آخرین%تغییر_متن_رد_شد_و_برگردانده_شد_به_نسخهٔ%'
  
  OR comment_text LIKE '%خنثی‌سازی%وپ:توینکل%'
  OR comment_text LIKE '%خنثی‌سازی%وپ:تل%'
  OR comment_text LIKE '%برگردانده%وپ:توینکل%'
  OR comment_text LIKE '%برگردانده%وپ:تل%'
  OR comment_text LIKE '%به_نسخهٔ%ویرایش%واگردانده_شد%وپ:توینکل%'
  OR comment_text LIKE '%به_نسخهٔ%ویرایش%واگردانده_شد%وپ:تل%'
  OR comment_text LIKE '%با_فرض_حسن_نیت%ویرایش%'
  OR comment_text LIKE '%ویرایش‌های%با_فرض_حسن_نیت%خنثی‌سازی_شد%'
  OR comment_text LIKE '%ویرایش%بحث%خنثی‌سازی_شد:%'
  OR comment_text LIKE '%ویرایش%بحث%واگردانی_شد%'
  OR comment_text LIKE '%ویرایش‌های%با_فرض_حسن_نیت%واگردانده_شد%'
  OR comment_text LIKE '%واگردانی_به_نسخهٔ%وپ:توینکل%'
  OR comment_text LIKE '%واگردانی%ویرایش%وپ:توینکل%'
  OR comment_text LIKE '%تغییرات%به_نسخهٔ%واگردانده_شد%'
  OR comment_text LIKE '%واگردانی_به_نسخهٔ%تاریخ%توسط%'
  
  OR comment_text LIKE '%واگردانی_ویرایش‌های%وپ:هاگ%'
  OR comment_text LIKE '%برگرداندن_ویرایش‌های%وپ:هاگ%'
  

  OR comment_text LIKE 'ویرایش%به_آخرین_تغییری_که%انجام_داده_بود%'
  OR comment_text LIKE '%خرابکاری%خنثی‌سازی%وپ:توینکل%'
  OR comment_text LIKE '%خرابکاری%خنثی‌سازی%وپ:تل%'
  OR comment_text LIKE '%خنثی‌سازی%به_آخرین_نسخهٔ%وپ:توینکل%'
  OR comment_text LIKE '%خنثی‌سازی%به_آخرین_نسخهٔ%وپ:تل%'
  OR comment_text LIKE '%ویرایش%خرابکارانهٔ%به_آخرین_ویرایش%'
  OR comment_text LIKE '%ویرایش%خرابکارانهٔ%بحث%واگردانی_شد%'
  OR comment_text LIKE '%خرابکاری%به_نسخهٔ%واگردانده_شد.%'
)

AND NOW() - INTERVAL 24 HOUR < rev_timestamp;

مقالات گشت زده شده در ۲۴ ساعت اخیر

[ویرایش]
USE fawiki_p;
SELECT distinct log_title
    FROM actor JOIN logging ON log_actor = actor_id LEFT JOIN user_groups ON log_actor = ug_user AND ug_group = 'bot'
    WHERE log_type ='patrol'
    AND log_action='patrol'
    AND (
      log_params LIKE '%auto";i:0;}'
      OR log_params LIKE '%0'
      )
    AND log_title IN (
      SELECT page_title
      FROM page
      WHERE page_namespace = 0
    )
    AND ug_group IS NULL
    AND NOW() - INTERVAL 1 DAY <log_timestamp
    GROUP BY log_title;
--AND CURRENT_TIMESTAMP - log_timestamp < 00000001000000;
/*AND log_timestamp > '20140101000000'
AND log_timestamp < '20171028000000';*/

مقاله گشت‌زده شده و آی‌دی نسخه ویرایش

[ویرایش]
USE fawiki_p;
SELECT  log_title, REGEXP_SUBSTR (REGEXP_SUBSTR (log_params,'s:8:"4::curid";s:8:"([0-9]+)"') ,'[0-9]{3,}' ) ,log_params,actor_name
    FROM actor JOIN logging ON log_actor = actor_id Join  revision on log_page=rev_page LEFT JOIN user_groups ON log_actor = ug_user AND ug_group = 'bot'
    
    WHERE log_type ='patrol'
    AND log_action='patrol'
    AND (
      log_params LIKE '%auto";i:0;}'
      OR log_params LIKE '%0'
      )
    AND log_title IN (
      SELECT page_title
      FROM page
      WHERE page_namespace = 0
    )
    AND ug_group IS NULL
    AND NOW() - INTERVAL 1 DAY <log_timestamp
    GROUP BY log_title;

مقالات بر پایهٔ تعداد واگردانی یا خنثی‌سازی

[ویرایش]
USE fawiki_p;
SELECT page_title, count(comment_text)
FROM revision join page join comment  ON rev_page=page_id and comment_text_id=comment_id
WHERE page_id=rev_page and page_namespace=0 
and (comment_text LIKE '%واگردان%' or comment_text LIKE '%خنثی%') GROUP BY page_title  ORDER BY count(comment_text) DESC limit 20000;

مقالاتی که در عنوانشان عدد لاتین باشد

[ویرایش]
SELECT page_title
FROM page
WHERE page_namespace = 0
    AND page_is_redirect = 0
    AND (
        (page_title LIKE "%1%")
        OR (page_title LIKE "%2%")
        OR (page_title LIKE "%3%")
        OR (page_title LIKE "%4%")
        OR (page_title LIKE "%5%")
        OR (page_title LIKE "%6%")
        OR (page_title LIKE "%7%")
        OR (page_title LIKE "%8%")
        OR (page_title LIKE "%9%")
        OR (page_title LIKE "%0%")
        );

مقاله‌هایی که هیچ ویکی‌پیوندی دریافت نکرده‌اند

[ویرایش]

مقاله‌هایی که هیچ پیوندی ندارند و از نظر تعداد ویکی‌پدیا آنها را به عنوان مقاله درنظر نمی‌گیرد!

SELECT page_title
FROM page
LEFT JOIN pagelinks ON pl_from = page_id
WHERE page_namespace = 0
    AND page_is_redirect = 0
    AND pl_namespace IS NULL
GROUP BY page_id;

مقالات دارای میان‌ویکی به فضای نام متفاوت

[ویرایش]

مقالاتی که میان‌ویکی‌شان به فضای نام دیگری است!

SELECT /*SLOW OK */ page_title,
    page_namespace,
    ll_title
FROM page
INNER JOIN langlinks ON page_id = ll_from
WHERE page_namespace = 0
    AND page_is_redirect = 0
    AND ll_lang = 'en'
    AND (
        (ll_title LIKE "%Template:%")
        OR (ll_title LIKE "%Category:%")
        OR (ll_title LIKE "%Wikipedia:%")
        OR (ll_title LIKE "%Portal:%")
        OR (ll_title LIKE "%User:%")
        OR (ll_title LIKE "%talk:%")
        OR (ll_title LIKE "%Talk:%")
        )
GROUP BY page_id;

مقالات موجود در ویکی‌پدیای عربی که در ویکی‌فا نیستند

[ویرایش]

مقالاتی که در ویکی‌پدیای عربی موجودند در ویکی‌فا نیستند. این کد باید بر روی arwiki_p رانده شود.

SELECT CONCAT (
        ":",
        page_title,
        "]]||",
        count(*),
        "||",
        page_len
        )
FROM langlinks
INNER JOIN page ON ll_from = page_id
WHERE page_namespace = 0
    AND page_is_redirect = 0
    AND NOT EXISTS (
        SELECT *
        FROM langlinks AS t
        WHERE t.ll_lang = "fa"
            AND t.ll_from = langlinks.ll_from
        )
GROUP BY ll_from
ORDER BY count(*) DESC,
    page_title limit 2000;

مقاله‌های فیلم ویکی انگلیسی با بیش از ۲۰ میان‌ویکی که در ویکی‌فا نیستند

[ویرایش]

کوئری فیلم‌های ناموجود در ویکی‌پدیای فارسی دارای بیش از ۲۰ میان‌ویکی برای اجرا در دیتابیس ویکی‌پدیای انگلیسی

SELECT /*SLOW OK*/ page_title
FROM page
WHERE page_id IN (
        SELECT tl_from
        FROM templatelinks
        JOIN linktarget on tl_target_id = lt_id
        WHERE lt_title = "Infobox_film"
            AND lt_namespace = 10
            AND tl_from IN (
                SELECT ll_from
                FROM langlinks
                WHERE ll_from
                GROUP BY ll_from
                HAVING COUNT(*) > 20
                )
            AND tl_from NOT IN (
                SELECT ll_from
                FROM langlinks
                WHERE ll_lang = "fa"
                )
        );

مقاله‌های دارای نویسهٔ انگلیسی در عنوان که ابهام‌زدایی نیستند

[ویرایش]

عنوان‌های مقاله‌های ویکی‌پدیای فارسی که دارای نویسهٔ انگلیسی هستند ولی ابهام‌زدایی نیستند:

SELECT page_title
FROM page
WHERE page_namespace = 0
    AND page_is_redirect = 0
    AND page_title REGEXP '[A-Za-z]'
    AND page_id NOT IN (
        SELECT pp_page
        FROM page_props
        WHERE pp_propname = 'disambiguation'
        );

مقالات بدون رده

[ویرایش]
SELECT page_title
FROM page
LEFT JOIN categorylinks ON cl_from = page_id
WHERE page_namespace = 0
    AND page_is_redirect = 0
    AND ISNULL(cl_from);

روستاهای بدون میان‌ویکی به ویکی انگلیسی

[ویرایش]
SELECT /*SLOW OK*/ page_title
FROM page
WHERE page_id IN (
        SELECT tl_from
        FROM templatelinks
        WHERE tl_title = "جعبه_اطلاعات_روستای_ایران"
            AND tl_namespace = 10
            AND tl_from NOT IN (
                SELECT ll_from
                FROM langlinks
                WHERE ll_lang = "en"
                )
        );

مقاله‌های دارای پیوند به ویکی‌پدیای انگلیسی بدون میان‌ویکی en

[ویرایش]
USE fawiki_p;
SELECT DISTINCT page_title
FROM page join externallinks
WHERE page_namespace = 0 and el_from=page_id AND el_index LIKE'%en.wikipedia.org%' AND page_id NOT IN (
                SELECT ll_from
                FROM langlinks
                WHERE ll_lang = "en"
                );

برای مقالات روستاهای ویکی انگلیسی که میان‌ویکی فارسی ندارند

[ویرایش]
SELECT /*SLOW OK*/ page_title
FROM page
WHERE page_id IN (
        SELECT tl_from
        FROM templatelinks
        WHERE tl_title = "IranCensus2006"
            AND tl_namespace = 10
            AND tl_from NOT IN (
                SELECT ll_from
                FROM langlinks
                WHERE ll_lang = "fa"
                )
        );

مقالات ساخته‌شده با ابزار به‌ویکی‌فا

[ویرایش]

تعداد مقالاتی که به وسیلهٔ ابزار وپ:به ویکی‌فا ساخته شده‌است!

SELECT count(*)
FROM revision join comment  ON rev_comment_id=comment_id
WHERE comment_text LIKE '%به ویکی‌فا%';

تعداد مقالات اصلاح شده با ابزار اشتباه‌یاب

[ویرایش]
USE fawiki_p;
SELECT count(*)
FROM revision join comment  ON  rev_comment_id=comment_id
WHERE comment_text LIKE '%⟸%';

مقالاتی که کمتر از ۳ رده دارند

[ویرایش]
USE fawiki_p;
select page_title from page where page_namespace = 0 and page_is_redirect = 0
and page_id in (select cl_from from categorylinks group by cl_from having count(*) < 3) limit 10;

مقالاتی که بیشترین «پیوند به» دارند

[ویرایش]
USE fawiki_p;
SELECT DISTINCT pl_title,COUNT(pl_from)
from pagelinks 
WHERE pl_namespace = 0 and pl_from_namespace=0
	GROUP BY pl_title
	ORDER BY COUNT(pl_from) DESC limit 10;

مقالاتی که جعبه ندارند و به ویکی‌پدیای انگلیسی پیوند دارند

[ویرایش]
USE fawiki_p;
SELECT /*SLOW OK*/ page_title
FROM page
WHERE page_namespace = 0 and page_is_redirect = 0 and page_id not IN (
        SELECT tl_from
        FROM templatelinks
        WHERE tl_title = "Infobox" AND tl_namespace = 10)
    AND page_id IN (
                SELECT ll_from
                FROM langlinks
                WHERE ll_from
                and ll_lang = "en"
                )
    AND page_id NOT IN (
        SELECT cl_from
        FROM categorylinks
        WHERE cl_to = "همه_صفحه‌های_ابهام‌زدایی"
        )
    AND page_id NOT IN (
        SELECT cl_from
        FROM categorylinks
        WHERE cl_to = "مقالات_دارای_جعبه_اطلاعات"
        );

صفحه‌های ابهام‌زدایی که بیشترین «پیوند به» را دارند

[ویرایش]
USE fawiki_p;
SELECT DISTINCT pl_title,COUNT(pl_from)
FROM pagelinks JOIN page JOIN templatelinks
WHERE page_id=tl_from
AND (tl_title = "ابهام‌زدایی" OR tl_title = "ابهام‌زدایی_جغرافیا" OR tl_title = "ابهام‌زدایی_نام")
AND pl_title=page_title
AND pl_namespace = 0
AND pl_from_namespace=0
GROUP BY pl_title
ORDER BY COUNT(pl_from) DESC;

صفحات ابهام‌زدایی که در اثر انتقال بیشترین «پیوند به» دارند

[ویرایش]
USE fawiki_p;
SELECT DISTINCT page_title
FROM revision join page join comment  ON rev_page=page_id and rev_comment_id=comment_id
WHERE page_namespace=0 
and page_id IN (SELECT tl_from  FROM templatelinks WHERE tl_title = "ابهام‌زدایی") 
and comment_text LIKE '%منتقل کرد%'  
and page_title in (SELECT DISTINCT pl_title from pagelinks WHERE pl_namespace = 0 and pl_from_namespace=0 GROUP BY pl_title ORDER BY COUNT(pl_from) DESC limit 1000) limit 100;

صفحه‌های ابهام‌زدایی فارسی و انگلیسی که میان‌ویکی‌شان به صفحهٔ ابهام‌زدایی نیست

[ویرایش]
فارسی ابهام‌زدایی، انگلیسی غیرابهام‌زدایی
select fap.page_title, fall.ll_title
from fawiki_p.page as fap 
right join fawiki_p.page_props as fapp on fap.page_id = fapp.pp_page 
right join fawiki_p.langlinks as fall on fap.page_id = fall.ll_from
where fap.page_namespace = 0 
and fap.page_is_redirect = 0 
and fapp.pp_propname = 'disambiguation'
and fall.ll_lang = "en"
and replace(fall.ll_title, ' ', '_') not in ( # enwiki disambig titles
    select enp.page_title
    from enwiki_p.page as enp right join enwiki_p.page_props as enpp on enp.page_id = enpp.pp_page
    where enp.page_namespace = 0 
    and enp.page_is_redirect = 0
    and enpp.pp_propname = 'disambiguation'
);


انگلیسی ابهام‌زدایی، فارسی غیرابهام‌زدایی
select enp.page_title, enll.ll_title
from enwiki_p.page as enp 
right join enwiki_p.page_props as enpp on enp.page_id = enpp.pp_page 
right join enwiki_p.langlinks as enll on enp.page_id = enll.ll_from
where enp.page_namespace = 0 
and enp.page_is_redirect = 0 
and enpp.pp_propname = 'disambiguation'
and enll.ll_lang = "fa"
and replace(enll.ll_title, ' ', '_') not in ( # enwiki disambig titles
    select fap.page_title
    from fawiki_p.page as fap right join fawiki_p.page_props as fapp on fap.page_id = fapp.pp_page
    where fap.page_namespace = 0 
    and fap.page_is_redirect = 0
    and fapp.pp_propname = 'disambiguation'
);

مقالات بدون میان‌ویکی که دارای الگوهای سرشناسی و بدون منبع هستند

[ویرایش]
USE fawiki_p;
SELECT /*SLOW OK*/ concat('*[[',page_title,']]')
FROM page
WHERE page_id IN (
        SELECT tl_from
        FROM templatelinks
        WHERE tl_title = "بدون_منبع"
            AND tl_namespace = 10)
and page_id IN (
        SELECT tl_from
        FROM templatelinks
        WHERE tl_title = "سرشناسی"
            AND tl_namespace = 10)
            AND page_id NOT IN (
                SELECT ll_from
                FROM langlinks
                WHERE ll_lang = "en"
                );

تغییرمسیرهای دارای میان‌ویکی

[ویرایش]

تغییرمسیرهایی که میان‌ویکی دارند و پیوند هدف میان‌ویکی ندارد.

USE fawiki_p;
SELECT
   CONCAT ('# [[', S.page_title, ']] > [[:', ll_lang, ':', ll_title, ']]'),
   T.page_title 
FROM
   page S 
   INNER JOIN
      langlinks 
      ON S.page_id = ll_from 
   JOIN
      redirect 
      ON rd_from = S.page_id 
   JOIN
      page T 
      ON T.page_title = rd_title 
WHERE
   S.page_namespace = 0 
   AND S.page_is_redirect = 1 
   AND T.page_namespace = 0 
   AND T.page_is_redirect = 0 # 
   AND ll_lang = 'en' 
   AND NOT EXISTS 
   (
      SELECT
         null 
      FROM
         langlinks 
      WHERE
         ll_from = T.page_id 
   )
GROUP BY
   S.page_title 
ORDER BY
   COUNT(ll_from) DESC;

بحث‌های یتیم

[ویرایش]
select p1.page_namespace, p1.page_title from page as p1 where mod(p1.page_namespace, 2) = 1 and p1.page_namespace <> 3 and p1.page_title not like "%/%" and p1.page_title not in (select p2.page_title from page as p2 where p2.page_title = p1.page_title and p2.page_namespace = p1.page_namespace - 1);

ویرایش‌های کاربران

[ویرایش]

ویرایش‌ها کاربر بر پایه تاریخ

[ویرایش]
SELECT /*SLOW OK */
    DATE (
        CONCAT (
            YEAR(rev_timestamp),
            "-",
            MONTH(rev_timestamp),
            "-",
            DAY(rev_timestamp)
            )
        ) AS DAY,
    COUNT(rev_timestamp) AS revisions
FROM revision
WHERE rev_user_text = 'Reza1615'
GROUP BY DAY;

مقاله‌های ساخته شدهٔ کاربر برپایه حجم و میان‌ویکی

[ویرایش]
USE fawiki_p;
SELECT page_title,page_len, count(ll_lang)
FROM revision
INNER JOIN page ON rev_page = page_id join langlinks on page_id = ll_from where 
WHERE not page_id in 
(select cl_from from categorylinks where
cl_to = 'همه_صفحه‌های_ابهام‌زدایی') and page_namespace = 0
    AND rev_user_text = 'Reza1615'
    AND rev_parent_id = 0
    AND page_is_redirect = 0
GROUP BY page_title ORDER BY page_len;

مقاله‌های ساختهٔ کاربر بر پایهٔ تاریخ

[ویرایش]

مقاله‌های ساخته شده بر پایه تاریخ یک کاربر خاص

SELECT /*SLOW OK */ page_title,
    DATE (
        CONCAT (
            YEAR(rev_timestamp),
            "-",
            MONTH(rev_timestamp),
            "-",
            DAY(rev_timestamp)
            )
        ) AS DAY
FROM revision
INNER JOIN page ON rev_page = page_id
WHERE page_namespace = 0
    AND rev_user_text = 'Reza1615'
    AND rev_parent_id = 0
    AND page.page_is_redirect = 0
GROUP BY DAY;

ORDER BY rev_timestamp;

ویرایش کاربر برپایهٔ خلاصه ویرایش و تاریخ

[ویرایش]

این کوئری ویرایش‌هایی که خلاصه Bot:foooooooo دارند و از تاریخ ۱۲ سپتامبر ۲۰۱۴ به بعد هستند را مد نظر می‌گیرد

USE fawiki_p;
SELECT DISTINCT page_title
FROM revision join page join comment  ON rev_page=page_id and rev_comment_id=comment_id
WHERE page_namespace=0 
and comment_text LIKE 'Bot:foooooooo' and rev_timestamp > 20140912000000;

رده‌ها

[ویرایش]

رده‌های هم‌نام با مقاله‌ها

[ویرایش]

استخراج رده‌های هم‌نام با مقاله

SELECT DISTINCT /*SLOW OK */ page_title
FROM categorylinks
INNER JOIN page
WHERE cl_to = page_title
    AND page_is_redirect = 0;

رده‌های هم‌سنگ مورد نیاز

[ویرایش]

کوئری استخراج رده‌هایی همسنگ مورد نیاز با دستور sql enwiki_p < radeh.sql >cat.txt

SELECT /* SLOW_OK */ cl_to
FROM categorylinks
WHERE cl_from IN (
        SELECT DISTINCT ll_from
        FROM langlinks
        WHERE ll_lang = "fa"
        )
    AND cl_to NOT IN (
        SELECT DISTINCT page_title
        FROM langlinks
        LEFT JOIN page ON page_id = ll_from
        WHERE ll_lang = "fa"
            AND page_namespace = 14
        )
GROUP BY cl_to;

برای فشرده‌سازی و امکان دانلود برای دیگران دستور زیر را وارد نمائید که نتیجه‌اش می شود فایل encat.zip و برای کاربرها قابل دانلود خواهد بود.

zip -r /home/YourUser/public_html/encat /home/YourUser/encat.txt

رده‌های فاقد میان‌ویکی

[ویرایش]

استخراج رده‌هایی که میان‌ویکی ندارند و {{رده بهتر}} هم ندارند

USE fawiki_p;               
SELECT /*SLOW OK*/ concat('*[[:Category:',page_title,']]')
    from page join 
       category  on cat_title=page_title and page_namespace=14 and page_is_redirect = 0
       LEFT JOIN templatelinks 
              ON tl_from = page_id AND tl_namespace = 10 and (cat_pages>0 or cat_subcats>0 or cat_files>0) AND tl_title not IN ( 'رده_خالی','رده_بهتر', 'رده_ابهام‌زدایی', 'رده_ردیابی‌کردن' ) where
              page_id NOT IN (
                SELECT ll_from
                FROM langlinks
                WHERE ll_lang  in ("en","fr","it","ar","ckb","ru","nl")
                ) group by page_id;

استخراج رده‌های خالی

[ویرایش]
USE fawiki_p;
SELECT page_title, 
       Count(ll_lang) 
FROM   page 
       JOIN category 
         ON page_title = cat_title 
       LEFT JOIN categorylinks 
              ON page_title = cl_to 
       LEFT JOIN templatelinks 
              ON tl_from = page_id 
                 AND tl_title IN ( 'رده_خالی', 'رده_بهتر', 
                                   'رده_ابهام‌زدایی', 
                                   'رده_ردیابی‌کردن' ) 
       LEFT JOIN langlinks 
              ON page_id = ll_from 
WHERE  page_namespace = 14 
       AND page_is_redirect = 0 
       AND cl_to IS NULL 
       AND tl_title IS NULL 
GROUP  BY page_title 
ORDER  BY 2, 
          1;

صفحات موجود در یک رده

[ویرایش]
SELECT page_title
FROM page
INNER JOIN categorylinks
WHERE cl_from = page_id
    AND cl_to = 'مقاله‌های_انتخابی_نسخه_ویکی‌پروژه_نسخه_آفلاین'
GROUP BY page_title;

رده‌هایی که {{رده بهتر}} و میان‌ویکی دارند

[ویرایش]

رده‌هایی که {{رده بهتر}} هستند نباید میان‌ویکی داشته باشند.

SELECT DISTINCT CONCAT ('*[[:رده:',page_title,']]') FROM  page WHERE page_id  IN (SELECT tl_from FROM templatelinks WHERE tl_title = 'رده_بهتر' AND tl_namespace = 10) AND page_id  IN (SELECT DISTINCT page_id 
                FROM langlinks LEFT JOIN page
                        ON page_id = ll_from        
                WHERE ll_from IS NOT NULL  AND page_namespace = 14) AND page_namespace = 14;

رده‌هایی که حجمشان زیاد است و ممکن است کاربر تازه‌کار در آنها مقاله قرار داده باشد

[ویرایش]
SELECT concat('#[[:رده:',page_title,']] > ',page_len)
FROM page
WHERE page_namespace = 14 and page_len>800 ORDER BY page_len DESC;

پرونده‌ها

[ویرایش]

مقاله‌های نیازمند پرونده همسنگ

[ویرایش]

مقاله‌هایی که پرونده ندارند ولی نسخهٔ انگلیسی آنها پرونده دارد.

FORMAT SQL
Formatted SQL:
SELECT
   CONCAT ('[[',
   fap.page_title,
   ']]'),
   CONCAT ('[[:en:',
   enp.page_title,
   ']]') ,
   CONCAT ('[[File:',
   limagelist.il_to,
   '|72px]]> File:',
   limagelist.il_to)      
FROM
   fawiki_p.page as fap 
INNER JOIN
   fawiki_p.langlinks as fal 
      ON   fap.page_id = fal.ll_from 
inner join
   enwiki_p.page as enp 
      on  fal.ll_title=enp.page_title 
join
   (
      SELECT
         * 
      FROM
         enwiki_p.imagelinks as eni
   ) as limagelist 
WHERE
   fap.page_namespace = 0  
   and fal.ll_lang = 'en' 
   AND fap.page_is_redirect = 0 
   and   fap.page_id not in (
      SELECT
         fai.il_from 
      FROM
         fawiki_p.imagelinks as fai
   ) 
   and  enp.page_id=limagelist.il_from  
   and   not limagelist.il_to like 'Flag_of_%' 
   and   not limagelist.il_to like 'Ambox_%' 
   and   not limagelist.il_to like 'Wiktionary%' 
   and   not limagelist.il_to like 'Wikibooks%' 
   and   not limagelist.il_to like 'Wikivoyage%' 
   and   not limagelist.il_to like 'Incubator%' 
   and   not limagelist.il_to like 'Searchtool%' 
   and   not limagelist.il_to like 'Speech_balloon%' 
   and   not limagelist.il_to like 'Crystal_Clear%' 
   and   not limagelist.il_to like 'Speakerlink%' 
   and   not limagelist.il_to like 'Loudspeaker%' 
   and   not limagelist.il_to like 'Padlock%' 
   and   not limagelist.il_to like 'Nuvola_apps_%' 
   and   not limagelist.il_to like 'Wikiquote%' 
   and   not limagelist.il_to like 'Wikisource%' 
   and   not limagelist.il_to like 'Wikinews%' 
   and   not limagelist.il_to like 'Wikiversity%' 
   and   not limagelist.il_to like 'Question_book%' 
   and   not limagelist.il_to like 'Folder_Hexagonal%' 
   and   not limagelist.il_to like 'Portal-puzzle%' 
   and   not limagelist.il_to like 'Edit-clear%' 
   and   not limagelist.il_to like 'Text_document_with_red_question_mark%' 
   and   not limagelist.il_to like '%_stub%' 
   and   not limagelist.il_to like 'Rod_of_Asclepius%' 
   and   not limagelist.il_to like 'Merge-arrows%' 
   and   not limagelist.il_to like '%_icon%' 
   and   not limagelist.il_to like '%Balloon%' 
   and   not limagelist.il_to like 'Mergefrom%' 
   and   not limagelist.il_to like 'WikiProject%' 
   and   not limagelist.il_to like 'Yes_check%' 
   and   not limagelist.il_to like 'X_mark%' 
   and   not limagelist.il_to like 'Blank%' 
   and   not limagelist.il_to like '%_Icon%' 
   and   not limagelist.il_to like 'Symbol_book_class%' 
   and   not limagelist.il_to like 'Free_and_open-source_software_logo%' 
   and   not limagelist.il_to like 'Red_pog%' 
   and   not limagelist.il_to like 'Symbol_list_class%' 
   and   not limagelist.il_to like 'Allah-green%' 
   and   not limagelist.il_to like 'Symbol_support_vote%' 
   and   not limagelist.il_to like 'A_coloured_voting_box%' 
   and   not limagelist.il_to like 'Wiki_letter_w_cropped%' 
   and   not limagelist.il_to like 'Commons%'   limit 5000;

پرونده‌اییی که یک کاربر بارگذاری کرده و متادیتا ندارند

[ویرایش]

در کوئری زیر foo را با نام کاربر بدون پیشوند کاربر: جایگزین کنید.

USE fawiki_p;
SELECT img_name,img_metadata
FROM image WHERE  img_metadata not like '0' and img_user_text='foo';

پرونده‌های هم‌عنوان در ویکی‌فا و انبار

[ویرایش]

استخراج نام پرونده‌هایی که در انبار و ویکی‌فا مشترک هستند و باید در ویکی‌فا حذف شوند.

SELECT /*SLOW OK */ CONCAT (
        '* [[:commons:Image:',
        db1.img_name,
        ']] = [[:fa:Image:',
        db2.img_name,
        ']] (hash: ',
        db1.img_sha1,
        ')'
        ) AS collision
FROM commonswiki_p.image db1
INNER JOIN fawiki_p.image db2 ON db1.img_sha1 = db2.img_sha1
WHERE db1.img_sha1 <> '';

پرونده‌های ناآزاد در فضای نام غیرمقاله

[ویرایش]

پرونده‌های غیرآزادی (الگو:محیط_نرم‌افزار) که در فضای غیر مقاله به کار رفته‌اند.

SELECT image_title,
    page_title AS article_title
FROM page,
    (
        SELECT il_to AS image_title,
            MAX(il_from) AS article_id
        FROM page,
            imagelinks
        WHERE page_title = il_to
            AND page_id IN (
                SELECT page_id
                FROM page,
                    templatelinks
                WHERE page_namespace = 6
                    AND page_is_redirect = 0
                    AND page_id = tl_from
                    AND tl_title = 'محیط_نرم‌افزار'
                    AND tl_namespace = 10
                )
        GROUP BY il_to
        ) AS imageuse
WHERE page_id = article_id
    AND page_namespace > 0;

فهرست کردن پرونده‌ها همراه با الگوهایشان

[ویرایش]
SELECT page_title,
    tl_title
FROM page
INNER JOIN templatelinks
WHERE page_id = tl_from
    AND (
        tl_title = 'سخ'
        OR tl_title = 'سرخط'
        OR tl_title = 'Imbox'
        OR tl_title = 'File_other'
        )
    AND page_is_redirect = 0
    AND tl_namespace = 10
    AND page_namespace = 6
ORDER BY page_title;

پرونده‌های موجود در ویکی‌انبار که در ویکی‌فا استفاده شده‌اند

[ویرایش]
USE commonswiki_p;

SELECT gil_to
FROM globalimagelinks
WHERE gil_wiki = 'fawiki' limit 100;

پرونده‌هایی کامنز که رده‌بندی ندارند و در ویکی‌فا استفاده شده‌اند

[ویرایش]
USE commonswiki_p;

SELECT CONCAT (
        "# [[:File:",
        gil_to,
        "]] > [[:fa:",
        gil_page_title,
        "]]"
        )
FROM globalimagelinks
WHERE gil_wiki = 'fawiki'
    AND gil_to IN (
        SELECT tl_from
        FROM templatelinks
        WHERE tl_title = 'Uncategorized'
        ) limit 100;

پیوندهای قرمز موجود در مقالات فیلم‌های ایرانی

[ویرایش]

کد ۱۳: پیوندهای قرمز در مقالاتی که عنوان فیلم‌های ایرانی در رده‌هایشان موجود است.

SELECT pl_title,
    page_title,
    count(pl_title)
FROM pagelinks
INNER JOIN page ON pl_from = page_id
INNER JOIN categorylinks ON page_id = cl_from
WHERE pl_title NOT IN (
        SELECT page_title
        FROM page
        WHERE page_namespace = 0
        )
    AND pl_namespace = 0
    AND cl_to LIKE "%فیلم‌های_ایرانی_%"
    AND page_namespace = 0
GROUP BY pl_title
ORDER BY COUNT(pl_title) DESC;

پیوندبه بیرون

[ویرایش]

مقاله‌هایی که بیشترین پیوند به بیرون دارند

[ویرایش]

مقاله‌هایی که بیشترین پیوند به بیرون دارند

USE fawiki_p;
SELECT COUNT(el_from) AS total, el_from, page_title
FROM externallinks, page
WHERE externallinks.el_from = page_id AND page_is_redirect = 0 AND page_namespace = 0
GROUP BY el_from
ORDER BY total DESC;

پیوند به بیرون‌هایی که بیشترین کاربرد را دارند

[ویرایش]

پیوند به بیرون‌هایی که بیشترین کاربرد را دارند

USE fawiki_p;
SELECT COUNT(el_to) AS total, SUBSTRING_INDEX(el_to, '/', 3) AS search
FROM externallinks, page
WHERE page_id = el_from AND page_namespace = 0
GROUP BY search
ORDER BY total DESC limit 500;

پرکاربردترین وب‌گاه‌ها در ویکی‌فا

[ویرایش]

پرکاربردترین وب‌گاه‌ها در ویکی‌فا

USE fawiki_p;
SELECT COUNT(  replace(replace(replace(replace(el_to, 'https:', ''), 'http:', ''),'//www.',''),'//','') ) AS total, replace(replace(replace(replace(SUBSTRING_INDEX(el_to, '/', 3), 'https:', ''), 'http:', ''),'//www.',''),'//','')  AS search
FROM externallinks, page
WHERE page_id = el_from AND page_namespace = 0
GROUP BY search
ORDER BY total DESC limit 1000;

الگوها

[ویرایش]

الگوهایی که عنوانشان غیرفارسی (انگلیسی) است و میان‌ویکی ندارند

[ویرایش]
  • کوئری
  • فهرست مواردی که چون مشکل تداخل دارند، میان‌ویکی نمی‌پذیرند.

الگوهای خرد که از الگوی خرد استفاده نکرده‌اند

[ویرایش]
این کوئری هر از چندی باید گرفته شد چون این الگوها ربات تمیزکاری را به خطا می‌اندازند.
USE fawiki_p;
SELECT /*SLOW OK*/ page_title
FROM page
WHERE 
page_namespace = 10 and page_is_redirect = 0 and
page_id IN (
        SELECT tl_from
        FROM templatelinks
        WHERE tl_title = "Asbox"
            AND tl_namespace = 10
        )
and page_id not IN (
        SELECT tl_from
        FROM templatelinks
        WHERE tl_title = "الگوی_خرد"
            AND tl_namespace = 10
);

توضیحات الگویی که میان‌ویکی دارند

[ویرایش]
SELECT page_title
FROM page
INNER JOIN langlinks ON page_id = ll_from
WHERE page_namespace = 10
    AND page_is_redirect = 0
    AND (
        page_title LIKE "%/doc%"
        OR page_title LIKE "%/Doc%"
        OR page_title LIKE "%/توضیحات%"
        )
GROUP BY page_title
ORDER BY COUNT(ll_from) DESC;

الگوهایی که بیشترین پیوند تغییرمسیر دارند

[ویرایش]
USE fawiki_p; 

SELECT page_title, 
       Count(pl_from) 
FROM   page 
       LEFT JOIN pagelinks 
              ON page_id = pl_from 
WHERE  pl_namespace = 0 
       AND pl_from_namespace = 10 
       AND page_namespace = 10 
       AND page_is_redirect = 0 
       AND pl_title IN (SELECT page_title 
                        FROM   page 
                        WHERE  page_namespace = 0 
                               AND page_is_redirect = 1) 
GROUP  BY page_title 
ORDER  BY Count(pl_from) DESC LIMIT 1000;

کوئری از سیاهه حذف مقالات

[ویرایش]
SELECT /*SLOW OK */ log_title,
    log_comment,
    log_action
FROM logging
WHERE log_type = 'delete'
    AND log_action = 'delete'
    AND log_namespace = 0
GROUP BY log_timestamp
ORDER BY log_title;

صفحه‌های دیگر

[ویرایش]

صفحات ابهام‌زدایی مورد نیاز ویکی‌فا بر پایه تعداد میان‌ویکی

[ویرایش]
SELECT /*SLOW OK*/ page_title
FROM page
WHERE page_id IN (
        SELECT tl_from
        FROM templatelinks
        WHERE tl_title = "Disambiguation"
            AND tl_namespace = 10
            AND tl_from IN (
                SELECT ll_from
                FROM langlinks
                WHERE ll_from
                GROUP BY ll_from
                HAVING COUNT(*) > 15
                )
            AND tl_from NOT IN (
                SELECT ll_from
                FROM langlinks
                WHERE ll_lang = "fa"
                )
        );

زیرصفحات کاربری‌ای که رده دارند

[ویرایش]
SELECT DISTINCT CONCAT (
        '#[[user:',
        page_title,
        ']]'
        )
FROM categorylinks
INNER JOIN page
WHERE cl_from = page_id
    AND page_title LIKE "%/%"
    AND page_namespace = 2
    AND cl_to NOT IN (
        SELECT page_title
        FROM categorylinks
        INNER JOIN page
        WHERE cl_from = page_id
            AND cl_to = "رده‌های_پنهان"
            AND page_namespace = 14
        );

ویکی‌داده

[ویرایش]

آیتم‌های متصل به ویکی‌فا که claim ندارند

[ویرایش]
USE wikidatawiki_p;
SELECT CONCAT('* [[', ips_site_page, ']]') FROM wb_items_per_site
JOIN wb_entity_per_page ON ips_item_id=epp_entity_id AND epp_entity_type='item' AND epp_redirect_target IS NULL
LEFT JOIN pagelinks ON epp_page_id=pl_from AND pl_from_namespace=0 AND pl_namespace=0
WHERE ips_site_id='fawiki'
AND pl_from IS NULL
ORDER BY ips_site_page ASC;

آیتم‌های متصل به تغییرمسیر در ویکی‌فا

[ویرایش]
USE fawiki_p;
SELECT page_namespace, page_title, pp_value AS item
	FROM (SELECT * FROM page_props WHERE pp_propname = 'wikibase_item') AS props
	JOIN (SELECT * FROM page WHERE page_is_redirect = 1) AS page
		ON page_id = pp_page
ORDER BY page_title;

آیتم‌های متصل به ویکی‌فا که تعداد پیوندهای داخلی آنها کمتر از ۴ است (claim کمی دارند)

[ویرایش]
USE wikidatawiki_p;
SELECT CONCAT('* [[', ips_site_page, ']]\t[[Q',ips_item_id,']] #') FROM wb_items_per_site
JOIN wb_entity_per_page ON ips_item_id=epp_entity_id AND epp_entity_type='item' AND epp_redirect_target IS NULL
LEFT JOIN pagelinks ON epp_page_id=pl_from AND pl_from_namespace=0 AND pl_namespace=0
WHERE ips_site_id='fawiki' group by pl_from having count(*) < 4;

مقالات خوب و برگزیده ویکی‌فا در ویکی‌داده

[ویرایش]

query.wikidata

[ویرایش]

مناطق مسکونی در کشور هند که در ویکی‌فا نیست

[ویرایش]

متفرقه

[ویرایش]

سال تولد افراد اهل بعضی از شهرهای ایران

[ویرایش]
SELECT page_title,
    cl_to
FROM categorylinks
INNER JOIN page
WHERE page_title IN (
        SELECT DISTINCT page_title
        FROM categorylinks
        INNER JOIN page
        WHERE cl_from = page_id
            AND (
                cl_to LIKE "%اهل_ایران%"
                OR cl_to LIKE "%اهل_تهران%"
                OR cl_to LIKE "%اهل_شیراز%"
                OR cl_to LIKE "%اهل_اصفهان%"
                OR cl_to LIKE "%اهل_سمنان%"
                OR cl_to LIKE "%اهل_قم%"
                OR cl_to LIKE "%اهل_کرج%"
                OR cl_to LIKE "%اهل_یزد%"
                OR cl_to LIKE "%اهل_دامغان%"
                OR cl_to LIKE "%اهل_کرمان%"
                OR cl_to LIKE "%اهل_بوشهر%"
                OR cl_to LIKE "%اهل_اهواز%"
                OR cl_to LIKE "%اهل_بم%"
                OR cl_to LIKE "%اهل_همدان%"
                OR cl_to LIKE "%اهل_نیشابور%"
                OR cl_to LIKE "%اهل_مشهد%"
                OR cl_to LIKE "%اهل_تبریز%"
                OR cl_to LIKE "%اهل_ارومیه%"
                OR cl_to LIKE "%اهل_خرمشهر%"
                OR cl_to LIKE "%اهل_زاهدان%"
                OR cl_to LIKE "%اهل_ساری%"
                OR cl_to LIKE "%اهل_قزوین%"
                OR cl_to LIKE "%اهل_رشت%"
                OR cl_to LIKE "%اهل_لار%"
                OR cl_to LIKE "%اهل_زابل%"
                OR cl_to LIKE "%اهل_بابل%"
                )
            AND page_namespace = 0
        )
    AND cl_from = page_id
    AND (
        cl_to LIKE "%زادگان%"
        AND cl_to LIKE "%میلادی%"
        )
    AND page_namespace = 0 LIMIT 10;

اتصال با زبان پایتون

[ویرایش]

بعد از اینکه بر اساس شروع کار با تول‌سرور وارد حساب تول‌سرور خود شدید فایل .my.cnf را در شاخه اصلی باز کنید پسورد و کاربری شما برای ارتباط با دیتابیس تول سرور در آنجا قرار دارد سپس در انتهای فایل user-config.py خود عبارت زیر را وارد کنید تا به کمک کاربری شما ربات بتواند از اطلاعات تول سرور استفاده کند. برای استفاده از اطلاعات تول سرور باید اطلاعاتی در زمینه کدنویسی sql داشته باشید یا از رباتهایی که Mysql را اجرا می‌کنند استفاده کنید.

console_encoding = 'utf-8'
db_username = "نام کاربریتان در تول سرور"
db_password = "پسوردتان"

کدهای پایتون و Mysql

[ویرایش]

برای کنترل و انجام عملیات بر روی پایتون کوئری‌های Mysql گرفته شده از تول‌سرور و همچنین تحلیل کردن داده‌های خام می‌توانید نتیجه‌های بدست آمده را در وب‌گاه یا ویکی‌پدیا مطالعه کنید.

کد اتصال به کوئری Mysql

[ویرایش]

کد زیر به صورت خط به خط اطلاعات کوئری را در اختیار شما قرار میدهد.

 
#!/usr/bin/python
# -*- coding: utf-8  -*-
import catlib ,pagegenerators
import wikipedia,urllib,gzip,codecs,re
import MySQLdb as mysqldb
import config

site  = wikipedia.getSite("fa")#--کد ویکی‌ای که میخواهید اطلاعات را از آن بدست بیاورید.
query = open("tusn.sql").read()#---نام فایل اس‌کیو‌ال که میخواهید به کمک آن کوئری بگیرید.

#query = "SELECT page_title,page_id FROM page LIMIT 10"    #    -نمونه کوئری ساده برای تست

wikipedia.output(u'Executing query:\n%s' % query)

#سه خط پایین را تغییر ندهید و به همین صورت بماند. فقط در صورتی که کوئری از ویکی دیگری میگیرید.
# مثلا برای ویکی انگلیسی fawiki-p ==> enwiki-p می‌شود.

conn = mysqldb.connect("fawiki.labsdb", db = site.dbName(),
                       user = config.db_username,
                       passwd = config.db_password)

cursor = conn.cursor()
query = query.encode(site.encoding())
cursor.execute(query)
results = cursor.fetchall()

for row in results:#به کمک این حلقه میتوانید پاسخ کوئری را خط به خط بخوانید 
#محل کد شما که پاسخ کوئری را به صورت خط به خط دریافت میکند

نمونه کد پایتون

[ویرایش]

در این مثال فهرستی از ده مقاله در ویکی‌پدیا و کدهایشان ارایه می‌گردد که این فهرست تبدیل به جدول شده و در صفحه ویکی‌پدیا:صفحه تمرین بارگذاری می‌گردد.

#!/usr/bin/python
# -*- coding: utf-8  -*-
import catlib ,pagegenerators
import wikipedia,urllib,gzip,codecs,re
import MySQLdb as mysqldb
import config
pagetop=u"'''به‌روز شده توسط ربات در تاریخ''''': ~~~~~''\n\n"
pagetop+=u'\n{| class="wikitable sortable"\n'
pagetop+=u'!ردیف!!صفحه!!کد صفحه\n|-'
pagedown=u'\n|}\n[[رده:ویژگی‌های ویکی‌پدیا]]
[[رده:تست]]'
adress=u"ویکی‌پدیا:صفحه تمرین"
message=u"ربات:تست"

count=0
line_items=' '

#---------------------------------------------- sql part--------------
site  = wikipedia.getSite("fa")
#query = open("file name").read()#--you can add you sql name
query = "SELECT page_title,page_id FROM page LIMIT 10" #   ده مقاله و کد شان را ارائه میدهد
wikipedia.output(u'Executing query:\n%s' % query)

conn = mysqldb.connect("fawiki.labsdb", db = site.dbName(),
                       user = config.db_username,
                       passwd = config.db_password)
cursor = conn.cursor()
query = query.encode(site.encoding())
cursor.execute(query)
results = cursor.fetchall()
#---------------------------------------------- end of sql part---------
for row in results:
    count+=1
    for i in range(0,len(row)):
        item=unicode(str(row[i]).strip(),'UTF-8')
        line_items+=u'{{جا:formatnum:'+item+u'}}||'   
    line=line_items.strip()
    text+= u'\n|{{جا:formatnum:' +str(count)+u'}}||'+ line+u'\n|-'

text=pagetop+text+pagedown

page = wikipedia.Page(site,adress)
page.put(text,message)

کدهایی که در از کوئری به وسیلهٔ اس‌کیوال استفاده کرده‌اند

[ویرایش]

سوال‌های رایج

[ویرایش]

پرسش:چگونه به تول‌لبز وصل شوم و اطلاعات را انتقال دهم یا بگیرم؟

پاسخ: برای ویندوز نرم‌افزار WinSCP استفاده کنید.برای اطلاعات بیشتر درباره WinSCP اینجا را مطالعه نمایید. برای اتصال به تول‌لبز با سیستم عامل‌های غیر از ویندوز اینجا را مطالعه نمایید.

جستارهای وابسته

[ویرایش]

پیوند به بیرون

[ویرایش]

منابع

[ویرایش]
  • وب‌گاه تول‌سرور
  • مدیاویکی