ویکی‌پدیا:بررسی ترجمه‌های به ویکی‌فا

از ویکی‌پدیا، دانشنامهٔ آزاد

به ویکی‌فا ابزاری است فوق‌العاده مفید که اجازه می‌دهد کاربران به راحتی مقاله‌هایی که در ویکی‌پدیای انگلیسی وجود دارد اما در ویکی‌پدیای فارسی وجود ندارد را ترجمه کنند و به ویکی‌پدیای فارسی بیاورند. هدف این بررسی، نقد به ویکی‌فا نیست؛ صرفاً هدف آن است که ببینیم غنای صفحه‌های ایجاد شده توسط این ابزار (و در کنارش، امکان مقاله‌سازی خودکار یا نیمه‌خودکار با استفاده از اطلاعات ویکی‌پدیای انگلیسی) به چه میزان است.

فرضیهٔ اصلی این نوشتار آن است که مقاله‌هایی که توسط به ویکی‌فا ساخته می‌شوند عمدتاً رها می‌شوند و رشد نمی‌کنند. بر اساس این فرضیه، قسمت زیادی از کاربرانی که (چه به صورت دستی و چه با واسطهٔ ربات) مقاله‌ها را با کمک به ویکی‌فا ترجمه می‌کنند، کسانی هستند که علاقه به ساختن مقاله‌های فراوان دارند، نه کسانی که علاقه دارند مقاله‌های عمیق ایجاد کنند. به بیان دیگر برای این افراد کمیت مقاله‌ها مهم‌تر از کیفیت است.

داده‌ها[ویرایش]

برای بررسی این فرضیه یک پرسمان از پایگاه دادهٔ ویکی‌مدیا انجام شد. این پرسمان، هزار مقاله را به طور تصادفی پیدا می‌کند و نخستین نسخهٔ آن‌ها را با جدیدترین نسخه‌شان مقایسه می‌کند و دو شاخص مهم را محاسبه می‌کند: میزان رشد مقاله (یعنی اندازهٔ نهایی مقاله در مقایسه با اندازه‌اش در زمان ایجاد چند درصد رشد کرده) و نرخ رشد مقاله (یعنی این میزان رشد، با چه سرعتی در طول زمان رخ داده). این پرسمان دو بار رانده شد: یک بار برای گرفتن هزار مقاله‌ای که با استفاده از به ویکی‌فا ایجاد شدند، و یک بار برای گرفتن هزار مقاله که به روش‌های دیگر ایجاد شده‌اند.

«نرخ رشد» شاخص مهمی است، چرا که اگر فرض کنیم مقاله‌ها همگی به طور تدریجی بزرگتر می‌شوند (چون کاربران مختلف به آن‌ها اطلاعات اضافه می‌کنند) در آن صورت «میزان رشد» یک مقالهٔ قدیمی، به صرف قدیمی بودنش، احتمالش بیشتر خواهد بود. شاخص «نرخ رشد» فرض می‌کند که تغییرات میزان رشد در طول زمان کم و بیش خطی است و سرعت متوسط این رشد را (بر حسب ماه) نشان می‌دهد.

اما خود «میزان رشد»، علی رغم مشکلی که بالاتر گفتیم، شاخصی مفید است، چرا که اگر «نرخ رشد» خیلی به صفر نزدیک باشد نمی‌توان گفت آیا دلیلش عدم رشد مقاله بوده یا این که این مقاله رشد داشته اما رشدش غیر خطی بوده (مثلاً ظرف سه ماه اول کلی رشد کرده اما بعدش هیچ رشدی نکرده) و در نتیجه، مخرج کسر «نرخ رشد» (که زمان باشد) این قدر بزرگ شده که کل کسر به صفر نزدیک شده است.

نتایج[ویرایش]

جدول ۱ - مقایسهٔ آماره‌های مختلف در دو گروه
متغیر آماره گروه به ویکی‌فا گروه مقایسه مقدار پی
میزان رشد میانگین ۲۷٪ ۶٬۰۵۳٪ ‎> ۰٫۰۰۰۱
میانه ۵٪ ۲۸۵٪ ‎> ۰٫۰۰۰۱
نرخ رشد میانگین ۶۹٫۴۹٪ در ماه ۱٫۶۸٪ در ماه ۰٫۰۰۰۵
میانه ۳٫۲۹٪ در ماه ۰٫۳۹٪ در ماه ‎> ۰٫۰۰۰۱

نمودار ۱ و ۲ میزان و نرخ رشد ۱۰۰۰ مقالهٔ تصادفی که همگی با به ویکی‌فا ایجاد شده‌اند را نشان می‌دهد. در مقابل، نمودار ۳ و ۴ در زیر میزان و نرخ رشد ۱۰۰۰ مقالهٔ تصادفی که هیچ کدام با به ویکی‌فا ایجاد نشده‌اند را نشان می‌دهد.

مقایسهٔ نمودار ۲ و ۴ به وضوح نشان می‌دهد که مقاله‌هایی که با استفاده از به ویکی‌فا ایجاد شده‌اند تقریباً همگی نرخ رشدشان صفر (یا بسیار نزدیک به صفر) است. این یعنی این مقاله‌ها یا اصلاً رشد نمی‌کنند یا حتی اگر رشدی هم بکنند مقطعی است و عملاً فراموش می‌شوند.

مقایسهٔ نمودار ۱ و ۳ نیز همین یافته را تأیید می‌کند. نمودار ۱ مشخصاً نشان می‌دهد که بیشتر مقاله‌هایی که توسط به ویکی‌فا ایجاد شده‌اند، میزان رشدشان یا منفی است یا نزدیک به صفر. به بیان دیگر، تنها ۵٪ مقاله‌های این گروه میزان رشدی بیشتر از ۱۰۰٪ دارند (رشد ۱۰۰٪ یعنی دو برابر شدن حجم مقاله). این در حالی است که در گروه مقابل، این میزان ۶۱٪ درصد است.

بحث[ویرایش]

نتایج این بررسی مبتنی بر یک نمونه‌گیری تصادفی از مقاله‌ها هستند؛ البته برای اطمینان نمونه‌گیری چند بار تکرار شد اما نتایج حاصل‌شده به طور کلی یکسان بود: مقاله‌هایی که به کمک ابزار به ویکی‌فا ترجمه شده‌اند، رشدشان به طور معنی‌داری کمتر از دیگر مقاله‌هایی بود که به طور تصادفی انتخاب شده بودند.

انتخاب تصادفی مقاله‌ها برای گروه مقایسه شاید عادلانه نباشد. به عنوان مثال، متوسط عمر مقاله‌های دو گروه با هم متفاوت بود (بیش از ۴۰۰۰ روز در گروه مقایسه، نزدیک ۴۷۰ روز در گروه به ویکی‌فا). قاعدتاً این تفاوت فقط روی شاخص «میزان رشد» باید تاثیر بگذارد؛ شاخص «نرخ رشد» این تفاوت را وارد محاسبه می‌کند و تفاوت عمر مقاله‌ها نمی‌تواند نتایج مبتنی بر این شاخص را مخدوش کند.

یک ایراد احتمالی که به بررسی بالا ممکن است گرفته شود آن است که «نوع» مقاله‌هایی که در سال‌های اخیر ساخته شده‌اند (از جمله آن‌ها که با کمک ابزار به ویکی‌فا ساخته شده‌اند) با مقاله‌های قدیمی فرق می‌کند. بر اساس این فرض، مقاله‌های قدیمی به این خاطر نرخ رشد بالاتری دارند (که حکایت از رشد مستمر آن‌ها دارد) که راجع به موضوع‌های مهم‌تر هستند؛ در مقابل، می‌توان فرض کرد که مقاله‌های ترجمه‌ای راجع به موضوع‌های نامهم هستند برای همین هم کسی به آن‌ها توجه و آن‌ها را ویرایش نمی‌کند. اما نکته این جاست که این ایراد، همسو با فرضیهٔ این نوشتار است: به نظر می‌رسد که از ابزار به ویکی‌فا عمدتاً برای ایجاد مقاله‌هایی که فاقد اهمیت هستند استفاده می‌شود. (در این جا «اهمیت» به این معنا به کار می‌رود که مقاله این قدر برای کاربران ویکی مهم باشد که محتوایش در به طور مداوم در طول زمان گسترش بدهند.). برای این منظور می‌توان داده‌های آن را در فرصتی که ابزار جدید درست شده است بررسی کرد.

نکتهٔ جانبی که از بررسی نمودارهای ۱ تا ۴ حاصل می‌شود آن است که مد هر دو شاخص در هر دو گروه، صفر است. این یعنی محتمل‌ترین میزان رشد مقاله‌ها (چه آن‌ها که با تو ویکی‌فا ایجاد شده‌اند،‌ چه در گروه مقابل) صفر درصد است، و محتمل‌ترین نرخ رشد مقاله‌ها نیز در هر دو گروه صفر درصد در ماه است. (توجه شود که برای محاسبهٔ مد متغیرها، مقادیر «نرخ رشد» به نزدیک عدد صحیح و مقادیر «میزان رشد» به نزدیک عدد صحیح مضرب پنج گرد شدند.) این نشان می‌دهد که کلاً روند رشد مقاله‌ها در ویکی‌پدیای فارسی نزدیک به صفر است و به جز برخی مقاله‌های استثنایی که مرتب ویرایش می‌شوند و گسترش می‌یابند، بقیهٔ مقاله‌ها کلاً رشدی ندارند. این یافته با «ضریب عمیق ویکی‌پدیا» (که مطابق آخرین آمار در meta:Wikipedia article depth مقدارش برای ویکی‌پدیای فارسی ۲۱۲ و مثلاً برای ویکی‌پدیای انگلیسی برابر ۹۵۳ است) مطابقت نسبی دارد. شاخص «عمق» بر اساس نسبت تعداد کل ویرایش‌ها به تعداد کل مقاله‌های ویکی محاسبه می‌شود و هر چه کمتر باشد نشان می‌دهد که مقاله‌ها عمدتاً بعد از ایجاد رها می‌شوند. منتها شاخص عمق میزان محتوایی که تغییر کرده یا افزوده شده را در نظر نمی‌گیرد، و تمام ویرایش‌ها را یکسان می‌شمارد. روشی که در این نوشتار به کار رفته، چون به حجم تغییرات نگاه می‌کند، احتمالاً برای ارزیابی کیفیت نمو مقاله‌ها در طول زمان شاخص بهتری از عمق است.

در پایان یادآوری این نکته لازم است که این نوشتار قصد نقد ابزار به ویکی‌فا را ندارد. در مفید بودن این ابزار شکی وجود ندارد؛ اما به نظر می‌رسد که کاربران این ابزار از آن برای ایجاد کم‌اهمیت‌ترین مقاله‌ها استفاده می‌کنند. به بیان دیگر به نظر می‌رسد که این ابزار کار مقاله‌سازی را برای کاربرانی که هدفشان افزایش «کمیت» مقاله‌های ویکی‌پدیای فارسی است آسان کرده، اما گروه دیگری از کاربران که به افزایش «کیفیت» و عمق مقاله‌ها اهمیت می‌دهند به طور متناسبی از این ابزار استفاده نکرده‌اند که شاید ناشی از آگاهی دادن ناکافی در بین گروه دوم باشد.

کارهای آینده[ویرایش]

میزان مدخل‌های حذف شده بین گروه استفاده‌کنندگان از ابزار به‌ویکی‌فا و گروهی که از آن استفاده نکرده‌اند می‌تواند موضوعی برای ادامهٔ چنین پژوهش باشد با این پیش‌فرض که مقاله‌های هر چند خرد ایجاد شده توسط ابزار به‌ویکی‌فا معمولاً ساختار مناسب برای ماندن در دانشنامه را داشته‌اند و مقاله‌هایی که توسط این ابزار درست نشده‌اند و حذف شده‌اند به هر حال به «غنا»ی کلی دانشنامه کمک نکرده‌اند. همچنین بررسی احتمال افزایش تمایل یک کاربر به ایجاد یک مدخل (در دو معیار تعداد و حجم کل صفحه‌های ایجاد شده و کیفیت هر مدخل) به دلیل صرفه‌جویی در فراهم کردن ساختار اولیه یک نوشتار و بررسی میزان این صرفه‌جویی زمانی می‌تواند موضوع‌های دیگری برای ادامهٔ پژوهش باشد.

حق تکثیر[ویرایش]

این نوشتار کمابیش ساختاری شبیه یک تحقیق علمی دارد. اگر چه کیفیت علمی این نوشتار خیلی زیاد نیست (روش‌های بهتری برای نمونه‌گیری و مقایسه می‌توان به کار برد) اما مشکلی که این نوشتار بررسی می‌کند هم ارزش صرف وقت برای این روش‌های پیچیده‌تر را ندارد؛ با همین روش‌های ساده هم احتمالاً جواب سؤال ابتدای متن به درستی داده شده‌است.

مانند تمام متون ویکی‌پدیا، این نوشتار با مجوز مستندات آزاد گنو و مجوز عامه خلاق CC BY-SA منتشر شده‌است. همهٔ ویرایشگران ویکی می‌توانند این متن را ویرایش کنند و مثلاً با انجام تحلیل‌های بیشتر به غنای آن بیفزایند. اگر این متن را تصادفی پیدا کرده‌اید و می‌خواهید از آن در یک مقالهٔ تحقیقی استفاده کنید،‌ توجه کنید که در حال حاضر روش‌های علمی اعلا در این تحلیل به کار نرفته‌اند. همچنین توجه داشته باشید که به خاطر مجوز‌های حق تکثیر ویکی‌پدیا، شما نمی‌توانید این متن را به نام خودتان منتشر کنید و باید به منبع اصلی آن (ویکی‌پدیا) و تمام مشارکت‌کنندگان آن اشاره کنید.