وب پنهان

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

این مقاله در مورد قسمتی از شبکه وب جهان گستر است که توسط موتور های جستجوی سنتی لیست نمی شود . برای سایر کابرد ها ، دیپ وب (رفع ابهام) را ببینید.

با دارک وب اشتباه نگیرید.

دیپ وب (وب عمیق) ، وب پنهان ، یا وب مخفی بخش هایی از شبکه وب جهان گستر هستند که محتویات آن به هر دلیلی توسط موتور های جست و جوی استاندارد لیست نمی شوند. واژه متضاد دیپ وب ، سرفیس وب ( وب سطحی ) است. دیپ وب شامل کابرد های بسیار رایج مثل وب نامه ، بانکداری آنلاین وهمچنین ...، و خیلی بشتر. دانشمند کامپیوتر ، مایک برگمن ، با سکه زنی اصطلاح دیپ وب را به عنوان اصطلاح لیست بندی جست و جو به وجود آورده.

مجموعه اصطلاحات

اولین تلفیق اصطلاح دیپ وب و دارک وب در حدود سال 2009 پدید آمد در زمانی که در کنار فعالیت های غیر مجاز در شبکه آزاد دارک نت در حال وقوع بود ، جست و جوی اصطلاحات در دیپ وب مورد بحث قرار گرفته بود

از آن به بعد ، استفاده در گزارش رسانه ای از جاده ابریشم(نوعی بلک مارکت) ،  بسیاری از مردم و رسانه ها ...

سایز

در سال 2000 ، مایکل کی. برگمن گفت چگونه سرچ کردن در اینترنت را میتوان با کشیدن یک شبکه در میان سطح یک اقیانوس مقایسه کرد : ممکن است که یک معامله خوبی در شبکه بدست بیاید ، اما ثروتی از اطلاعات وجود دارد که عمیق و در نتیجه از دست رفته است. بسیاری از اطلاعات وب بسیار پایین در سایت ها دفن شده اند ، و موتور های حست و جوی استاندارد  آن ها را پیدا نمیکنند.وتور ای جست وجوی سنتی محتوای در دیپ وب را نمیتوانند ببینند یا بازیابی کنند.بخشی از وب که توسط موتور های جست و جوی لیست شده به عنوان سرفیس وب ( وب سطحی) شناخته میشود. در سال 2001 ، دیپ وب چندین برابر بزرگتر از سرفیس وب بود. یک مقایسه از کوه یخ توسط دنیس شستاکوف به ترتیب نشان دهنده ی تفاوت بین سرفیس وب و دیپ وب است :

این غیر ممکن است که اندازه گرفت ، و سخت است که تخمین زد ، اندازه ی دیپ وب را زیرا اکثر اطلاعات مخفی یا قفل شده در پایگاه های داده هستند. تخمین های اولیه نشان میدهد دیپ وب 400 تا 550 بار برگتر از سرفیس وب است. با این حال از آنجاکه همیشه اطلاعات و سایت های بیشتری در حال اضافه شدن است میتوان فرض کرد که دیپ وب در حال رشد نمایی در نرخی است که نمیتوان مقدار دهی کرد.

براورد های مبتنی بر تعمیم دهی از یک مطالعه انجام شده در دانشگاه کالیفرنیا برکلی در سال 2001 اندیشید که دیپ وب حدودا شامل 7.5 پتابایت میشود. تخمین های دقیق تری نیز برای تعداد منابع  رد دیپ وب وجود دارد : تحقیقات او و همکارانش . حدود 300000 دیپ وب سایت درسال 2004 در کل وب شناسایی شده ، و با توجه به شستاکوف ، حدود 14000 دیپ وب سایت  در بخش روسی وب در سال 2006 وجود دارد.

محتوای لیست نشده

برگمن در یک مقاله در دیپ وب ، یک مجله الکترونیکی انتشاراتی ، ذکر کرد که جیل السورث از اصطلاح وب پنهان در سال 1994 استفاده کرد که به وب سایت هایی که توسط هیچ موتور جست و جویی ثبت نام نشده بودند اشاره میکرد. برگمن به مقاله ای که توسط فرانک گارسیا در ژانویه سال 1996 نوشته شده بود اشاره کرد:

ممکن است یک سایتی که به دلایل منطقی ای طراحی شده ، ولی آنها زحمت ثبت نام کردن آن در هیچ یک از موتور های جست و جو را به خود ندادند. بنابراین، هیچ کس نمیتواند آن ها را پیدا کند ! شما پنهان هستید . من آن ها را وب مخفی می نامم.

یکی دیگر از استفاده های اولیه از اصطلاح وب مخفی توسط بروس مونت و متئو بی. کل از کتابخانه نرم افزار شخصی ، در یک توصیف از اولین ابزار شناخته شده دیپ وب در یک مصاحبه مطبوعاتی در دسامبر سال 1996 بود.

اولین استفاده از اصطلاح خاص دیپ وب ، که در حال حاضر به طور کلی پذیرفته شده ، در مطالعه مذکور برگمن رخ داده است.

انواع محتوا

روش هایی که از لیست شدن صفحات وب توسط مرور گر های سنتی جلوگیری میکند ممکن است به عنوانن یک یا ببیشتر از موارد زیر طبقه بندی شود :

1 . وب متنی  : صفحاتی با محتوای متفاوت برای دسترسی های مختلف به متون. ( مثل محدوده هایی از آدرس های آی پی یا نتیجه دنباله های قبلی )

2 .محتوای پویا : صفحات پویا که به عنوان پرسشی به پرس و جو های ارسال شده برگردانده میشوند ....

3. محتوای دسترسی محدود : سایت هایی که دسترسی به صفحاتشان را با روش های تکنیکی محدود میکنند ( مثل استاندارد ممانعت از ربات ها یا کپچا ، یا ... که موتور های جستو جو را از لیست بندی  آن ها و تهیه کپی کَش منع میکند.)

4. محتوای غیر متنی/اچ تی ام ال :: محتای متنی در فایل های چند رسانه ای ( عکس یا فیلم ) کد گذاری میشوند یا فرمت های خاصی از فایل ها توسط موتور های جست وجو

5. وب خصوصی : سایت هایی که ثبت نام و وررود نیاز دارند ( منابع محافظت شده توسط کلمه عبور)

6.محتوای اسکریپت شده : صفحاتی که تنها از طریق لینک های تولید شده توسط جاوا اسکریپت قابل دسترسی هستند مثل محتوایی که به صورت پویا از وب سرور ها به وسیله ای کس یا فلش دانلود میشود.

7.نرم افزار : برخی از محتواها عمدا از اینترنت عادی مخفی شده اند ، و تنها با نرم افزار های خاصی مثل تور و آی تو پی یا سایر نرم افزار های دارک نت قابل دسترسی هست. تور به کاربران اجازه میدهد به وب سایت هایی که از آدرس سرور .آنیون استفاده میکنند به صورت بی نام  و مخفی کردن آدرس آی پی خود دسترسی پیدا کنند

8.محتوای لینک نشده: صفحاتی که با صفحات دیگه لینک نشده اند ، ممکن است برنامه های پوششی وب از دسترسی به محتوا منع شوند.این محتوا به مانند پیج هایی است که بک لینک ندارند.( به عنوان این لینک هم شناخته میشوند.)همچنین موتور های جست و جو همیشه همه ی بک لینک ها را از صفحات وب جست و جو شده را شناسایی نمیکند.

9. آرشیو های وب: سرویس هاس آرشیوی وب مثل "وی بک ماشین" کاربران را قادر به دیدن ورژن آرشیو شده ی صفحات وب در طول زمان میسازد ، شامل وب سایت هایی که غیر قابل دسترسی شده اند ، و توسط مرور گر هایی مثل گوگل، لیست بندی نشده اند.

روش های لیست بندی

وقتی که همیشه ممکن نیست به طور مستقیم محتوای یم وب سرور خاص را کشف کرد به طوری که ممکن است لیست شده باشد ، یک سایت به طور بالقوه میتواند به صورت غیر مستقیم به آن دسترسی داشته باشد( به دلیل آسیب پذیری کامپیوتر ها)

برای کشف کردن محتوا در وب ، موتور های جست وجو از خزندگان وب استفاده میکنند که لینک ها را از طریق پروتوکل شناخته شده ی اعداد پورت مجازی دنبال میکند. این تکنیک برای کشف کردن محتوا در سرفیس وب مناسب است اما اغلب برای کشف محتوا در دیپ وب نا کارامد است. مثلا ، این خزندگان( پوشش دهندگان) تلاشی برای پیدا کردن صفحات پویا که نتیجه ی  جستار های پایگاه داده به دلیل تعداد نامشخص جستار ها ، نمیکنند.

.

.

.

جستارهای وابسته[ویرایش]