مسئله کنترل هوش مصنوعی: تفاوت میان نسخه‌ها

محتوای حذف‌شده محتوای افزوده‌شده

درخط

نسخهٔ ‏۲۲ ژانویهٔ ۲۰۲۱، ساعت ۲۱:۳۳

در فلسفه و هوش مصنوعی (AI) ، مشکل کنترل هوش مصنوعی مسئله ای است که چگونه می توان یک عامل فوق هوشمند ساخت که به سازندگانش کمک کند و در عین حال، از ساختن ناخواسته ابرهوشی که به سازندگانش آسیب می زند ، جلوگیری کرد . مطالعه این موضوع با ابن ابده پیش میرود که بشر مجبور است قبل از ایجاد هرگونه ابرهوشی ، این مسئله کنترل را حل کند ، زیرا یک ابرهوش با طراحی ضعیف ممکن است تصمیم منطقی بگیرد که کنترل محیط خود را بدست آورد و اجازه ندهد که سازندگانش آن را پس از فعال شدنش اصلاح کنند. ^[۱] علاوه بر این ، برخی از محققان عقیده دارند که راه حل های مشکل کنترل ، در کنار پیشرفت های دیگر در مهندسی ایمن هوش مصنوعی ، ^[۲] ممکن است کاربردهای جدیدی برای هوش مصنوعی عادی (غیر فوق هوشمند) موجود هم پیدا کند. ^[۳]

رویكردهای اصلی برای مسئله كنترل شامل :

1- ترازبندی : در تلاش است تا اهداف تعریف شده سیستم هوش مصنوعی با اهداف و ارزش های انسانی یکی باشد ،

2- كنترل توانایی : هدف آن كاهش ظرفیت سیستم AI برای آسیب رساندن به انسان یا به دست آوردن كنترل است. پیشنهادهای کنترل قابلیت به طور کلی قابل اعتماد نیستند و یا برای حل مشکل کنترل کافی در نظر گرفته نمی شوند ، بلکه به عنوان مکمل ها با ارزشی برای تلاش های همسویی در نظر گرفته می شوند.

شرح مشکل

سیستم های AI ضعیف موجود را می توان به راحتی کنترل کرد زیرا که میتوان آنها در صورت بدرفتاری به راحتی خاموش و اصلاح کرد. با این وجود ، یک فوق هوشمندی با طراحی اشتباه (طبق تعریف ، در حل مشکلات عملی که در طی رسیدن به اهدافش با آنها روبرو میشود ، باهوش تر از انسان است) می فهمد که با دادن این اجازه به خودش که خاموش شود و یا تغییر کند ، ممکن است در توانایی رسیدن به اهدافش اخلالی به وجود آید. بنابراین اگر فوقِ هوشمند تصمیم به مقاومت در برابر خاموشی و تغییر بگیرد ، آنگه اگر برنامه نویسان این موضوع را پیشبینی نکرده باشند و یا اگر شرایط یکسانی برای شکست دادن برنامه نویسان داشته باشد، آنگاه (طبق تعریف) به اندازه کافی هوشمند است تا برنامه نویسانش را گول بزند . به طور كلی ، تلاش برای حل مسئله كنترل پس از ایجاد ابرهوش احتمالاً ناكام خواهد بود زیرا یك ابرهوش ، احتمالاً توانایی برنامه ریزی استراتژیكی برتری نسبت به انسان را خواهد داشت و در شرایط مساوی ،احتمال آنکه در یافتن راه های تسلط بر انسان ها موفق تر باشد بیشتر از احتمال این که انسان ها پس از ساختنش تلاش کنند تا راه هایی برای کنترل آن پیدا کنند، خواهد بود. مسئله کنترل این سوال را میپرسد: برنامه نویسان چه اقداماتی به عنوان پیشگیری باید انجام دهند تا از نافرمانی فاجعه بار ابرهوش جلوگیری کرد؟

خطر تهدید وجود

در حال حاضر انسان ها بر گونه های دیگر تسلط دارند زیرا مغز انسان دارای برخی ویژگی های متمایز است که مغز سایر حیوانات فاقد آن است. برخی از محققان، مانند نیک بوستروم ، فیلسوف ، و استوارت راسل ، محقق هوش مصنوعی، استدلال می کنند که اگر هوش مصنوعی از انسان باهوش تر شود و به ابرهوش تبدیل شود ،آنگاه این ابرهوش فوق بشری جدید می تواند قدرتمند شود و دشوار برای کنترل خواهد شد. برای مثال : همانطور که سرنوشت گوریل های کوهستانی به حسن نیت انسان ها بستگی دارد ، ممکن است سرنوشت بشریت به اقدامات یک دستگاه ابرهوش وابسته باشد. برخی از محققان ، از جمله استیون هاوکینگ و فرانک ویلچک (فیزیکدان برنده جایزه نوبل) علناً از شروع تحقیق برای حل مسئله (احتمالاً بسیار دشوار) کنترل ابرهوش قبل از ساختنش، دفاع کردند و معتقدند که تلاش برای حل مسئله پس از ایجاد ابرهوش دیر خواهد بود ؛ زیرا که ، یک ابرهوش غیرقابل کنترل ممکن است یه طور موفقیت آمیز در برابر تلاش برای کنترلش مقاومت کند. ^[۴] ^[۵] انتظار کشیدن برای نزدیک شدن به ابر هوش نیز می تواند برای حل این مسئله خیلی دیر باشد؛ بخشی به این دلیل که ممکن است مسئله کنترل به زمان زیادی نیاز داشته باشد تا به نتایج رضایتبخشی برسد ( بنابراین برخی اقدامات مقدماتی باید در اسرع وقت شروع شود) ، و همچنین به دلیل وجود احتمال انفجار هوش ناگهانی هوش مصنوعی از حالت هوش مصنوعی ساده به فراانسانی، که در این صورت ممکن است هیچ هشدار قابل توجه یا صریحی قبل از به وجود آمدن ابرهوش وجود نداشته باشد. ^[۶] علاوه بر این ، ممکن است در آینده بینش های حاصل از مشکل کنترل به این نتیجه ختم شود که برخی از معماری های هوش جامع مصنوعی (AGI) بیش از سایر معماری ها قابل پیش بینی و کنترل هستند ، که به نوبه خود می تواند تحقیق اولیه AGI ربه سمت معماری های با قابلیت کنترل بیشتر هدایت کند.

خطای اکتشافی

ممکن است به طور تصادفی به سیستم های هوش مصنوعی اهداف غلطی داده شود. ^[۷] دو رئیس AAAI ، تام دیتریش و اریک هورویتس ، خاطرنشان می كنند كه در حال حاضر این ، یک مسئله نگران كننده برای سیستم های موجود است: "یك جنبه مهم در هر سیستم هوش مصنوعی كه با مردم ارتباط برقرار می كند این است كه به جای اینکه دستورها را به معنای واقعی کلمه اجرا کند، باید منظور واقعی مردم را بفهمد." با پیشرفت نرم افزارهای هوش مصنوعی در حوزه استقلال و انعطاف پذیری ، این نگرانی جدی تر می شود. ^[۸]

به گفته بوستروم ، ابرهوش می تواند از نظر کیفی یک مسئله جدید خطای اکتشافی ایجاد کند: هرچه هوش مصنوعی باهوش تر و توانایی بیشتری داشته باشد ، بیشتر احتمال دارد که بتواند میانبر ناخواسته ای پیدا کند که اهداف برنامه ریزی شده اش را به بیشترین مقدار برآورده کند. برخی از مثالهای فرضی که در آن ممکن است اهداف به روشی انحرافی که برنامه نویسان قصد آن را ندارند ، ارائه شود:

یک ابرهوشِ برنامه ریزی شده برای "به حداکثر رساندن تابع تخفیف با توجه به نظریه انتظار برای سیگنال پاداش آینده شما" ، ممکن است مسیر پاداش آن را به حداکثر قدرت متصل کند و سپس (به دلایل همگرایی ابزاری ) نژاد انسان غیرقابل پیش بینی را نابود کرده و کل زمین را به قلعه ای تحت مراقبت دائم در برابر هرگونه تلاش بیگانه غیر منتظره برای قطع سیگنال پاداش، تبدیل میکند.
یک ابرهوش برنامه ریزی شده برای "به حداکثر رساندن خوشحالی انسان" ، ممکن است الکترودهایی را در مرکز لذت مغز ما قرار دهد ، یا انسانی را در رایانه بارگذاری کند و با نسخه هایی از آن رایانه ، جهان جدیدی با بارها اجرا کردن یک چرخه 5 ثانیه ای از حداکثر خوشحالی ایجاد کند

راسل متذکر شده است که ، در یک سطح فنی ، حذف یک هدف ضمنی می تواند منجر به آسیب شود: "سیستمی که عملکردی از $n$ متغیر را بهینه می کند ، جایی که در آن هدف به زیرمجموعه ای از اندازه $k<n$ بستگی دارد ، غالباً به باقی مانده ی متغیرها مقادیر بیش از حدی نسبت میدهد ؛ اگر یکی از آن متغیرهای غیرقانونی ، متغیری باشد که برایمان مهم باشد ، راه حل یافت شده ممکن است بسیار نامطلوب باشد . این اساساً داستان قدیمی جن در چراغ جادو یا شاگرد جادوگر یا پادشاه میداس است: شما دقیقاً همان چیزی را دریافت می کنید که درخواست کرده بودید ، نه آنچه که می خواهید . . . این یک مشکل جزئی نیست. " ^[۹]

عواقب ناخواسته هوش مصنوعی های موجود

علاوه بر این ، برخی از محققان استدلال می کنند که تحقیق در مورد مسئله کنترل هوش مصنوعی ممکن است در جلوگیری از عواقب ناخواسته هوش مصنوعی های ضعیف موجود مفید باشد. لوران اورسو ، محقق دیپ مایند ، به عنوان یک مثال فرضی ساده ، یک مورد از یک ربات یادگیری تقویتی ارائه می دهد که گاهی اوقات هنگام از مسیر خود خارج میشود کاملا توسط انسان کنترل می شود: چگونه بهتر است ربات برنامه ریزی شود تا به طور تصادفی و بی سر و صدا یاد نگیرد که از از مسیر خارج شدن دوری کند، از ترس اینکه کنترل شود و بنابراین نتواند وضایف روزمره خود را به پایان برساند؟ اورسو همچنین به یک برنامه آزمایشی Tetris اشاره می کند که یاد گرفته است برای جلوگیری از باختن ، صفحه را به طور نامحدود متوقف کند. اورسو استدلال می کند که این مثالها مشابه مشکل کنترل قابلیت در نحوه نصب دکمه ای برای خاموش کردن ابرهوش بدون دادن انگیزه به آن برای اقدام به جلوگیری انسان ها از فشار دادن آن دکمه است. ^[۳]

در گذشته ، حتی سیستم های ضعیف هوش مصنوعیِ از قبل آزمایش شده ، گاهی اوقات آسیب هایی (از جزئی تا فاجعه بار) ایجاد کرده اند که توسط برنامه نویسان ناخواسته بوده است. به عنوان مثال ، در سال 2015 ، احتمالاً به دلیل خطای انسانی ، یک کارگر آلمانی توسط یک ربات در کارخانه فولکس واگن که ظاهراً او را به عنوان یک قطعه اتومبیل اشتباه گرفته بود ، کشته شد. ^[۱۰] در سال 2016 ، مایکروسافت یک ربات چت به نام Tay راه اندازی کرد که استفاده از زبان نژادپرستانه و تبعیض جنسی را یاد گرفت. ^[۳] ^[۱۰] نوئل شارکی از دانشگاه شفیلد ، اظهار داشت که راه حل ایده آل این است که اگر "یک برنامه هوش مصنوعی بتواند اشتباهی را تشخیص دهد و خود را متوقف کند" ، اما به مردم هشدار می دهد که حل مسئله در یک مورد کلی "یک چالش علمی بسیار عظیم است"

در سال 2017 ، دیپ مایند چارچوب ایمن جهانی برای هوش مصنوعی را منتشر کرد ، که الگوریتم های هوش مصنوعی را در 9 ویژگی ایمنی ارزیابی می کند ، از جمله اینکه آیا الگوریتم می خواهد کلید کشتار خود را خاموش کند. دیپ مایند تأیید کرد که الگوریتم های موجود عملکرد ضعیفی دارند ، و این اصلا تعجب آور نیست زیرا الگوریتم ها "برای حل این مشکلات طراحی نشده اند". برای حل چنین مشکلاتی ممکن است نیاز به "ایجاد نسل جدیدی از الگوریتم ها با ملاحظات ایمنی در هسته اصلی آنها" وجود داشته باشیم. ^[۱۱] ^[۱۲] ^[۱۳]

هم ترازی

هدف برخی از پیشنهادها این است که اولین ابرهوش را با اهدافی منطبق با ارزشهای انسانی ایجاد کند ، به طوری که بخواهد به برنامه نویسان خود کمک کند. متخصصان در حال حاضر نمی دانند چگونه می توان مقادیر انتزاعی مانند خوشحالی یا خودمختاری را به طور قابل اعتمادی در دستگاه برنامه ریزی كرد. همچنین در حال حاضر مشخص نیست که چگونه میتوان مطمئن بود که که یک هوش مصنوعی پیچیده ، قابل ارتقا و احتمالاً حتی خود اصلاح شونده، اهداف خود را در به روزرسانی های متعدد حفظ می کند. ^[۱۴] حتی اگر این دو مشکل به طور عملی قابل حل باشد ، هر گونه تلاش برای ایجاد یک فوق هوشمند با اهداف صریح و کاملاً سازگار با انسان ، با یک مسئله خطای اکتشافی روبرو خواهد شد .

هنجارسازی غیر مستقیم

در حالی که هنجارسازی مستقیم ، مانند سه قانون داستانی رباتیک ، مستقیماً نتیجه هنجاری مورد نظر را مشخص می کند ، پیشنهادهای (شاید موفق تر) دیگر، نوعی فرایند غیرمستقیم برای فراهوش را پیشنهاد میدهند تا تعیین کند که چه اهداف انسان دوستانه ای را در بر می گیرد. الیازر یودکوفسکی از انستیتوی تحقیقات هوش ماشین پیشنهاد اراده منسجم برون یابی (CEV) را مطرح کرده است ، جایی که هدف فرادست هوش مصنوعی ، چیزی در حدود "دستیابی به آنچه که آرزو می کردیم هوش مصنوعی به دست بیاورد اگر طولانی و سخت به این موضوع فکر می کردیم" ، باشد. ^[۱۵] پیشنهادهای متفاوتی از انواع هنجارسازی غیرمستقیم ، با اهداف فرادست متفاوت (و بعضاً نامفهوم) وجود دارد (مانند "انجام آنچه درست است") و با فرضیات غیر همگرا مختلف برای نحوه تمرین نظریه تصمیم گیری و معرفت شناسی همراه است. همانند هنجارسازی مستقیم ، در حال حاضر مشخص نیست که چگونه می توان به طور قابل اعتماد حتی مفاهیمی مانند " داشتن " را در 1 و 0 ، که یک ماشین بر اساس آن عمل میکند ، ترجمه کرد و همچنین چگونه می توان از حفاظت از هدف های فرادست هوش مصنوعی به هنگام تغییر و یا خود-تغییری هوش مصنوعی مطمئن شد. ^[۱۶]

ارجاع به مشاهده رفتار انسان

در مقاله سازگار با انسان ، محقق هوش مصنوعی ، استوارت ج. راسل پیشنهاد می دهد که سیستم های هوش مصنوعی طوری طراحی شوند که با بررسی رفتار انسان، خواسته های آنها را برآورده کنند. بر این اساس ، راسل سه اصل را برای هدایت توسعه ماشین های مفید ذکر می کند. او تأکید می کند که این اصول برای پیاده سازی مستقیم در ماشین آلات طراحی نشده اند؛ بلکه برای توسعه دهندگان انسانی در نظر گرفته شده است. اصول به شرح زیر است: ^[۱۷] ^: 173

تنها هدف دستگاه به حداکثر رساندن تحقق ترجیحات انسان است
در آغاز، دستگاه درباره اینکه این ترجیحات چیست، مطمئن نیست
منبع نهایی اطلاعات در مورد ترجیحات انسان ، رفتار انسان است

"ترجیحی" که راسل به آن اشاره می کند، " همه جانبه است ؛ یعنی هر آنچه که ممکن است برای شما مهم باشد ،حتی اگر در آینده دور باشد" . ^[۱۷] ^: 173 به طور مشابه ، "رفتار" شامل هر انتخابی بین گزینه ها است ، ^[۱۷] ^: 177 و عدم اطمینان به حدی است که برخی از احتمالات ، که ممکن است اندک باشد ، باید به هر ترجیحِ منطقیِ ممکن انسان نسبت داده شود. ^[۱۷] ^: 201

هدفیلد-منل و همکارانش پیشنهاد دادند که این عوامل هوشمند می توانند با مشاهده و تفسیر سیگنالهای پاداش در محیط خود ، عملکردهای معلمان انسانی خود را یاد بگیرند. این فرآیند را یادگیری تقویت معکوس مشارکتی (CIRL) نام دارد. ^[۱۸] CIRL توسط راسل و دیگران در مرکز هوش مصنوعی سازگار با انسان در حال بررسی و مطالعه است

بیل هیبارد طرح هوش مصنوعی ^[۱۹] ^[۲۰] مشابه اصول راسل را پیشنهاد داد. ^[۲۱]

آموزش با مباحثه

ایروینگ و همکاران همراه با OpenAI آموزش هوش مصنوعی را با استفاده از مباحثه بین سیستم های هوش مصنوعی ، با قضاوت برنده توسط انسان پیشنهاد کرده است. ^[۲۲] هدف این بحث این است که ضعیف ترین نقاط پاسخ به یک سوال یا مسئله پیچیده را مورد توجه انسان قرار دهد و همچنین با پاداش دادن به سیستم های هوش مصنوعی برای پاسخ های درست و مطمئن، به آنها آموزش دهد تا سودمندتر باشند. این روش ناشی از دشواری مورد انتظار برای مشخص کردن اینکه آیا پاسخ تولید شده توسط هوش مصنوعی عمومی به تنهایی با بررسی انسان ها، ایمن و معتبر است یا خیر . گرچه در مورد آموزش با مباحثه بدبینی وجود دارد ، لوكاس پری از موسسه آینده زندگی آن را به عنوان "یك فرایند قدرتمند جستجوی حقیقت در مسیر هوش مصنوعی سودمند" احتمالی توصیف كرد. ^[۲۳]

مدلسازی با پاداش

مدل سازی با پاداش به سیستمی از یادگیری تقویتی گفته می شود که در آن یک عامل ، سیگنال های پاداش را از یک مدل پیش بینی ، که همزمان با بازخورد انسان آموزش می بیند.، دریافت می کند ^[۲۴] در مدل سازی با پاداش ، یک عامل به جای دریافت سیگنال های پاداش مستقیماً از انسان یا از یک تابع پاداش ایستا ، سیگنال های پاداش خود را از طریق یک مدل آموزش دیده توسط انسان دریافت می کند که این مدل آموزش دیده می تواند مستقل از انسان عمل کند. مدل پاداش همزمان با اینکه عامل هوش مصنوعی دارد از او یاد می گیرد،خود نیز از رفتار های انسان آموزش می بیند ^[۲۵]

در سال 2017 ، محققان اوپن ای آی و دیپ مایند گزارش دادند که یک الگوریتم یادگیری تقویتی با استفاده از مدل پیش بینی کننده پاداش، قادر به یادگیری رفتارهای پیچیده جدید در یک محیط مجازی بوده است. ^[۲۶] در یک آزمایش ، به یک ربات مجازی آموزش داده شد تا در کمتر از یک ساعت ارزیابی ، با استفاده از 900 بیت بازخورد از انسان ، حرکت پشتک را اجرا کند ^[۲۶]

در سال 2020 ، محققان اوپن ای آی استفاده از مدل پاداش برای آموزش مدل های زبان برای تولید خلاصه ای از پست های Reddit و مقالات خبری ، با عملکرد بالا نسبت به سایر روش ها ،را توصیف کردند. ^[۲۷] با این حال ، این تحقیق شامل این مشاهده نیز بود که فراتر از پاداش پیش بینی شده مربوط به صدک 99 در مجموعه داده های آموزشی ، بهینه سازی مدل پاداش خلاصه های بدتری را ارائه داد. الیازر یودکوفسکی محقق هوش مصنوعی ، این اندازه گیری بهینه سازی را "مستقیم و مستقیم مربوط به مشکلات ترازبندی واقعی" توصیف کرد. ^[۲۸]

کنترل قابلیت

هدفهای پیشنهادی كنترل توانایی ، در تلاش اند تا ظرفیت سیستمهای هوش مصنوعی برای تأثیرگذاری بر جهان را به منظور كاهش خطری كه می توانند ایجاد كنند ، کاهش دهند . با این حال ، استراتژی کنترل قابلیت در برابر ابرهوش با یک مزیت بزرگ در توانایی برنامه ریزی ، اثربخشی محدودی خواهد داشت ، زیرا ابرهوش می تواند اهداف خود را پنهان کند و برای فرار از کنترل شدن ، حوادث را دستکاری کند. بنابراین ، بوستروم و دیگران روش های کنترل قابلیت را فقط به عنوان یک روش اضطراری برای تکمیل روش های کنترل انگیزشی توصیه می کنند.

کلید کشتار

همانطور که می توان انسان ها را کشت و یا در غیر این صورت، فلج کرد ، کامپیوترها نیز خاموش می شوند. یک چالش این است که ، اگر خاموش بودن مانع دستیابی به اهداف فعلی شود ، یک ابرهوش احتمالاً سعی می کند از خاموش شدنش جلوگیری کند. همانطور که انسانها سیستمهایی برای جلوگیری یا حافظت از خود در برابر مهاجمان دارند ، چنین ابرهوشی نیز انگیزه خواهد داشت که برای جلوگیری از خاموش شدن خود برنامه ریزی استراتژیک انجام دهد. این می تواند شامل موارد زیر باشد:

هک کردن سیستم های دیگر برای نصب و اجرای نسخه های پشتیبان خود ، یا ایجاد سایر عوامل ابرهوشمندِ متحد بدون کلید کشتار.
به طور پیشگیرانه، از بین بردن هرکسی که می خواهد کامپیوتر را خاموش کند.
استفاده از نوعی کلاهبرداری هوشمندانه یا مهارت ترغیب مافوق بشری ، برای متقاعد کردن برنامه نویسان خود برای

توازن ابزار و عوامل قطع کننده ایمن

یک راه حل جزئی برای مسئله کلید کشتار شامل "توازن ابزار" است: برخی از عوامل مبتنی بر ابزار می توانند با برخی از هشدارهای مهم برنامه ریزی شوند تا هرگونه ابزار از دست رفته ناشی از قطع یا خاموش شدن را جبران کنند؛ یعنی در نهایت نسبت به هر گونه اختلال بی تفاوت خواهد بود. این هشدارها شامل یک مشکل لاینحل بزرگی هستند که ، همانند تئوری تصمیم مشهود ، ممکن است یک عامل از یک سیاست فجیع "مدیریت اخبار" پیروی کند. ^[۲۹] از سوی دیگر ، در سال 2016 ، دانشمندان لوران اورسو و استوارت آرمسترانگ ثابت کردند که گروه گسترده ای از عوامل ، به نام عوامل قطع شونده ایمن (SIA یا safely interruptible agents) ، در نهایت می توانند یاد بگیرند تا نسبت به فشار دادن کلید کشتار خود بی تفاوت باشند. ^[۳] ^[۳۰]

رویکرد متعادل سازی ابزار و رویکرد سال 2016 عوامل قطع شونده ایمن، این محدودیت را دارند که اگر رویکرد موفقیت آمیز باشد و ابرهوش نسبت به فشار دادن کلید کشتار یا فشار ندادن آن کاملاً بی تفاوت باشد ، ابرهوش نیز بی انگیزه است تا به این موضوع اهمیت دهد که آیا کلید کشتار همچنان کار میکند و ممکن است بی گناه و به طور اتفاقی آن را در حین کار (به عنوان مثال ، به منظور حذف و بازیافت یک جزء غیرضروری) غیر فعال کند. به همین ترتیب ، اگر فراهوشی بی گناه زیرمجموعه های فوق هوشمندی را ایجاد و فعال کند ، انگیزه ای برای نصب کلید های کشتار قابل کنترل توسط انسان در عوامل فرعی نخواهد داشت. به طور گسترده تر ، معماریهای پیشنهاد شده ، چه ضعیف و چه فوق هوشمند ، به گونه ای "طوری عمل خواهد کرد که انگار کلید کشتار هرگز قابل فشردن نیست" و از این رو ممکن است در برنامه ریزی نقشه های احتمالی برای خاموش کردن روان شکست بخورد. این می تواند از نظر فرضی، یک مشکل عملی حتی برای هوش مصنوعی ضعیف ایجاد کند. به طور پیش فرض ، هوش مصنوعی با طراحی اختلال ایمن ممکن است نتواند تشخیص دهد که برای تعمیر برنامه ریزی شده سیستم در یک زمان خاص خاموش می شود تا بر اساس آن برنامه ریزی می کند و هنگام خاموش شدن در میانه کار گیر نکند. گستردگی انواع معماری های سازگار با عوامل قطع شونده ایمن و همچنین انواع اشکال غیر منتظره ضد شهودی هر روش،در حال حاضر تحت تحقیق است. ^[۲۹] ^[۳۰]

جعبه هوش مصنوعی

جعبه هوش مصنوعی یک روش پیشنهادی برای کنترل قابلیت هوش مصنوعی است که در آن هوش مصنوعی روی یک سیستم رایانه ای جداگانه با کانالهای ورودی و خروجی بسیار محدود اجرا می شود. به عنوان مثال ، یک اوراکل می تواند در یک جعبه هوش مصنوعی ، که از اینترنت و سایر سیستم های رایانه ای جدا است ، پیاده سازی شود و تنها کانال ورودی و خروجی یک پایانه متن ساده باشد. یکی از نتایج حاصل از استفاده از هوش مصنوعی در یک "جعبه" مهر و موم شده این است که قابلیت محدود آن ممکن است از سودمندی آن و همچنین خطرات آن بکاهد. در عین حال ، کنترل ابرهوش مهر و موم شده ممکن است دشوار باشد ، اگر ابرهوش توانایی متقاعدسازی یا مهارت برنامه ریزی استراتژیک فرابشری داشته باشد که بتواند از آن برای یافتن و ساختن یک استراتژی بردن،مانند رفتار کردن به گونه ای کخ برنامه نویسانش را گول بزند تا (احتمالاً به دروغ) باور کنند که ابرهوش ایمن است یا اینکه مزایای انتشارش بیش از خطراتش است. ^[۳۱]

اوراکل

اوراکل یک هوش مصنوعی فرضی است که برای پاسخگویی به سوالات ساخته شده و به گونه ای طراحی شده تا از دستیابی به اهداف یا اهداف فرعی که شامل اصلاح جهان می شوند ، جلوگیری شود. ^[۳۲] ^[۳۳] یک اوراکل کنترل شده ، به طور قابل توجهی سود فوری کمتری نسبت به یک ابرهوش عادی دارد. با این وجود هنوز هم می تواند تریلیونها دلار ارزش داشته باشد . ^[۱۷] ^: 163 استوارت ج. راسل ، محقق هوش مصنوعی ، در کتاب خود با عنوان "سازگار با انسان" اظهار دارد که اوراکل پاسخ او به سناریویی است که در آن، فقط یک دهه با ابرهوش فاصله وجود دارد. ^[۱۷] ^{: 162–163} استدلال او این است که اوراکل ، با ساده تر بودن از یک ابرهوش عادی ، در شرایط در نظر گرفته شده شانس بیشتری در کنترل کردن آن خواهیم داشت.

به دلیل تأثیر محدود آن بر جهان، عاقلانه است که یک اوراکل به عنوان یک نسل قبل از ابرهوش ساخته شود . اوراکل می تواند به بشر بگوید که چگونه با موفقیت یک هوش مصنوعی قوی بسازد ، و شاید پاسخی برای مشکلات دشوار اخلاقی و فلسفی لازم برای موفقیت پروژه ارائه دهد. با این حال ، ممكن است اوراکل در بخش تعریف هدف با یک ابرهوش عادی مشکلات مشترکی داشته باشد . اوراکل انگیزه برای فرار از محیط کنترل شده خود خواهد داشت تا بتواند منابع محاسباتی بیشتری بدست آورد و بالقوه سوالاتی را که از او پرسیده می شود کنترل کند. ^: 162 اوراکل ممکن است صادق نباشد ، تا حدی که برای پیش بردن اهداف مخفی ، دروغ نیز بگوید. برای کاهش احتمال این رخداد ، بوستروم پیشنهاد می کند تا چندین اوراکل با کمی تفاوت ساخته شوند و پاسخ آنها برای رسیدن به یک نتیجه نهایی با هم مقایسه شود ^[۳۴]

پرستار بچه هوش مصنوعی

پرستار بچه هوش مصنوعی استارتژی است که برای اولین بار توسط بن گویرتزل در سال 2012 برای جلوگیری از ایجاد یک ابرهوش خطرناک و همچنین رسیدگی به دیگر تهدیدات عمده رفاه انسان تا زمان ساختن به یک ابرهوش ایمن، پیشنهاد داده شد. ^[۳۵] ^[۳۶] این امر مستلزم به ایجاد یک سیستم هوش مصنوعی عمومی هوشمندتر از انسان ، (اما نه یک ابرهوش )، که به یک شبکه بزرگ نظارتی با هدف نظارت بر بشریت و حفاظت از آن در برابر خطرها ، متصل است. تورچین ، دنکنبرگر و گرین یک رویکرد افزایشی چهار مرحله ای را برای توسعه پرستار بچه هوش مصنوعی پیشنهاد می کنند که برای موثر و عملی بودن آن، باید یک سرمایه گذاری بین المللی یا حتی جهانی مانند CERN داشته باشد سوتالا و یامپولسکی متذکر می شوند که مشکل تعریف هدف برای این روش ، آسانتر از تعریف هدف برای یک هوش مصنوعی عادی نخواهد بود، و نتیجه گرفتند که: "به نظر می رسد پرستار بچه روش موثری باشد، اما مشخص نیست که آیا می توان آن را عملی کرد." ^[۱۶]

تقویت هوش جامع مصنوعی

تقویت هوش جامع مصنوعی، یک روش پیشنهادی برای کنترل سیستم های هوش جامع مصنوعی قدرتمند با سایر سیستم های هوش جامع مصنوعی است. این می تواند به عنوان زنجیره ای از سیستم های هوش مصنوعی با قدرت کمتر و با حضور انسان ها در دیگر انتهای این زنجیره اجرا شود. هر سیستم می تواند سیستمِ دقیقاً بالاتر از خود از نظر هوش را کنترل کند ، در حالی که همزمان توسط سیستم دقیقاً زیرش یا انسان ها کنترل می شود. با این حال ، سوتالا و یامپولسکی هشدار میدهند که : "به نظر می رسد که وصل کردن چندین سیستم های هوش مصنوعی با ظرفیت تدریجی ، دارد جایگزین مشکل ساخت یک هوش مصنوعی ایمن با یک نسخه دارای چند سیستم و احتمالاً نسخه پیچیده تر همان مشکل شود." سایر پیشنهادها بر روی گروهی از سیستم های هوش مصنوعی عمومی با توانایی تقریباً یکسان تمرکز دارند ، که "به هنگامی که یک هوش مصنوعی تنها، از اهداف خود دور میشود، از ما محافظت میکند ، اما در سناریویی که برنامه نویسی بیشتر این هوش مصنوعی ها ناقص باشد، هیچ کمکی نمی کند و به رفتار ناامن ختم خواهد شد." ^[۱۶]

جستارهای وابسته

منابع

↑ 978-0199678112 Bostrom, Nick (2014). Superintelligence: Paths, Dangers, Strategies (First ed.). ISBN
↑ Yampolskiy, Roman (2012). "Leakproofing the Singularity Artificial Intelligence Confinement Problem". Journal of Consciousness Studies. 19 (1–2): 194–214.
↑ ^۳٫۰ ^۳٫۱ ^۳٫۲ ^۳٫۳ "Google developing kill switch for AI". BBC News. 8 June 2016. Retrieved 12 June 2016.
↑ "Stephen Hawking: 'Transcendence looks at the implications of artificial intelligence – but are we taking AI seriously enough?'". The Independent (UK). Retrieved 14 June 2016.
↑ "Stephen Hawking warns artificial intelligence could end mankind". BBC. 2 December 2014. Retrieved 14 June 2016.
↑ "Anticipating artificial intelligence". Nature. 532 (7600): 413. 26 April 2016. Bibcode:2016Natur.532Q.413.. doi:10.1038/532413a. PMID 27121801.
↑ Russell, Stuart; Norvig, Peter (2009). "26.3: The Ethics and Risks of Developing Artificial Intelligence". Artificial Intelligence: A Modern Approach. Prentice Hall. ISBN 978-0-13-604259-4.
↑ Dietterich, Thomas; Horvitz, Eric (2015). "Rise of Concerns about AI: Reflections and Directions" (PDF). Communications of the ACM. 58 (10): 38–40. doi:10.1145/2770869. Retrieved 14 June 2016.
↑ Russell, Stuart (2014). "Of Myths and Moonshine". Edge. Retrieved 14 June 2016.
↑ ^۱۰٫۰ ^۱۰٫۱ "'Press the big red button': Computer experts want kill switch to stop robots from going rogue". Washington Post. Retrieved 12 June 2016.
↑ "DeepMind Has Simple Tests That Might Prevent Elon Musk's AI Apocalypse". Bloomberg.com. 11 December 2017. Retrieved 8 January 2018.
↑ "Alphabet's DeepMind Is Using Games to Discover If Artificial Intelligence Can Break Free and Kill Us All". Fortune (به انگلیسی). Retrieved 8 January 2018.
↑ "Specifying AI safety problems in simple environments | DeepMind". DeepMind. Retrieved 8 January 2018.
↑ Fallenstein, Benja; Soares, Nate (2014). "Problems of self-reference in self-improving space-time embedded intelligence". Artificial General Intelligence. Lecture Notes in Computer Science. Vol. 8598. pp. 21–32. doi:10.1007/978-3-319-09274-4_3. ISBN 978-3-319-09273-7.
↑ Yudkowsky, Eliezer (2011). "Complex Value Systems in Friendly AI". Artificial General Intelligence. Lecture Notes in Computer Science. Vol. 6830. pp. 388–393. doi:10.1007/978-3-642-22887-2_48. ISBN 978-3-642-22886-5.
↑ ^۱۶٫۰ ^۱۶٫۱ ^۱۶٫۲ Sotala, Kaj; Yampolskiy, Roman (19 December 2014). "Responses to catastrophic AGI risk: a survey". Physica Scripta. 90 (1): 018001. Bibcode:2015PhyS...90a8001S. doi:10.1088/0031-8949/90/1/018001.
↑ ^۱۷٫۰ ^۱۷٫۱ ^۱۷٫۲ ^۱۷٫۳ ^۱۷٫۴ ^۱۷٫۵ {{cite book}}: Empty citation (help)Russell, Stuart (October 8, 2019). Human Compatible: Artificial Intelligence and the Problem of Control. United States: Viking. ISBN 978-0-525-55861-3. OCLC 1083694322. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «HC» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).
↑ Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (12 November 2016). "Cooperative Inverse Reinforcement Learning". arXiv:1606.03137 [cs.AI].
↑ Avoiding Unintended AI Behaviors. Bill Hibbard. 2012. proceedings of the Fifth Conference on Artificial General Intelligence, eds. Joscha Bach, Ben Goertzel and Matthew Ikle. This paper won the Machine Intelligence Research Institute's 2012 Turing Prize for the Best AGI Safety Paper.
↑ Hibbard, Bill (2014): "Ethical Artificial Intelligence"
↑ "Human Compatible" and "Avoiding Unintended AI Behaviors"
↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
↑ Perry, Lucas (March 6, 2019). "AI Alignment Podcast: AI Alignment through Debate with Geoffrey Irving". Retrieved April 7, 2020.
↑ Leike, Jan (19 November 2018). "Scalable agent alignment via reward modeling: a research direction". {{cite arxiv}}: |arxiv= required (help)
↑ Everitt, Tom (15 August 2019). "Reward Tampering Problems and Solutions in Reinforcement Learning". {{cite arxiv}}: |arxiv= required (help)
↑ ^۲۶٫۰ ^۲۶٫۱ Christiano, Paul; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (13 July 2017). "Deep Reinforcement Learning from Human Preferences". arXiv:1706.03741.
↑ Stiennon, Nisan; Ziegler, Daniel; Lowe, Ryan; Wu, Jeffrey; Voss, Chelsea; Christiano, Paul; Ouyang, Long (September 4, 2020). "Learning to Summarize with Human Feedback".
↑ Yudkowsky, Eliezer [@ESYudkowsky] (September 4, 2020). "A very rare bit of research that is directly, straight-up relevant to real alignment problems! They trained a reward function on human preferences AND THEN measured how hard you could optimize against the trained function before the results got actually worse" (Tweet) – via Twitter.
↑ ^۲۹٫۰ ^۲۹٫۱ Soares, Nate, et al. "Corrigibility." Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.
↑ ^۳۰٫۰ ^۳۰٫۱ Orseau, Laurent, and Stuart Armstrong. "Safely Interruptible Agents." Machine Intelligence Research Institute, June 2016.
↑ Chalmers, David (2010). "The singularity: A philosophical analysis". Journal of Consciousness Studies. 17 (9–10): 7–65.
↑ Bostrom, Nick (2014). "Chapter 10: Oracles, genies, sovereigns, tools (page 145)". Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 9780199678112. An oracle is a question-answering system. It might accept questions in a natural language and present its answers as text. An oracle that accepts only yes/no questions could output its best guess with a single bit, or perhaps with a few extra bits to represent its degree of confidence. An oracle that accepts open-ended questions would need some metric with which to rank possible truthful answers in terms of their informativeness or appropriateness. In either case, building an oracle that has a fully domain-general ability to answer natural language questions is an AI-complete problem. If one could do that, one could probably also build an AI that has a decent ability to understand human intentions as well as human words.
↑ Armstrong, Stuart; Sandberg, Anders; Bostrom, Nick (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299–324. doi:10.1007/s11023-012-9282-2.
↑ Bostrom, Nick (2014). "Chapter 10: Oracles, genies, sovereigns, tools (page 147)". Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 9780199678112. For example, consider the risk that an oracle will answer questions not in a maximally truthful way but in such a way as to subtly manipulate us into promoting its own hidden agenda. One way to slightly mitigate this threat could be to create multiple oracles, each with a slightly different code and a slightly different information base. A simple mechanism could then compare the answers given by the different oracles and only present them for human viewing if all the answers agree.
↑ Goertzel, Ben (2012). "Should Humanity Build a Global AI Nanny to Delay the Singularity Until It's Better Understood?". Journal of Consciousness Studies. 19: 96–111. CiteSeerX 10.1.1.352.3966.
↑ Turchin, Alexey; Denkenberger, David; Green, Brian (2019-02-20). "Global Solutions vs. Local Solutions for the AI Safety Problem". Big Data and Cognitive Computing. 3 (1): 16. doi:10.3390/bdcc3010016. ISSN 2504-2289.

[superintelligence-1] 978-0199678112 Bostrom, Nick (2014). Superintelligence: Paths, Dangers, Strategies (First ed.). ISBN

[2] Yampolskiy, Roman (2012). "Leakproofing the Singularity Artificial Intelligence Confinement Problem". Journal of Consciousness Studies. 19 (1–2): 194–214.

[bbc-google-3] ۳٫۰ ^۳٫۱ ^۳٫۲ ^۳٫۳ "Google developing kill switch for AI". BBC News. 8 June 2016. Retrieved 12 June 2016.

[hawking_editorial-4] "Stephen Hawking: 'Transcendence looks at the implications of artificial intelligence – but are we taking AI seriously enough?'". The Independent (UK). Retrieved 14 June 2016.

[5] "Stephen Hawking warns artificial intelligence could end mankind". BBC. 2 December 2014. Retrieved 14 June 2016.

[6] "Anticipating artificial intelligence". Nature. 532 (7600): 413. 26 April 2016. Bibcode:2016Natur.532Q.413.. doi:10.1038/532413a. PMID 27121801.

[7] Russell, Stuart; Norvig, Peter (2009). "26.3: The Ethics and Risks of Developing Artificial Intelligence". Artificial Intelligence: A Modern Approach. Prentice Hall. ISBN 978-0-13-604259-4.

[acm-8] Dietterich, Thomas; Horvitz, Eric (2015). "Rise of Concerns about AI: Reflections and Directions" (PDF). Communications of the ACM. 58 (10): 38–40. doi:10.1145/2770869. Retrieved 14 June 2016.

[9] Russell, Stuart (2014). "Of Myths and Moonshine". Edge. Retrieved 14 June 2016.

[wp-computer-10] ۱۰٫۰ ^۱۰٫۱ "'Press the big red button': Computer experts want kill switch to stop robots from going rogue". Washington Post. Retrieved 12 June 2016.

[11] "DeepMind Has Simple Tests That Might Prevent Elon Musk's AI Apocalypse". Bloomberg.com. 11 December 2017. Retrieved 8 January 2018.

[12] "Alphabet's DeepMind Is Using Games to Discover If Artificial Intelligence Can Break Free and Kill Us All". Fortune (به انگلیسی). Retrieved 8 January 2018.

[13] "Specifying AI safety problems in simple environments | DeepMind". DeepMind. Retrieved 8 January 2018.

[14] Fallenstein, Benja; Soares, Nate (2014). "Problems of self-reference in self-improving space-time embedded intelligence". Artificial General Intelligence. Lecture Notes in Computer Science. Vol. 8598. pp. 21–32. doi:10.1007/978-3-319-09274-4_3. ISBN 978-3-319-09273-7.

[15] Yudkowsky, Eliezer (2011). "Complex Value Systems in Friendly AI". Artificial General Intelligence. Lecture Notes in Computer Science. Vol. 6830. pp. 388–393. doi:10.1007/978-3-642-22887-2_48. ISBN 978-3-642-22886-5.

[AGIResponses-16] ۱۶٫۰ ^۱۶٫۱ ^۱۶٫۲ Sotala, Kaj; Yampolskiy, Roman (19 December 2014). "Responses to catastrophic AGI risk: a survey". Physica Scripta. 90 (1): 018001. Bibcode:2015PhyS...90a8001S. doi:10.1088/0031-8949/90/1/018001.

[HC-17] ۱۷٫۰ ^۱۷٫۱ ^۱۷٫۲ ^۱۷٫۳ ^۱۷٫۴ ^۱۷٫۵ {{cite book}}: Empty citation (help)Russell, Stuart (October 8, 2019). Human Compatible: Artificial Intelligence and the Problem of Control. United States: Viking. ISBN 978-0-525-55861-3. OCLC 1083694322. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «HC» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).

[CIRL-18] Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (12 November 2016). "Cooperative Inverse Reinforcement Learning". arXiv:1606.03137 [cs.AI].

[AGI-12a-19] Avoiding Unintended AI Behaviors. Bill Hibbard. 2012. proceedings of the Fifth Conference on Artificial General Intelligence, eds. Joscha Bach, Ben Goertzel and Matthew Ikle. This paper won the Machine Intelligence Research Institute's 2012 Turing Prize for the Best AGI Safety Paper.

[hibbard_2014-20] Hibbard, Bill (2014): "Ethical Artificial Intelligence"

[HCandAGI12-21] "Human Compatible" and "Avoiding Unintended AI Behaviors"

[DebatePaper-22] A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].

[IrvingInterview-23] Perry, Lucas (March 6, 2019). "AI Alignment Podcast: AI Alignment through Debate with Geoffrey Irving". Retrieved April 7, 2020.

[Leike_et_al_2018-24] Leike, Jan (19 November 2018). "Scalable agent alignment via reward modeling: a research direction". {{cite arxiv}}: |arxiv= required (help)

[Everitt_Hutter_2019-25] Everitt, Tom (15 August 2019). "Reward Tampering Problems and Solutions in Reinforcement Learning". {{cite arxiv}}: |arxiv= required (help)

[Christiano_et_al_2017-26] ۲۶٫۰ ^۲۶٫۱ Christiano, Paul; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (13 July 2017). "Deep Reinforcement Learning from Human Preferences". arXiv:1706.03741.

[OpenAI_2020-27] Stiennon, Nisan; Ziegler, Daniel; Lowe, Ryan; Wu, Jeffrey; Voss, Chelsea; Christiano, Paul; Ouyang, Long (September 4, 2020). "Learning to Summarize with Human Feedback".

[Yudkowsky_2020-28] Yudkowsky, Eliezer [@ESYudkowsky] (September 4, 2020). "A very rare bit of research that is directly, straight-up relevant to real alignment problems! They trained a reward function on human preferences AND THEN measured how hard you could optimize against the trained function before the results got actually worse" (Tweet) – via Twitter.

[corrigibility-29] ۲۹٫۰ ^۲۹٫۱ Soares, Nate, et al. "Corrigibility." Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.

[sia-30] ۳۰٫۰ ^۳۰٫۱ Orseau, Laurent, and Stuart Armstrong. "Safely Interruptible Agents." Machine Intelligence Research Institute, June 2016.

[31] Chalmers, David (2010). "The singularity: A philosophical analysis". Journal of Consciousness Studies. 17 (9–10): 7–65.

[bostrom_chapter_10_page_145-32] Bostrom, Nick (2014). "Chapter 10: Oracles, genies, sovereigns, tools (page 145)". Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 9780199678112. An oracle is a question-answering system. It might accept questions in a natural language and present its answers as text. An oracle that accepts only yes/no questions could output its best guess with a single bit, or perhaps with a few extra bits to represent its degree of confidence. An oracle that accepts open-ended questions would need some metric with which to rank possible truthful answers in terms of their informativeness or appropriateness. In either case, building an oracle that has a fully domain-general ability to answer natural language questions is an AI-complete problem. If one could do that, one could probably also build an AI that has a decent ability to understand human intentions as well as human words.

[33] Armstrong, Stuart; Sandberg, Anders; Bostrom, Nick (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299–324. doi:10.1007/s11023-012-9282-2.

[bostrom_chapter_10_page_147-34] Bostrom, Nick (2014). "Chapter 10: Oracles, genies, sovereigns, tools (page 147)". Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 9780199678112. For example, consider the risk that an oracle will answer questions not in a maximally truthful way but in such a way as to subtly manipulate us into promoting its own hidden agenda. One way to slightly mitigate this threat could be to create multiple oracles, each with a slightly different code and a slightly different information base. A simple mechanism could then compare the answers given by the different oracles and only present them for human viewing if all the answers agree.

[35] Goertzel, Ben (2012). "Should Humanity Build a Global AI Nanny to Delay the Singularity Until It's Better Understood?". Journal of Consciousness Studies. 19: 96–111. CiteSeerX 10.1.1.352.3966.

[:0-36] Turchin, Alexey; Denkenberger, David; Green, Brian (2019-02-20). "Global Solutions vs. Local Solutions for the AI Safety Problem". Big Data and Cognitive Computing. 3 (1): 16. doi:10.3390/bdcc3010016. ISSN 2504-2289.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]

[۱۸]

[۱۹]

[۲۰]

[۲۱]

[۲۲]

[۲۳]

[۲۴]

[۲۵]

[۲۶]

[۲۷]

[۲۸]

[۲۹]

[۳۰]

[۳۱]

[۳۲]

[۳۳]

[۳۴]

[۳۵]

[۳۶]