مشاهده مشخصات مقاله
بهبود بیشبرآورد یادگیری تقویتی عمیق برون-سیاست با شبکه بهروزرسان انتخابی عمیق
Authors |
-
علی صالحی
-
محمدرضا اکبرزاده توتونچی
-
علیرضا رواحانی منش
|
Conference |
بیست و هفتمین کنفرانس بین الملی انجمن کامپیوتر ایران |
Abstract |
شبکههای عصبی عمیق-Q (DQN) نمونهای از یادگیری تقویتی عمیق مبتنی بر یادگیری Q هستند که در آن تابع Q نمایانگر ارزش تمامی کنشهای یک کارگزار در تمامی حالتهای یک محیط است. یادگیری این شبکه به دلیل نگاه خوشبینانه کارگزار در تخمین حالتهای آتی سبب شده است تا کارگزار مبتنی بر DQN ناپایدار و به همراه بیشبرازش باشد. راهحل پیشنهادی در این مقاله ارائه نمودن شبکه بهروزرسان انتخابی عمیق است که در آن مشکل بیشبرآورد ارزش تخمینی آینده بهبود یابد. در این رویکرد، نحوه بهروزرسانی کارگزار در ابتدای یادگیری نگرش محتاطانهتری نسبت به تخمین ارزشها دارد و با گذر زمان به رویکرد خوشبینانه یادگیری Q تغییر مسیر خواهد داد. این امر به آن جهت است که تخمین ارزش حالتهای آتی در ابتدای یادگیری قابل اتکا نیست و استفاده از آن در محیطهای با هزینه بالا روند یادگیری را ناپایدار میکند. نتایج حاصل برای دو محیط شبکه تنظیمکننده ژن و پاندول معکوس نشان میدهد که رهیافت پیشنهادی علاوه بر کاهش بیشبرآورد تخمین ارزش، پاداش بیشتری را نسبت به DQN جمعآوری مینماید. |
قیمت |
-
برای اعضای سایت : 100,000 Rial
-
برای دانشجویان عضو انجمن : 20,000 Rial
-
برای اعضای عادی انجمن : 40,000 Rial
|
خرید مقاله
|
|