مشاهده مشخصات مقاله
بهبود بیشبرآورد یادگیری تقویتی عمیق برون-سیاست با شبکه بهروزرسان انتخابی عمیق
نویسنده (ها) |
-
علی صالحی
-
محمدرضا اکبرزاده توتونچی
-
علیرضا رواحانی منش
|
مربوط به کنفرانس |
بیست و هفتمین کنفرانس بین الملی انجمن کامپیوتر ایران |
چکیده |
شبکههای عصبی عمیق-Q (DQN) نمونهای از یادگیری تقویتی عمیق مبتنی بر یادگیری Q هستند که در آن تابع Q نمایانگر ارزش تمامی کنشهای یک کارگزار در تمامی حالتهای یک محیط است. یادگیری این شبکه به دلیل نگاه خوشبینانه کارگزار در تخمین حالتهای آتی سبب شده است تا کارگزار مبتنی بر DQN ناپایدار و به همراه بیشبرازش باشد. راهحل پیشنهادی در این مقاله ارائه نمودن شبکه بهروزرسان انتخابی عمیق است که در آن مشکل بیشبرآورد ارزش تخمینی آینده بهبود یابد. در این رویکرد، نحوه بهروزرسانی کارگزار در ابتدای یادگیری نگرش محتاطانهتری نسبت به تخمین ارزشها دارد و با گذر زمان به رویکرد خوشبینانه یادگیری Q تغییر مسیر خواهد داد. این امر به آن جهت است که تخمین ارزش حالتهای آتی در ابتدای یادگیری قابل اتکا نیست و استفاده از آن در محیطهای با هزینه بالا روند یادگیری را ناپایدار میکند. نتایج حاصل برای دو محیط شبکه تنظیمکننده ژن و پاندول معکوس نشان میدهد که رهیافت پیشنهادی علاوه بر کاهش بیشبرآورد تخمین ارزش، پاداش بیشتری را نسبت به DQN جمعآوری مینماید. |
قیمت |
-
برای اعضای سایت : ۱٠٠,٠٠٠ ریال
-
برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
-
برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال
|
خرید مقاله
|
|