مشاهده مشخصات مقاله
علی صالحی, محمدرضا اکبرزاده توتونچی, علیرضا رواحانی منش
بیست و هفتمین کنفرانس بین الملی انجمن کامپیوتر ایران
شبکههای عصبی عمیق-Q (DQN) نمونهای از یادگیری تقویتی عمیق مبتنی بر یادگیری Q هستند که در آن تابع Q نمایانگر ارزش تمامی کنشهای یک کارگزار در تمامی حالتهای یک محیط است. یادگیری این شبکه به دلیل نگاه خوشبینانه کارگزار در تخمین حالتهای آتی سبب شده است تا کارگزار مبتنی بر DQN ناپایدار و به همراه بیشبرازش باشد. راهحل پیشنهادی در این مقاله ارائه نمودن شبکه بهروزرسان انتخابی عمیق است که در آن مشکل بیشبرآورد ارزش تخمینی آینده بهبود یابد. در این رویکرد، نحوه بهروزرسانی کارگزار در ابتدای یادگیری نگرش محتاطانهتری نسبت به تخمین ارزشها دارد و با گذر زمان به رویکرد خوشبینانه یادگیری Q تغییر مسیر خواهد داد. این امر به آن جهت است که تخمین ارزش حالتهای آتی در ابتدای یادگیری قابل اتکا نیست و استفاده از آن در محیطهای با هزینه بالا روند یادگیری را ناپایدار میکند. نتایج حاصل برای دو محیط شبکه تنظیمکننده ژن و پاندول معکوس نشان میدهد که رهیافت پیشنهادی علاوه بر کاهش بیشبرآورد تخمین ارزش، پاداش بیشتری را نسبت به DQN جمعآوری مینماید.
برای اعضای سایت : ۱٠٠,٠٠٠ ریال
برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال