فا   |   En
ورود به سایت
مشاهده‌ مشخصات مقاله

بهبود بیش‌برآورد یادگیری تقویتی عمیق برون-سیاست با شبکه به‌روزرسان انتخابی عمیق

نویسنده (ها)
  • علی صالحی
  • محمدرضا اکبرزاده توتونچی
  • علیرضا رواحانی منش
مربوط به کنفرانس بیست و هفتمین کنفرانس بین الملی انجمن کامپیوتر ایران
چکیده شبکه‌های عصبی عمیق-Q (DQN) نمونه‌ای از یادگیری تقویتی عمیق مبتنی بر یادگیری Q هستند که در آن تابع Q نمایان‌گر ارزش تمامی کنش‌های یک کارگزار در تمامی حالت‌های یک محیط است. یادگیری این شبکه به دلیل نگاه خوش‌بینانه کارگزار در تخمین حالت‌های آتی سبب شده است تا کارگزار مبتنی بر DQN ناپایدار و به همراه بیش‌برازش باشد. راه‌حل پیشنهادی در این مقاله ارائه نمودن شبکه به‌روزرسان انتخابی عمیق است که در آن مشکل بیش‌برآورد ارزش تخمینی آینده بهبود یابد. در این رویکرد، نحوه به‌روزرسانی کارگزار در ابتدای یادگیری نگرش محتاطانه‌تری نسبت به تخمین ارزش‌ها دارد و با گذر زمان به رویکرد خوش‌بینانه یادگیری Q تغییر مسیر خواهد داد. این امر به آن جهت است که تخمین ارزش حالت‌های آتی در ابتدای یادگیری قابل اتکا نیست و استفاده از آن در محیط‌های با هزینه بالا روند یادگیری را ناپایدار می‌کند. نتایج حاصل برای دو محیط شبکه تنظیم‌کننده ژن و پاندول معکوس نشان می‌دهد که رهیافت پیشنهادی علاوه بر کاهش بیش‌برآورد تخمین ارزش، پاداش بیشتری را نسبت به DQN جمع‌آوری می‌نماید.
قیمت
  • برای اعضای سایت : ۱٠٠,٠٠٠ ریال
  • برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
  • برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال

خرید مقاله