Warning: mktime() expects parameter 4 to be int, string given in /home/csiorg/public_html/wp-content/plugins/ultimate-member/includes/core/class-cron.php on line 85 بهبود بیشبرآورد یادگیری تقویتی عمیق برون-سیاست با شبکه بهروزرسان انتخابی عمیق - انجمن کامپیوتر ایران
“موقعیت یابی در شبکه های Ad Hoc با استفاده از شبکه های عصبی” به سبد خرید شما اضافه شد. مشاهده سبد خرید
مشاهده مشخصات مقاله
بهبود بیشبرآورد یادگیری تقویتی عمیق برون-سیاست با شبکه بهروزرسان انتخابی عمیق
علی صالحی, محمدرضا اکبرزاده توتونچی, علیرضا رواحانی منش
نویسنده (ها)
بیست و هفتمین کنفرانس بین الملی انجمن کامپیوتر ایران
مربوط به کنفرانس
شبکههای عصبی عمیق-Q (DQN) نمونهای از یادگیری تقویتی عمیق مبتنی بر یادگیری Q هستند که در آن تابع Q نمایانگر ارزش تمامی کنشهای یک کارگزار در تمامی حالتهای یک محیط است. یادگیری این شبکه به دلیل نگاه خوشبینانه کارگزار در تخمین حالتهای آتی سبب شده است تا کارگزار مبتنی بر DQN ناپایدار و به همراه بیشبرازش باشد. راهحل پیشنهادی در این مقاله ارائه نمودن شبکه بهروزرسان انتخابی عمیق است که در آن مشکل بیشبرآورد ارزش تخمینی آینده بهبود یابد. در این رویکرد، نحوه بهروزرسانی کارگزار در ابتدای یادگیری نگرش محتاطانهتری نسبت به تخمین ارزشها دارد و با گذر زمان به رویکرد خوشبینانه یادگیری Q تغییر مسیر خواهد داد. این امر به آن جهت است که تخمین ارزش حالتهای آتی در ابتدای یادگیری قابل اتکا نیست و استفاده از آن در محیطهای با هزینه بالا روند یادگیری را ناپایدار میکند. نتایج حاصل برای دو محیط شبکه تنظیمکننده ژن و پاندول معکوس نشان میدهد که رهیافت پیشنهادی علاوه بر کاهش بیشبرآورد تخمین ارزش، پاداش بیشتری را نسبت به DQN جمعآوری مینماید.
چکیده
برای اعضای سایت : ۱٠٠,٠٠٠ ریال
برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال