مشاهده مشخصات مقاله
افزایش سرعت یادگیری با استفاده از مدل تخمینی محیط
Authors |
-
مریم هاشمزاده
-
رشاد حسینی
-
مجید نیلی احمدآبادی
|
Conference |
بیست و یکمین کنفرانس ملی سالانه انجمن کامپیوتر |
Abstract |
در یادگیری تقویتی از آنجایی که کل پاداش دریافتی عامل در طول زندگی نه در پایان آن اهمیت دارد، یافتن روشهایی که بتواند مقدار پشیمانی را کاهش و سرعت همگرایی به سیاست بهینه را افزایش دهد، حائز اهمیت است. اگر عامل مدل محیط را از قبل بداند با کاوش در آن مانند روشهای برنامهریزی پویا، میتواند سیاست بهینه را بدون تقبل خسارتی بیاید، ولی در مسائلی که در این زمینه با آن روبه رو هستیم این فرض تقریبا غیرممکن است و عامل باید با کسب تجربه از محیط، یادگیری خود را بهبود بخشد. ما در این پژوهش توسط الگوریتم یادگیری مبتنی بر مدل تخمینی، از تجربههای عامل برای تخمین مدل محیط استفاده میکنیم و این مدل که رفته رفته به دقت آن افزوده میشود جهت تصمیمگیری بهتر در حین زندگی عامل به کار گرفته میشود. سیاست تصمیمگیری عامل را در دو حالت ε-greedyوgreedy براساس مقدار خوشبینانه ارزشهای تخمینی قرار دادیم. نتایج نشان دادند که الگوریتم مبتنی بر مدل تخمینی با سیاست ε-greedy علاوه بر این که سرعت یادگیری بیشتری در مقایسه با سیاست greedy براساس مقدار خوشبینانه ارزشهای تخمینی دارد، زمان اجرای آن نیز به شدت کمتر است. همچنین در مقایسه با یادگیری TD(λ)هم سریعتر است. |
قیمت |
-
برای اعضای سایت : 100,000 Rial
-
برای دانشجویان عضو انجمن : 20,000 Rial
-
برای اعضای عادی انجمن : 40,000 Rial
|
خرید مقاله
|
|