مشاهده مشخصات مقاله
افزایش سرعت یادگیری با استفاده از مدل تخمینی محیط
نویسنده (ها) |
-
مریم هاشمزاده
-
رشاد حسینی
-
مجید نیلی احمدآبادی
|
مربوط به کنفرانس |
بیست و یکمین کنفرانس ملی سالانه انجمن کامپیوتر |
چکیده |
در یادگیری تقویتی از آنجایی که کل پاداش دریافتی عامل در طول زندگی نه در پایان آن اهمیت دارد، یافتن روشهایی که بتواند مقدار پشیمانی را کاهش و سرعت همگرایی به سیاست بهینه را افزایش دهد، حائز اهمیت است. اگر عامل مدل محیط را از قبل بداند با کاوش در آن مانند روشهای برنامهریزی پویا، میتواند سیاست بهینه را بدون تقبل خسارتی بیاید، ولی در مسائلی که در این زمینه با آن روبه رو هستیم این فرض تقریبا غیرممکن است و عامل باید با کسب تجربه از محیط، یادگیری خود را بهبود بخشد. ما در این پژوهش توسط الگوریتم یادگیری مبتنی بر مدل تخمینی، از تجربههای عامل برای تخمین مدل محیط استفاده میکنیم و این مدل که رفته رفته به دقت آن افزوده میشود جهت تصمیمگیری بهتر در حین زندگی عامل به کار گرفته میشود. سیاست تصمیمگیری عامل را در دو حالت ε-greedyوgreedy براساس مقدار خوشبینانه ارزشهای تخمینی قرار دادیم. نتایج نشان دادند که الگوریتم مبتنی بر مدل تخمینی با سیاست ε-greedy علاوه بر این که سرعت یادگیری بیشتری در مقایسه با سیاست greedy براساس مقدار خوشبینانه ارزشهای تخمینی دارد، زمان اجرای آن نیز به شدت کمتر است. همچنین در مقایسه با یادگیری TD(λ)هم سریعتر است. |
قیمت |
-
برای اعضای سایت : ۱٠٠,٠٠٠ ریال
-
برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
-
برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال
|
خرید مقاله
|
|