فا   |   En
ورود به سایت
مشاهده‌ مشخصات مقاله

افزایش سرعت یادگیری با استفاده از مدل تخمینی محیط

نویسنده (ها)
  • مریم هاشم‌زاده
  • رشاد حسینی
  • مجید نیلی احمدآبادی
مربوط به کنفرانس بیست و یکمین کنفرانس ملی سالانه انجمن کامپیوتر
چکیده ‏در یادگیری تقویتی از آنجایی که کل پاداش دریافتی عامل در طول زندگی نه در پایان آن اهمیت دارد، یافتن روش‌هایی که بتواند مقدار پشیمانی را کاهش و سرعت همگرایی به سیاست بهینه را افزایش دهد، حائز اهمیت است. اگر عامل مدل محیط را از قبل بداند با کاوش در آن مانند روش‌های برنامه‌ریزی پویا، می‌تواند سیاست بهینه را بدون تقبل خسارتی بیاید، ولی در مسائلی که در این زمینه با آن روبه رو هستیم این فرض تقریبا غیرممکن است و عامل باید با کسب تجربه از محیط، یادگیری خود را بهبود بخشد. ما در این پژوهش توسط الگوریتم یادگیری مبتنی بر مدل تخمینی‏، از تجربه‌های عامل برای تخمین مدل محیط استفاده می‌کنیم و این مدل که رفته رفته به دقت آن افزوده می‌شود جهت تصمیم‌گیری بهتر در حین زندگی عامل به کار گرفته می‌شود. سیاست تصمیم‌گیری عامل را در دو حالت ε-greedy‏وgreedy‏ براساس مقدار خوش‌بینانه ارزش‌های تخمینی قرار دادیم. نتایج نشان دادند که ‎‏الگوریتم مبتنی بر مدل تخمینی با سیاست ε-greedy علاوه بر این‌ که ‏سرعت یادگیری بیشتری در مقایسه با سیاست greedy براساس مقدار خوش‌بینانه ارزش‌های تخمینی دارد‏، زمان اجرای آن نیز به شدت کمتر است‏. همچنین در مقایسه با یادگیری ‎TD‎(‎λ)هم سریع‌تر است.
قیمت
  • برای اعضای سایت : ۱٠٠,٠٠٠ ریال
  • برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
  • برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال

خرید مقاله