فا   |   En
Login
مشاهده‌ مشخصات مقاله

افزایش سرعت یادگیری با استفاده از مدل تخمینی محیط

Authors
  • مریم هاشم‌زاده
  • رشاد حسینی
  • مجید نیلی احمدآبادی
Conference بیست و یکمین کنفرانس ملی سالانه انجمن کامپیوتر
Abstract ‏در یادگیری تقویتی از آنجایی که کل پاداش دریافتی عامل در طول زندگی نه در پایان آن اهمیت دارد، یافتن روش‌هایی که بتواند مقدار پشیمانی را کاهش و سرعت همگرایی به سیاست بهینه را افزایش دهد، حائز اهمیت است. اگر عامل مدل محیط را از قبل بداند با کاوش در آن مانند روش‌های برنامه‌ریزی پویا، می‌تواند سیاست بهینه را بدون تقبل خسارتی بیاید، ولی در مسائلی که در این زمینه با آن روبه رو هستیم این فرض تقریبا غیرممکن است و عامل باید با کسب تجربه از محیط، یادگیری خود را بهبود بخشد. ما در این پژوهش توسط الگوریتم یادگیری مبتنی بر مدل تخمینی‏، از تجربه‌های عامل برای تخمین مدل محیط استفاده می‌کنیم و این مدل که رفته رفته به دقت آن افزوده می‌شود جهت تصمیم‌گیری بهتر در حین زندگی عامل به کار گرفته می‌شود. سیاست تصمیم‌گیری عامل را در دو حالت ε-greedy‏وgreedy‏ براساس مقدار خوش‌بینانه ارزش‌های تخمینی قرار دادیم. نتایج نشان دادند که ‎‏الگوریتم مبتنی بر مدل تخمینی با سیاست ε-greedy علاوه بر این‌ که ‏سرعت یادگیری بیشتری در مقایسه با سیاست greedy براساس مقدار خوش‌بینانه ارزش‌های تخمینی دارد‏، زمان اجرای آن نیز به شدت کمتر است‏. همچنین در مقایسه با یادگیری ‎TD‎(‎λ)هم سریع‌تر است.
قیمت
  • برای اعضای سایت : 100,000 Rial
  • برای دانشجویان عضو انجمن : 20,000 Rial
  • برای اعضای عادی انجمن : 40,000 Rial

خرید مقاله