فا   |   En
Login
مشاهده‌ مشخصات مقاله

روشی نوین برای بهبود عملکرد یادگیری Q با افزایش تعداد به‌روز رسانی مقادیر Q برپایه عمل متضاد

Authors
  • مریم پویان
  • امین موسوی
  • شهرام گلزاری
  • احمد حاتم
Conference بیستمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
Abstract الگوریتم یادگیری Q، یکی از بهترین الگوریتم‌های یادگیری مستقل از مدل می‌باشد. هدف از یادگیری، یافتن تخمینی از تابع ارزش - عمل بهینه می‌باشد که مقادیر Q نامیده می‌شود. یکی از عمده ترین مشکلات روش یادگیری Q در برخورد با مسائل دنیای واقعی، زیاد شدن تعداد حالت‌های محیط و در نتیجه کم شدن سرعت همگرایی است، زیرا برای تضمین همگرایی یادگیری، تمامی زوج‌های حالت - عمل باید بی‌نهایت بار بازدید شود. در این نوشتار، از روش ترکیبی بر پایه مفاهیم عمل متضاد استفاده شده است. مفاهیم تضاد در یادگیری تقویتی منجر به بهبود سرعت همگرایی می‌شود، زیرا در آن به‌روز رسانی مقادیر Q برای عمل و عمل متضاد متناظر آن، در یک مرحله و بصورت همزمان انجام می‌پذیرد. روش ارائه شده همراه با یافتن بهترین اثر متقابل بین اکتساب و اکتشاف در یادگیری Q، برای افزایش سرعت همگرایی یادگیری استفاده شده است. تکنیک ارائه شده برای مسئله Grid world شبیه سازی شده است. نتایج به دست آمده بهبود در فرایند یادگیری را نشان می‌دهد.
قیمت
  • برای اعضای سایت : 100,000 Rial
  • برای دانشجویان عضو انجمن : 20,000 Rial
  • برای اعضای عادی انجمن : 40,000 Rial

خرید مقاله