فا   |   En
ورود به سایت
مشاهده‌ مشخصات مقاله

روشی نوین برای بهبود عملکرد یادگیری Q با افزایش تعداد به‌روز رسانی مقادیر Q برپایه عمل متضاد

نویسنده (ها)
  • مریم پویان
  • امین موسوی
  • شهرام گلزاری
  • احمد حاتم
مربوط به کنفرانس بیستمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
چکیده الگوریتم یادگیری Q، یکی از بهترین الگوریتم‌های یادگیری مستقل از مدل می‌باشد. هدف از یادگیری، یافتن تخمینی از تابع ارزش - عمل بهینه می‌باشد که مقادیر Q نامیده می‌شود. یکی از عمده ترین مشکلات روش یادگیری Q در برخورد با مسائل دنیای واقعی، زیاد شدن تعداد حالت‌های محیط و در نتیجه کم شدن سرعت همگرایی است، زیرا برای تضمین همگرایی یادگیری، تمامی زوج‌های حالت - عمل باید بی‌نهایت بار بازدید شود. در این نوشتار، از روش ترکیبی بر پایه مفاهیم عمل متضاد استفاده شده است. مفاهیم تضاد در یادگیری تقویتی منجر به بهبود سرعت همگرایی می‌شود، زیرا در آن به‌روز رسانی مقادیر Q برای عمل و عمل متضاد متناظر آن، در یک مرحله و بصورت همزمان انجام می‌پذیرد. روش ارائه شده همراه با یافتن بهترین اثر متقابل بین اکتساب و اکتشاف در یادگیری Q، برای افزایش سرعت همگرایی یادگیری استفاده شده است. تکنیک ارائه شده برای مسئله Grid world شبیه سازی شده است. نتایج به دست آمده بهبود در فرایند یادگیری را نشان می‌دهد.
قیمت
  • برای اعضای سایت : ۱٠٠,٠٠٠ ریال
  • برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
  • برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال

خرید مقاله