مشاهده مشخصات مقاله
روشی نوین برای بهبود عملکرد یادگیری Q با افزایش تعداد بهروز رسانی مقادیر Q برپایه عمل متضاد
Authors |
-
مریم پویان
-
امین موسوی
-
شهرام گلزاری
-
احمد حاتم
|
Conference |
بیستمین کنفرانس ملی سالانه انجمن کامپیوتر ایران |
Abstract |
الگوریتم یادگیری Q، یکی از بهترین الگوریتمهای یادگیری مستقل از مدل میباشد. هدف از یادگیری، یافتن تخمینی از تابع ارزش - عمل بهینه میباشد که مقادیر Q نامیده میشود. یکی از عمده ترین مشکلات روش یادگیری Q در برخورد با مسائل دنیای واقعی، زیاد شدن تعداد حالتهای محیط و در نتیجه کم شدن سرعت همگرایی است، زیرا برای تضمین همگرایی یادگیری، تمامی زوجهای حالت - عمل باید بینهایت بار بازدید شود. در این نوشتار، از روش ترکیبی بر پایه مفاهیم عمل متضاد استفاده شده است. مفاهیم تضاد در یادگیری تقویتی منجر به بهبود سرعت همگرایی میشود، زیرا در آن بهروز رسانی مقادیر Q برای عمل و عمل متضاد متناظر آن، در یک مرحله و بصورت همزمان انجام میپذیرد. روش ارائه شده همراه با یافتن بهترین اثر متقابل بین اکتساب و اکتشاف در یادگیری Q، برای افزایش سرعت همگرایی یادگیری استفاده شده است. تکنیک ارائه شده برای مسئله Grid world شبیه سازی شده است. نتایج به دست آمده بهبود در فرایند یادگیری را نشان میدهد. |
قیمت |
-
برای اعضای سایت : 100,000 Rial
-
برای دانشجویان عضو انجمن : 20,000 Rial
-
برای اعضای عادی انجمن : 40,000 Rial
|
خرید مقاله
|
|