مشاهده مشخصات مقاله
مریم پویان, امین موسوی, شهرام گلزاری, احمد حاتم
بیستمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
الگوریتم یادگیری Q، یکی از بهترین الگوریتمهای یادگیری مستقل از مدل میباشد. هدف از یادگیری، یافتن تخمینی از تابع ارزش - عمل بهینه میباشد که مقادیر Q نامیده میشود. یکی از عمده ترین مشکلات روش یادگیری Q در برخورد با مسائل دنیای واقعی، زیاد شدن تعداد حالتهای محیط و در نتیجه کم شدن سرعت همگرایی است، زیرا برای تضمین همگرایی یادگیری، تمامی زوجهای حالت - عمل باید بینهایت بار بازدید شود. در این نوشتار، از روش ترکیبی بر پایه مفاهیم عمل متضاد استفاده شده است. مفاهیم تضاد در یادگیری تقویتی منجر به بهبود سرعت همگرایی میشود، زیرا در آن بهروز رسانی مقادیر Q برای عمل و عمل متضاد متناظر آن، در یک مرحله و بصورت همزمان انجام میپذیرد. روش ارائه شده همراه با یافتن بهترین اثر متقابل بین اکتساب و اکتشاف در یادگیری Q، برای افزایش سرعت همگرایی یادگیری استفاده شده است. تکنیک ارائه شده برای مسئله Grid world شبیه سازی شده است. نتایج به دست آمده بهبود در فرایند یادگیری را نشان میدهد.
برای اعضای سایت : ۱٠٠,٠٠٠ ریال
برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال