فا   |   En
Login
مشاهده‌ مشخصات مقاله

ارائه رویکرد نیمه نظارتی برای شناسایی داده های پرت در شرایط تغییر توزیع داده

Authors
  • آتوسا سالاری
  • اشکان سامی
Conference نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
Abstract یکی از حوزه‌های مهم در داده کاوی و یادگیری ماشین، حوزه شناسایی داده پرت می‌باشد. روش‌های بسیاری برای شناسایی داده پرت ارائه شده که همه آن‌ها از فرض یکسان بودن توزیع احتمال داده‌های تست نسبت به داده‌های آموزش پیروی می‌کنند. اما در بسیاری از برنامه¬های کاربردی واقعی نظیر شناسایی اسپم یا تقلب، تفاوت توزیع داده‌های آموزش و تست یک امر رایج است. این حالت به شرایط تغییرتوزیع مجموعه داده معروف است. مطالعات ما نشان می‌دهد که هیچ یک از روش‌های موجود برای شناسایی داده پرت در شرایط تغییر توزیع مجموعه داده عملکرد مناسبی ندارند. مقاله حاضر یک روش نیمه نظارتی سه مرحله‌ای برای شناسایی داده پرت تحت شرایط تغییر مجموعه داده ارائه می‌نماید. در مرحله نخست با بکارگیری تکنیک تخمین نسبت چگالی که یک روش وزن دهی بر اساس اهمیت است، وزن نمونه-های آموزش تعیین می‌شود. سپس با استفاده از یک روال نیمه نظارتی ابتکاری نمونه‌هایی از مجموعه آموزش که نماینگر توزیع واقعی داده‌های تست هستند، انتخاب می گردند. در مرحله آخر با استفاده از روش اصلاح شده شناسایی داده پرت بر مبنای داده¬های متعارف، داده‌های پرت موجود شناسایی می‌شوند. نتایج آزمایشات نشان می‌دهند که از نظر تطبیق با شرایط تغییرتوزیع مجموعه داده روش پیشنهادی عملکرد بهتری نسبت به روش‌های موجود دارد
قیمت
  • برای اعضای سایت : 100,000 Rial
  • برای دانشجویان عضو انجمن : 20,000 Rial
  • برای اعضای عادی انجمن : 40,000 Rial

خرید مقاله