فا   |   En
ورود به سایت
مشاهده‌ مشخصات مقاله

ارائه رویکرد نیمه نظارتی برای شناسایی داده های پرت در شرایط تغییر توزیع داده

نویسنده (ها)
  • آتوسا سالاری
  • اشکان سامی
مربوط به کنفرانس نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
چکیده یکی از حوزه‌های مهم در داده کاوی و یادگیری ماشین، حوزه شناسایی داده پرت می‌باشد. روش‌های بسیاری برای شناسایی داده پرت ارائه شده که همه آن‌ها از فرض یکسان بودن توزیع احتمال داده‌های تست نسبت به داده‌های آموزش پیروی می‌کنند. اما در بسیاری از برنامه¬های کاربردی واقعی نظیر شناسایی اسپم یا تقلب، تفاوت توزیع داده‌های آموزش و تست یک امر رایج است. این حالت به شرایط تغییرتوزیع مجموعه داده معروف است. مطالعات ما نشان می‌دهد که هیچ یک از روش‌های موجود برای شناسایی داده پرت در شرایط تغییر توزیع مجموعه داده عملکرد مناسبی ندارند. مقاله حاضر یک روش نیمه نظارتی سه مرحله‌ای برای شناسایی داده پرت تحت شرایط تغییر مجموعه داده ارائه می‌نماید. در مرحله نخست با بکارگیری تکنیک تخمین نسبت چگالی که یک روش وزن دهی بر اساس اهمیت است، وزن نمونه-های آموزش تعیین می‌شود. سپس با استفاده از یک روال نیمه نظارتی ابتکاری نمونه‌هایی از مجموعه آموزش که نماینگر توزیع واقعی داده‌های تست هستند، انتخاب می گردند. در مرحله آخر با استفاده از روش اصلاح شده شناسایی داده پرت بر مبنای داده¬های متعارف، داده‌های پرت موجود شناسایی می‌شوند. نتایج آزمایشات نشان می‌دهند که از نظر تطبیق با شرایط تغییرتوزیع مجموعه داده روش پیشنهادی عملکرد بهتری نسبت به روش‌های موجود دارد
قیمت
  • برای اعضای سایت : ۱٠٠,٠٠٠ ریال
  • برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
  • برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال

خرید مقاله