مشاهده مشخصات مقاله
ارائه رویکرد نیمه نظارتی برای شناسایی داده های پرت در شرایط تغییر توزیع داده
نویسنده (ها) |
|
مربوط به کنفرانس |
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران |
چکیده |
یکی از حوزههای مهم در داده کاوی و یادگیری ماشین، حوزه شناسایی داده پرت میباشد. روشهای بسیاری برای شناسایی داده پرت ارائه شده که همه آنها از فرض یکسان بودن توزیع احتمال دادههای تست نسبت به دادههای آموزش پیروی میکنند. اما در بسیاری از برنامه¬های کاربردی واقعی نظیر شناسایی اسپم یا تقلب، تفاوت توزیع دادههای آموزش و تست یک امر رایج است. این حالت به شرایط تغییرتوزیع مجموعه داده معروف است. مطالعات ما نشان میدهد که هیچ یک از روشهای موجود برای شناسایی داده پرت در شرایط تغییر توزیع مجموعه داده عملکرد مناسبی ندارند. مقاله حاضر یک روش نیمه نظارتی سه مرحلهای برای شناسایی داده پرت تحت شرایط تغییر مجموعه داده ارائه مینماید. در مرحله نخست با بکارگیری تکنیک تخمین نسبت چگالی که یک روش وزن دهی بر اساس اهمیت است، وزن نمونه-های آموزش تعیین میشود. سپس با استفاده از یک روال نیمه نظارتی ابتکاری نمونههایی از مجموعه آموزش که نماینگر توزیع واقعی دادههای تست هستند، انتخاب می گردند. در مرحله آخر با استفاده از روش اصلاح شده شناسایی داده پرت بر مبنای داده¬های متعارف، دادههای پرت موجود شناسایی میشوند. نتایج آزمایشات نشان میدهند که از نظر تطبیق با شرایط تغییرتوزیع مجموعه داده روش پیشنهادی عملکرد بهتری نسبت به روشهای موجود دارد |
قیمت |
-
برای اعضای سایت : ۱٠٠,٠٠٠ ریال
-
برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
-
برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال
|
خرید مقاله
|
|