مشاهده مشخصات مقاله
بهبود برچسبگذاری دادههای کلاس اقلیت با استفاده از روش ترکیبی
Authors |
-
فهیمه پناهنده شهرکی
-
محمدرضا زارع میرکآباد
|
Conference |
بیستمین کنفرانس ملی سالانه انجمن کامپیوتر ایران |
Abstract |
سرطان سینه یکی از شایعترین انواع سرطان در میان زنان میباشد. پیشبینی زودهنگام این بیماری میتواند کمک قابل توجهی در روند بهبود درمان ایجاد نماید. بنابراین الگوریتمهای متفاوت دادهکاوی و یادگیری ماشین برای پیشبینی خوشخیمی یا بدخیمی تومورهای سرطان سینه مورد استفاده قرار گرفتهاند. یکی از چالشها در این حوزه، توزیع نامتوازن دادهها است، یعنی دادههای کلاس تومورهای بدخیم (کلاس اقلیت) دارای تعدادی به مراتب کمتر از دادههای کلاس دیگر (کلاس اکثریت) هستند. از طرفی الگوریتمهای دادهکاوی اغلب برای کار با دادههای متوازن طراحی شدهاند. این امر ممکن است منجر به برچسبگذاری نادرست دادههای کلاس اقلیت شود. برای برخورد با این مشکل، روشهایی برای برجستهسازی دادههای کلاس اقلیت ارائه شده است. این روشها عموماً از تکرار دادههای کلاس اقلیت و یا حذف دادههای کلاس اکثریت، در راستای توازن دادهها، استفاده میکنند. این مکانیزمها علاوه بر اینکه ماهیت طبیعی دادهها را تغییر میدهد، امکان برچسبگذاری نادرست دادههای کلاس اکثریت را نیز افزایش میدهد. در این مقاله روشی ارائه میشود که با استفاده از الگوریتمهای طبقهبندی ترکیبی، بدون تکرار دادههای کلاس اقلیت و یا حذف دادههای کلاس اکثریت، به برچسبگذاری صحیح دادههای کلاس اقلیت پرداخته شود. الگوریتم ارائه شده با استفاده از خوشهبندی دادهها به سه دسته پرت، خوشآموزش و بدآموزش، ابتدا به شناسایی دادههای پرت میپردازد. سپس به دنبال راهکاری برای برخورد با دادههای بدآموزش (که عمدتاً متعلق به کلاس اقلیت میباشند) میپردازد که با این روند خطای ایجاد شده برای دادههای کلاس اقلیت به صورت چشمگیری کاهش مییابد. |
قیمت |
-
برای اعضای سایت : 100,000 Rial
-
برای دانشجویان عضو انجمن : 20,000 Rial
-
برای اعضای عادی انجمن : 40,000 Rial
|
خرید مقاله
|
|