فا   |   En
Login
مشاهده‌ مشخصات مقاله

بهبود برچسب‌گذاری داده‌های کلاس اقلیت با استفاده از روش ترکیبی

Authors
  • فهیمه پناهنده شهرکی
  • محمدرضا زارع میرک‌آباد
Conference بیستمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
Abstract سرطان سینه یکی از شایع‌ترین انواع سرطان در میان زنان می‌باشد. پیش‌بینی زودهنگام این بیماری می‌تواند کمک قابل توجهی در روند بهبود درمان ایجاد ‌نماید. بنابراین الگوریتم‌های متفاوت داده‌کاوی و یادگیری ماشین برای پیش‌بینی خوش‌خیمی یا بدخیمی تومورهای سرطان سینه مورد استفاده قرار گرفته‌اند. یکی از چالش‌ها در این حوزه، توزیع نامتوازن داده‌ها است، یعنی داده‌های کلاس تومورهای بدخیم (کلاس اقلیت) دارای تعدادی به مراتب کمتر از داده‌های کلاس دیگر (کلاس اکثریت) هستند. از طرفی الگوریتم‌های داده‌کاوی اغلب برای کار با داده‌های متوازن طراحی شده‌اند. این امر ممکن است منجر به برچسب‌گذاری نادرست داده‌های کلاس اقلیت ‌شود. برای برخورد با این مشکل، روش‌هایی برای برجسته‌سازی داده‌های کلاس اقلیت ارائه شده است. این روش‌ها عموماً از تکرار داده‌های کلاس اقلیت و یا حذف داده‌های کلاس اکثریت، در راستای توازن داده‌ها، استفاده می‌کنند. این مکانیزم‌ها علاوه بر اینکه ماهیت طبیعی داده‌ها را تغییر می‌دهد، امکان برچسب‌گذاری نادرست داده‌های کلاس اکثریت را نیز افزایش می‌دهد. در این مقاله روشی ارائه می‌شود که با استفاده از الگوریتم‌های طبقه‌بندی ترکیبی، بدون تکرار داده‌های کلاس اقلیت و یا حذف داده‌های کلاس اکثریت، به برچسب‌گذاری صحیح داده‌های کلاس اقلیت پرداخته شود. الگوریتم ارائه شده با استفاده از خوشه‌بندی داده‌ها به سه دسته پرت، خوش‌آموزش و بدآموزش، ابتدا به شناسایی داده‌های پرت می‌پردازد. سپس به دنبال راهکاری برای برخورد با داده‌های بدآموزش (که عمدتاً متعلق به کلاس اقلیت می‌باشند) می‌پردازد که با این روند خطای ایجاد شده برای داده‌های کلاس اقلیت به صورت چشمگیری کاهش می‌یابد.
قیمت
  • برای اعضای سایت : 100,000 Rial
  • برای دانشجویان عضو انجمن : 20,000 Rial
  • برای اعضای عادی انجمن : 40,000 Rial

خرید مقاله