فا   |   En
Login
مشاهده‌ مشخصات مقاله

تشخیص موضوع در متون خبری با استفاده از گام برداری تصادفی تقویتی

Authors
  • سپهر آروین
  • علی ورداسبی
  • هشام فیلی
  • آزاده شاکری
Conference بیست و دومین کنفرانس ملی سالانه انجمن کامپیوتر ایران
Abstract تشخیص موضوع بر روی متون مختلف از جمله متون خبری یکی از مسائلی است که در سال‌های اخیر مورد توجه قرار گرفته و پژوهش‌های گوناگونی بر روی آن انجام شده است. برای حل این مسئله روش‌های مختلفی ارائه شده که در آن‌ها معمولاً به تعیین فاصله میان متون و خوشه‌بندی آن‌ها می‌پردازند و یا در برخی از پژوهش‌ها از روش‌های مدل‌سازی موضوعی برای حل این مسئله استفاده می‌‌کنند. هدف این روش‌‌ها در نهایت تقسیم‌‌‌‌بندی این متون به خوشه‌‌های مختلف است به شکلی که هر خوشه شامل متونی باشد که از نظر موضوع به هم نزدیک ‌‌باشند. از جمله روش‌‌های مورد استفاده برای خوشه‌‌بندی اسناد K-medoids است که این گونه از روش‌‌های خوشه‌‌بندی به انتخاب مراکز اولیه حساس بوده و با انتخاب مراکز اولیه مختلف نتیجه‌‌ی خوشه‌‌بندی تغییر می‌‌کند. در این مقاله یک روش تشخیص موضوع ارائه می‌‌شود که در این روش ابتدا برای تعیین فاصله میان اسناد از یکی از روش‌‌های مدل‌‌سازی موضوعی یعنی LDA (Latent Dirichlet Allocation) استفاده می‌‌کنیم. با بهره‌‌گیری از توزیع LDA اسناد، فاصله میان اسناد محاسبه شده و از روی آن گراف اخبار که نشان‌‌دهنده‌‌ی میزان شباهت میان اخبار است تولید می‌‌شود. گراف حاصل توسط الگوریتم K-medoids خوشه‌‌بندی می‌‌شود.‌‌ با توجه به حساس بودن این گونه از روش‌‌های خوشه‌‌بندی به مراکز اولیه، با استفاده از DivRank که یک روش گام‌‌برداری تصادفی تقویتی است مراکز اولیه مناسب مشخص می‌شوند و در اختیار الگوریتم K-medoids قرار می‌‌گیرند. آزمایش‌‌های ما بر روی مجموعه‌‌دادگان مختلف نشان می‌‌دهد که روش ما در نحوه‌‌ی تولید گراف و یافتن مراکز اولیه‌‌ی مناسب برای الگوریتم K-medoids در مجموع در روند تشخیص موضوع بهبود ایجاد می‌‌کند و در مقایسه با انتخاب تصادفی مراکز اولیه، با احتمالی بین 70% تا 92% (بسته به مجموعه‌دادگان متفاوت) به معیار F بالاتری می‌توان دست یافت.
قیمت
  • برای اعضای سایت : 100,000 Rial
  • برای دانشجویان عضو انجمن : 20,000 Rial
  • برای اعضای عادی انجمن : 40,000 Rial

خرید مقاله