انجمن کامپیوتر ایران

برای عضویت کلیک کنید

مشاهده‌ مشخصات مقاله

ارائه ترکیبی بهبود یافته برای طبقه‌بندی متون فارسی

نگین دانشپور, مرتضی جهان‌تیغ, جواد مرآتی, علی قاسم‌زاده

نویسنده (ها)

هجدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران

مربوط به کنفرانس

متن¬کاوی به دلیل حجم وسیعی از اطلاعات که به صورت متنی ذخیره شده¬، پتانسیل کاربردی بسیار بالایی دارد.یکی از مهم-ترین کاربردهای متن¬کاوی طبقه¬بندی متون به لحاظ موضوعی می¬باشد.در این مقاله سعی بر آن داشته¬ایم تا با توجه به روش-های مختلف طبقه¬بندی متون فارسي،روشی نوین در جهت افزایش دقت و کارآیی طبقه¬بندی متون ارائه دهیم.در این مقاله 5330 خبر از مجموعه داده¬های همشهری برای طبقه¬بندی استفاده شده است.در پیش پردازش متون برای حذف کلمات عمومی ،روشی جدید با استفاده از آنتروپی کلمات ارائه شده است.برای استخراج ویژگی،روش¬های فرکانس کلمات و Tf-idfبکار گرفته شده است.برای طبقه¬بندی متون نیز از الگوریتم¬های kنزدیک¬ترین همسایه، رده¬بندی بیزین و ترکیب طبقه-بندها با استفاده از روش طبقه¬بندی ترکیبیو اختلاط خبرگاناستفاده شده است.پیاده¬سازی روش پیشنهادی با ارائه آنتروپی در پیش پردازش و همچنین ترکیب طبقه¬بندها موجب بهبود 14درصدی نسبت به کارهای انجام شده قبلی بر روی همین مجموعه داده¬ها در نتایج کلی شده است.در بهترین حالت بازشناسی، اخبار دانش¬آموزان-اجتماعی با 93درصد بوده است.

چکیده

برای اعضای سایت : ۱٠٠,٠٠٠ ریال
برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال

قیمت