انجمن کامپیوتر ایران

برای عضویت کلیک کنید

مشاهده‌ مشخصات مقاله

دسته بندي موضوعي متون فارسي بر اساس روش آناليز معنايي پنهان احتمالاتي بهبود يافته

طاهره امامي آزادي, فرشاد الماس گنج

نویسنده (ها)

دوازدهمین کنفرانس بین‌المللی سالانه انجمن کامپیوتر ایران

مربوط به کنفرانس

با توجه به رشد روزافزون حجم متون و لزوم دستيابي مناسب و استخراج اطلاعات از آنها، دسته بندي بدون سرپرست متون اهميت زيادي پيدا کرده است. روش آناليز معنايي پنهان احتمالاتي » (PLSA) ، يكي از روشهايي است كه در سالهاي اخير در دسته بندي متون مورد توجه قرار گرفته است. روش PLSA که بر پاية آناليز معنايي پنهان » يا (LSA) است، داراي زيربناي آماري محکمي بوده و در زمينههاي مختلف کار با متون عملکرد بسيار خوبي داشته است. در اين مقاله روش PLSA به منظور بيان مناسب متون در فضاي کاهش بعد يافتة معنايي و نيز دسته بندي متون مورد استفاده قرار گرفت و روشي براي بهبود مدل PLSA با حذف متغيرهاي پنهان نامناسب در حين تعليم پيشنهاد شد. آزمايشات بر روي تعدادي متن فارسي شامل ۶ موضوع کلي و داراي برچسب موضوعي كه از پيرة متني « فار س دات انتخاب شده بودند، صورت گرفت. با استفاده از روش PLSA به همراه الگوريتم ساده k-means به ۸۷,۲۳% صحت دستهبندي دست يافتيم که %6.09 بيشتر از روش LSA در کنار مدل k-means بود. همچنين توانستيم با استفاده از روش PLSA بهبود يافتة پيشنهادي صحت دستهبندي را نسبت به روش PLSA ، 3.75% افزايش دهيم.

چکیده

برای اعضای سایت : ۱٠٠,٠٠٠ ریال
برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال

قیمت