انجمن کامپیوتر ایران

برای عضویت کلیک کنید

مشاهده‌ مشخصات مقاله

مقایسه دستهبندی متون فارسی با استفاده از الگوریتمهای kNN و fkNN وانتخاب ویژگیها بر اساس بهره اطلاعات و فرکانس سند

محمد احسان بصیری, شهلا نعمتی, ناصر قاسم آقایی

نویسنده (ها)

سیزدهمین کنفرانس ملی و بین‌المللی سالانه انجمن کامپیوتر ایران

مربوط به کنفرانس

در این مقاله به بررسی دسته بندی متن فارسی با استفاده از الگوریتمهای fkNN و kNN خواهیم پرداخت. آزمایشها بر روی ششصد سند متنی که به شش دسته تقسیم میشوند، انجام شدهاند. هدف اساسی این بررسی، مقایسه دو الگوریتم مذکور برای دسته بندی متن فارسی و ترکیب آنها با روشهای انتخاب ویژگی بهره اطلاعات IG فرکانس سند DF است. از این دو روش برای انتخاب ویژگیها و کاستن از ابعاد فضای ویژگیها استفاده شده است. نتایج نشان میدهند که دقت الگوریتم fkNN از الگوریتم kNN بهتر است. همچنین دقت دستهبندی با استفاده از ترکیب fkNN و IG از سایر ترکیبها بیشتر میباشد. دقت دسته بندی در بهترین حالت به 0.804 دقت میکرو – F1 و 0.755 دقت ماکرو F1- رسید. همچنین میتوان نتیجه گرفت که IG بیشتر از DF دقت را بالا میبرد . در بین دسته های موجود بهترین دستهبندی در مورد بزرگترین دسته یعنی اسناد مربوط به دسته اقتصادی انجام گرفت. دقت دستهبندی برای این دسته تا 0.910 دقت ماکرو F1- و 0.945 دقت میکرو F1- رسید.

چکیده

برای اعضای سایت : ۱٠٠,٠٠٠ ریال
برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال

قیمت