مشاهده مشخصات مقاله
ارائه یک روش جدید برای بهبود دادن مسأله تشخیص جنسیت نویسنده متن
Authors |
-
صدیقه ابی زاد
-
حمیدرضا احمدی فر
-
سید ابولقاسم میرروشندل
|
Conference |
بیست و دومین کنفرانس ملی سالانه انجمن کامپیوتر ایران |
Abstract |
مسأله تشخیص جنسیت نویسنده متن، یکی از مسائل مورد استفاده در حوزه داده کاوی و متن کاوی است که جهت شناسایی هویت مجهول و یا غیر واقعی تعدادی از کاربران اینترنتی و کاربران شبکههای اجتماعی بکار رفته است. هدف از ارائه این مسأله این است که با استفاده از یک یا چند روش بهینه در زمینه تجزیه و تحلیل متون، بتوان مدلی را استخراج کرد که با استفاده از آن، ضریب احتمال تشخیص صحیح برای تعیین جنسیت نویسندگان متون مورد نظر (مرد یا زن بودن نویسنده) را بالا ببریم. یکی از دلایل اصلی ضرورت پرداختن به این موضوع، جلوگیری از سوء استفادههای احتمالی از دیگر کاربران، توسط افراد ناشناس یا افراد با هویت جعلی است. راهکارهایی که در این مقاله، برای حل مسأله تشخیص جنسیت نویسنده متن استفاده شده است، شامل دو بخش است، بخش اول شامل یک شیوه جدید وزن دهی به نام معکوس فراوانی سند وابسته به جنسیت (GIDF) است که مبنای آن روش معکوس فراوانی سند (idf) میباشد. بخش دوم استفاده از یک روش فراابتکاری ترکیبی مبتنی بر روش خفاشها به نام روش ترکیبی خفاشها – زنبورهای مصنوعی (BABC) است که با الگوریتم طبقه بندی ماشین بردار پشتیبان ترکیب شده و وظیفه آن بهبود نتایج حاصل از طبقه بندی SVM بوسیله انتخاب بهترین ویژگیها جهت ساخت مدل پیشنهادی است. مجموعه داده مورد استفاده جهت ساخت مدل، شامل 3000 نمونه جمع آوری شده از متون نگاشته شده توسط مرد و زن در سایت بلاگفا است که 50 درصد از کل نمونه مربوط به متون مربوط به زن و 50 درصد دیگر مربوط به متون مربوط به زن است. نتایج بدست آمده توسط الگوریتمهای پیشنهادی نشان میدهد که دقت کلاسبندی برابر با 85.5 درصد است. |
قیمت |
-
برای اعضای سایت : 100,000 Rial
-
برای دانشجویان عضو انجمن : 20,000 Rial
-
برای اعضای عادی انجمن : 40,000 Rial
|
خرید مقاله
|
|