فا   |   En
ورود به سایت

دگربیان: توسعه پیکره متنی فارسی جملات و عبارات معادل به کمک روش جمع‌سپاری

نویسنده: رضا معانی‌جو و سید ابوالقاسم میرروشندل

جملات و عبارات دِگَربَیان، بیانی متفاوت از مفهومی یکسان هستند. شناسایی دگربیان‌ها یکی از وظایف مهم سامانه‌های پردازش زبان طبیعی است. با وجود اهمیت این موضوع، پیکره عبارات دگربیان در زبان فارسی توسعه‌نیافته است. هدف این مقاله ارائه روشی جهت تهیه پیکره عبارات و جملات دگربیان در زبان فارسی است. به همین منظور سامانه‌ای خودکار و بی‌ناظر جهت استخراج عبارات و جملات دگربیان ارائه می‌شود که از داده‌های دریافت شده از خبرهای خبرگزاری‌ها استفاده می‌کند. با استفاده از الگوریتمی مبتنی بر معیار جاکارد، نمونه‌های دگربیان در دو سطح عبارات و جملاتی با اندازه‌های متفاوت استخراج می‌شوند. سپس نمونه‌های به ‌دست‌ آمده به کمک تکنیک‌های جمع‌سپاری و سامانه‌ای که تحت پیام‌رسان تلگرام پیاده‌سازی شده،‌ نشانه‌گذاری شده و در سه رده دگربیان، تقریباً دگربیان و نامرتبط ارائه می‌شوند و نتایج حاصل‌شده ارزیابی می‌گردند. در حال حاضر تعداد 523,1 نمونه نشانه‌گذاری شده در نسخه ۱٫۰ از پیکره موجود است که در دسترس عموم است.

 فایل مقاله