دگربیان: توسعه پیکره متنی فارسی جملات و عبارات معادل به کمک روش جمعسپاری
جملات و عبارات دِگَربَیان، بیانی متفاوت از مفهومی یکسان هستند. شناسایی دگربیانها یکی از وظایف مهم سامانههای پردازش زبان طبیعی است. با وجود اهمیت این موضوع، پیکره عبارات دگربیان در زبان فارسی توسعهنیافته است. هدف این مقاله ارائه روشی جهت تهیه پیکره عبارات و جملات دگربیان در زبان فارسی است. به همین منظور سامانهای خودکار و بیناظر جهت استخراج عبارات و جملات دگربیان ارائه میشود که از دادههای دریافت شده از خبرهای خبرگزاریها استفاده میکند. با استفاده از الگوریتمی مبتنی بر معیار جاکارد، نمونههای دگربیان در دو سطح عبارات و جملاتی با اندازههای متفاوت استخراج میشوند. سپس نمونههای به دست آمده به کمک تکنیکهای جمعسپاری و سامانهای که تحت پیامرسان تلگرام پیادهسازی شده، نشانهگذاری شده و در سه رده دگربیان، تقریباً دگربیان و نامرتبط ارائه میشوند و نتایج حاصلشده ارزیابی میگردند. در حال حاضر تعداد 523,1 نمونه نشانهگذاری شده در نسخه ۱٫۰ از پیکره موجود است که در دسترس عموم است.
|