مشاهده مشخصات مقاله
تشخیص زبان درشبکه های اجتماعی
نویسنده (ها) |
-
ندا ناصری
-
مصطفی صالحی
-
محمود بی جن خان
-
هادی ویسی
-
وحید رنجبر
|
مربوط به کنفرانس |
بیست و چهارمین کنفرانس ملی سالانه انجمن کامپیوتر ایران |
چکیده |
با فراگير شدن اينترنت و وب حجم زيادي از متون که به هر زباني نوشته ميشوند در دسترس است. مسئله تشخيص زبان يکي از مراحل اصلي براي هر نوع پردازش ديگر بر روي متن است. تاکنون پژوهشهايي بر روي تشخيص زبان در متون انگليسي انجام شده اما کارها روي زبان فارسي در اين حوزه محدود است. از طرفي با گسترش رسانههاي اجتماعي متون محاوره بيشتر مورد استفاده قرار ميگيرند که روشهاي تشخيص زبان ارائه شده براي زبان رسمي دقت خوبي براي اين نوع متون ندارند. در اين مقاله روشي جهت تشخيص زبان محاوره ارائه شده و تمرکز بر تشخيص زبان فارسي و زبانهاي با رسمالخط مشابه يعني کردي مرکزي، عربي، پشتو و اردو و فضاي مورد مطالعه، شبکههاي اجتماعي است. فرآيند طراحي شده از يک مرحله سنجش آماري (الگوي زباني مبتني بر Nتاييها) و دو مرحله غيرآماري (نويسههاي ويژه و ايستواژهها) تشکيل شده است. براي ارزيابي روش پيشنهادي مجموعاً تعداد ۱۰۰۰ جمله از هر پنج زبان به صورت تصادفي از پيامهاي شبکههاي اجتماعي استخراج شده است. نتايج به دست آمده از ارزيابي روش پيشنهادي بر روي مجموعه داده جمعآوري شده نشان ميدهد که روش پيشنهادي که تلفيق روش آماري و غيرآماري است بهبود قابلتوجهي نسبت به روش آماري به تنهايي داشته است. همچنين نتايج به دست آمده نشاندهنده عملکرد خوب روش پيشنهادي در مقايسه با ابزارهاي قدرتمندي مانند گوگل و زيراکس است. اين ابزار همچنين توانايي تشخيص زبان پشتو و کردي مرکزي را دارد که براي ساير ابزارهاي معروف تشخيص زبان، قابل شناسايي نيست. |
قیمت |
-
برای اعضای سایت : ۱٠٠,٠٠٠ ریال
-
برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
-
برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال
|
خرید مقاله
|
|