فا   |   En
ورود به سایت
مشاهده‌ مشخصات مقاله

تشخیص زبان درشبکه های اجتماعی

نویسنده (ها)
  • ندا ناصری
  • مصطفی صالحی
  • محمود بی جن خان
  • هادی ویسی
  • وحید رنجبر
مربوط به کنفرانس بیست و چهارمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
چکیده با فراگير شدن اينترنت و وب حجم زيادي از متون که به هر زباني نوشته مي‌شوند در دسترس است. مسئله تشخيص زبان يکي از مراحل اصلي براي هر نوع پردازش ديگر بر روي متن است. تاکنون پژوهش‌هايي بر روي تشخيص زبان در متون انگليسي انجام شده اما کارها روي زبان فارسي در اين حوزه محدود است. از طرفي با گسترش رسانه‌هاي اجتماعي متون محاوره بيشتر مورد استفاده قرار مي‌گيرند که روش‌هاي تشخيص زبان ارائه شده براي زبان رسمي دقت خوبي براي اين نوع متون ندارند. در اين مقاله روشي جهت تشخيص زبان محاوره ارائه شده و تمرکز بر تشخيص زبان فارسي و زبان‌هاي با رسم‌الخط مشابه يعني کردي مرکزي، عربي، پشتو و اردو و فضاي مورد مطالعه، شبکه‌هاي اجتماعي است. فرآيند طراحي شده از يک مرحله سنجش آماري (الگوي زباني مبتني بر Nتايي‌ها) و دو مرحله غيرآماري (نويسه‌هاي ويژه و ايست‌واژه‌ها) تشکيل شده است. براي ارزيابي روش پيشنهادي مجموعاً تعداد ۱۰۰۰ جمله از هر پنج زبان به صورت تصادفي از پيام‌هاي شبکه‌هاي اجتماعي استخراج شده است. نتايج به دست آمده از ارزيابي روش پيشنهادي بر روي مجموعه داده جمع‌آوري شده نشان مي‌دهد که روش پيشنهادي که تلفيق روش آماري و غيرآماري است بهبود قابل‌توجهي نسبت به روش آماري به تنهايي داشته است. همچنين نتايج به دست آمده نشان‌دهنده عملکرد خوب روش پيشنهادي در مقايسه با ابزارهاي قدرت‌مندي مانند گوگل و زيراکس است. اين ابزار همچنين توانايي تشخيص زبان پشتو و کردي مرکزي را دارد که براي ساير ابزارهاي معروف تشخيص زبان، قابل شناسايي نيست.
قیمت
  • برای اعضای سایت : ۱٠٠,٠٠٠ ریال
  • برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
  • برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال

خرید مقاله