فا   |   En
ورود به سایت
مشاهده‌ مشخصات مقاله

روشی مبتنی بر یادگیری برای تعیین مرز بین کلمات در متون فارسی

نویسنده (ها)
  • امیرحسین احمدیان
  • هشام فیلی
مربوط به کنفرانس بیست و یکمین کنفرانس ملی سالانه انجمن کامپیوتر
چکیده تعیین مرز بین کلمات یا قطعه بندی (Tokenization) یکی از اولین مراحل در اغلب پردازش های متن و زبان طبیعی است. هرچند روش های مبتنی بر قواعد برای این کار مرسوم تراند، قطعه بندی با رویکرد یادگیری ماشین مزایایی را از جمله یادگیری خودکار استثناها از داده های آموزشی به همراه دارد. در این مقاله یک رویکرد مبتنی بر یادگیری ماشین برای قطعه بندی (تعیین مرز بین کلمات) در جملات فارسی ارائه می شود. در این رویکرد، ابتدا اصلاحات مقدماتی قاعده مند روی هر رشته (جمله) ورودی انجام و محل هایی از رشته به عنوان نقاط کاندیدا برای مرز انتخاب می شوند، سپس الگوریتم های یادگیری و طبقه بندی بر مبنای استخراج ویژگی از مجاورت این نقاط عمل می کنند. برای تعیین مرز بین کلمات، طبقه بند به هر نقطه کاندیدا یکی از برچسب های «انفصال» یا «اتصال» را اختصاص می دهد. درخت تصمیم ابزار اصلی مورد استفاده برای یادگیری است که با دو مدل احتمالاتی دیگر ترکیب شده است. عادت های کاربر و تاثیر هر تصمیم (برچسب) بر تصمیم بعد در این دو مدل لحاظ می شوند. ارزیابی روش پیشنهادی با محاسبه معیارهای دقت و فراخوانی و درصد جملات درست قطعه بندی شده، انجام شده است. نتایج عملی نشان می دهند که عملکرد رویکرد پیشنهادی، به رغم استفاده از حجم محدودی از داده آموزشی، به روش های مبتنی بر قواعد نزدیک و در مواردی بهتر است.
قیمت
  • برای اعضای سایت : ۱٠٠,٠٠٠ ریال
  • برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
  • برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال

خرید مقاله