فا | En

مشاهده‌ مشخصات مقاله

روشی مبتنی بر یادگیری برای تعیین مرز بین کلمات در متون فارسی

Authors	امیرحسین احمدیان هشام فیلی
Conference	بیست و یکمین کنفرانس ملی سالانه انجمن کامپیوتر
Abstract	تعیین مرز بین کلمات یا قطعه بندی (Tokenization) یکی از اولین مراحل در اغلب پردازش های متن و زبان طبیعی است. هرچند روش های مبتنی بر قواعد برای این کار مرسوم تراند، قطعه بندی با رویکرد یادگیری ماشین مزایایی را از جمله یادگیری خودکار استثناها از داده های آموزشی به همراه دارد. در این مقاله یک رویکرد مبتنی بر یادگیری ماشین برای قطعه بندی (تعیین مرز بین کلمات) در جملات فارسی ارائه می شود. در این رویکرد، ابتدا اصلاحات مقدماتی قاعده مند روی هر رشته (جمله) ورودی انجام و محل هایی از رشته به عنوان نقاط کاندیدا برای مرز انتخاب می شوند، سپس الگوریتم های یادگیری و طبقه بندی بر مبنای استخراج ویژگی از مجاورت این نقاط عمل می کنند. برای تعیین مرز بین کلمات، طبقه بند به هر نقطه کاندیدا یکی از برچسب های «انفصال» یا «اتصال» را اختصاص می دهد. درخت تصمیم ابزار اصلی مورد استفاده برای یادگیری است که با دو مدل احتمالاتی دیگر ترکیب شده است. عادت های کاربر و تاثیر هر تصمیم (برچسب) بر تصمیم بعد در این دو مدل لحاظ می شوند. ارزیابی روش پیشنهادی با محاسبه معیارهای دقت و فراخوانی و درصد جملات درست قطعه بندی شده، انجام شده است. نتایج عملی نشان می دهند که عملکرد رویکرد پیشنهادی، به رغم استفاده از حجم محدودی از داده آموزشی، به روش های مبتنی بر قواعد نزدیک و در مواردی بهتر است.
قیمت	برای اعضای سایت : 100,000 Rial برای دانشجویان عضو انجمن : 20,000 Rial برای اعضای عادی انجمن : 40,000 Rial

خرید مقاله

Conferences and Events

Conference Archives

Registration in Computer Society of Iran

All rights reserved by the Computer Society of Iran