خوشه بندی خودکار کلمات بر اساس مقئله های نحوی برای سیستم های بازشناسی گفتار پیوسته فارسی

مشاهده‌ مشخصات مقاله

خوشه بندی خودکار کلمات بر اساس مقئله های نحوی برای سیستم های بازشناسی گفتار پیوسته فارسی

محمد بحرانی, حسين صامتی, نازیلا حافظی, سعیده ممتازی

نویسنده (ها)

سیزدهمین کنفرانس ملی و بین‌المللی سالانه انجمن کامپیوتر ایران

مربوط به کنفرانس

در این مقاله روش جدیدی برای خوشه بندی کلمات به منظور ساخت مدل زبانی n-gram برای زبان فارسی ارائه شده است که در آن مشکل پیچیدگی روش های خودکار و سرگشتگی بالای روش های دستی به حداقل رسیده است. در این روش هر کلمه با یک بردار ویژگی نمایش داده می شود که این بردار معرف آمار مقوله های نحوی مربوط به آن کلمه است. سپس بردارهای حاصل با استفاده از الگوریتم k-means خوشه بنده می شوند. پیاده سازی و آزمایش های مربوط بر روی پیکره متنی زبان فارسی که شامل حدود 10 میلیون کلمه می باشد، صورت گرفته است. نتایج بیانگر کاهش 34 درصدی در سرگشتگی و کاهش 16 درصدی در نرخ خطای بازشناسی نسبت به روش های دستی مبتنی بر مقوله های نحوی است.

چکیده

برای اعضای سایت : ۱٠٠,٠٠٠ ریال
برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال

قیمت

خرید مقاله