فا | En

ورود به سایت

صفحه اصلی

درباره ما

کنفرانس‌ها و رخدادها

کارگاه‌ها و سمینارها

سایت‌های مرتبط

پرداخت‌ها

مشاهده‌ مشخصات مقاله

برچسب‎گذاري خودکار موضوعات استخراج شده از متون فارسي

نویسنده (ها)	پریسا ابوالفتح بیگی دزفولی سعیده ممتازی
مربوط به کنفرانس	بیست و چهارمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
چکیده	در اغلب موارد، براي مدل‎سازي موضوع در اسناد متني از توزيع چندجمله‎اي بر روي کلمات استفاده مي‎شود. چالشي که در استفاده از اين مدل‎هاي موضوع در ديگر مسائل متن‎کاوي وجود دارد اين است که درک مفهوم هر موضوع در قالب يک توزيع چندجمله‎اي بر روي کلمات ممکن است براي کاربر بسيار دشوار باشد. در اين مقاله، روشي براي برچسب‎گذاري خودکار موضوعات استخراج‎شده توسط مدل تخصيص پنهان ديريکله از پيکره‎اي از اسناد ارائه مي‎شود. در مدل پيشنهادي، برچسب‎هاي کانديد بدون استفاده از منابع اطلاعاتي خارجي، تنها از متن خود پيکره جمع‎آوري مي‎شوند؛ دسته‎اي از برچسب‎هاي کانديد از ميان عبارات اسمي حاصل از قطعه‎بندي نحوي متن پيکره و دسته‎اي ديگر نيز از ميان عبارات دوتايي و سه‎تايي متن انتخاب مي‎شود. پس از مرحله‎ي جمع‎آوري برچسب‎هاي کانديد، مسئله‎ي برچسب‎گذاري خودکار موضوعات را به مسئله‎ي بهينه‎سازي تابع‎ نمره‎دهي ميزان شايستگي برچسب تبديل مي‎کنيم و براي هر موضوع ليستي از برچسب‎ها را با بيشترين ميزان شايستگي براي آن موضوع ارائه مي‎دهيم. براي متمايز بودن برچسب‎هاي موضوعات مختلف دو رويکرد پيشنهاد مي‎کنيم: يکي با ارائه‎ي تعريفي متفاوت از تابع نمره‎دهي و ديگري با پالايش برچسب‎هاي حاصل از همان تابع نمره‎دهي اوليه با استفاده از معيار معکوس فراواني سند. نتايج نشان مي‎دهد که در رويکرد پالايش برچسب‎ها بيشترين تعداد موضوع به طور مناسب برچسب‎گذاري مي‎شوند.
قیمت	برای اعضای سایت : ۱٠٠,٠٠٠ ریال برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال

خرید مقاله

کنفرانس‌ها و رخدادها

آرشیو کنفرانس‌ها

آرشیو مقالات

رخدادهای مرتبط

عضویت در انجمن کامپیوتر ایران

تمام حقوق مادی و معنوی این سایت متعلق به انجمن کامپیوتر ایران می باشد و استفاده از مطالب با ذکر منبع بلامانع است.