فا   |   En
ورود به سایت
مشاهده‌ مشخصات مقاله

برچسب‎گذاري خودکار موضوعات استخراج شده از متون فارسي

نویسنده (ها)
  • پریسا ابوالفتح بیگی دزفولی
  • سعیده ممتازی
مربوط به کنفرانس بیست و چهارمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
چکیده در اغلب موارد، براي مدل‎سازي موضوع در اسناد متني از توزيع چندجمله‎اي بر روي کلمات استفاده مي‎شود. چالشي که در استفاده از اين مدل‎هاي موضوع در ديگر مسائل متن‎کاوي وجود دارد اين است که درک مفهوم هر موضوع در قالب يک توزيع چندجمله‎اي بر روي کلمات ممکن است براي کاربر بسيار دشوار باشد. در اين مقاله، روشي براي برچسب‎گذاري خودکار موضوعات استخراج‎شده توسط مدل تخصيص پنهان ديريکله از پيکره‎اي از اسناد ارائه مي‎شود. در مدل پيشنهادي، برچسب‎هاي کانديد بدون استفاده از منابع اطلاعاتي خارجي، تنها از متن خود پيکره جمع‎آوري مي‎شوند؛ دسته‎اي از برچسب‎هاي کانديد از ميان عبارات اسمي حاصل از قطعه‎بندي نحوي متن پيکره و دسته‎اي ديگر نيز از ميان عبارات دوتايي و سه‎تايي متن انتخاب مي‎شود. پس از مرحله‎ي جمع‎آوري برچسب‎هاي کانديد، مسئله‎ي برچسب‎گذاري خودکار موضوعات را به مسئله‎ي بهينه‎سازي تابع‎ نمره‎دهي ميزان شايستگي برچسب تبديل مي‎کنيم و براي هر موضوع ليستي از برچسب‎ها را با بيشترين ميزان شايستگي براي آن موضوع ارائه مي‎دهيم. براي متمايز بودن برچسب‎هاي موضوعات مختلف دو رويکرد پيشنهاد مي‎کنيم: يکي با ارائه‎ي تعريفي متفاوت از تابع نمره‎دهي و ديگري با پالايش برچسب‎هاي حاصل از همان تابع نمره‎دهي اوليه با استفاده از معيار معکوس فراواني سند. نتايج نشان مي‎دهد که در رويکرد پالايش برچسب‎ها بيشترين تعداد موضوع به طور مناسب برچسب‎گذاري مي‎شوند.
قیمت
  • برای اعضای سایت : ۱٠٠,٠٠٠ ریال
  • برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
  • برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال

خرید مقاله