مشاهده مشخصات مقاله
برچسبگذاري خودکار موضوعات استخراج شده از متون فارسي
نویسنده (ها) |
-
پریسا ابوالفتح بیگی دزفولی
-
سعیده ممتازی
|
مربوط به کنفرانس |
بیست و چهارمین کنفرانس ملی سالانه انجمن کامپیوتر ایران |
چکیده |
در اغلب موارد، براي مدلسازي موضوع در اسناد متني از توزيع چندجملهاي بر روي کلمات استفاده ميشود. چالشي که در استفاده از اين مدلهاي موضوع در ديگر مسائل متنکاوي وجود دارد اين است که درک مفهوم هر موضوع در قالب يک توزيع چندجملهاي بر روي کلمات ممکن است براي کاربر بسيار دشوار باشد. در اين مقاله، روشي براي برچسبگذاري خودکار موضوعات استخراجشده توسط مدل تخصيص پنهان ديريکله از پيکرهاي از اسناد ارائه ميشود. در مدل پيشنهادي، برچسبهاي کانديد بدون استفاده از منابع اطلاعاتي خارجي، تنها از متن خود پيکره جمعآوري ميشوند؛ دستهاي از برچسبهاي کانديد از ميان عبارات اسمي حاصل از قطعهبندي نحوي متن پيکره و دستهاي ديگر نيز از ميان عبارات دوتايي و سهتايي متن انتخاب ميشود. پس از مرحلهي جمعآوري برچسبهاي کانديد، مسئلهي برچسبگذاري خودکار موضوعات را به مسئلهي بهينهسازي تابع نمرهدهي ميزان شايستگي برچسب تبديل ميکنيم و براي هر موضوع ليستي از برچسبها را با بيشترين ميزان شايستگي براي آن موضوع ارائه ميدهيم. براي متمايز بودن برچسبهاي موضوعات مختلف دو رويکرد پيشنهاد ميکنيم: يکي با ارائهي تعريفي متفاوت از تابع نمرهدهي و ديگري با پالايش برچسبهاي حاصل از همان تابع نمرهدهي اوليه با استفاده از معيار معکوس فراواني سند. نتايج نشان ميدهد که در رويکرد پالايش برچسبها بيشترين تعداد موضوع به طور مناسب برچسبگذاري ميشوند. |
قیمت |
-
برای اعضای سایت : ۱٠٠,٠٠٠ ریال
-
برای دانشجویان عضو انجمن : ۲٠,٠٠٠ ریال
-
برای اعضای عادی انجمن : ۴٠,٠٠٠ ریال
|
خرید مقاله
|
|