مشاهده مشخصات مقاله
برچسبگذاري خودکار موضوعات استخراج شده از متون فارسي
Authors |
-
پریسا ابوالفتح بیگی دزفولی
-
سعیده ممتازی
|
Conference |
بیست و چهارمین کنفرانس ملی سالانه انجمن کامپیوتر ایران |
Abstract |
در اغلب موارد، براي مدلسازي موضوع در اسناد متني از توزيع چندجملهاي بر روي کلمات استفاده ميشود. چالشي که در استفاده از اين مدلهاي موضوع در ديگر مسائل متنکاوي وجود دارد اين است که درک مفهوم هر موضوع در قالب يک توزيع چندجملهاي بر روي کلمات ممکن است براي کاربر بسيار دشوار باشد. در اين مقاله، روشي براي برچسبگذاري خودکار موضوعات استخراجشده توسط مدل تخصيص پنهان ديريکله از پيکرهاي از اسناد ارائه ميشود. در مدل پيشنهادي، برچسبهاي کانديد بدون استفاده از منابع اطلاعاتي خارجي، تنها از متن خود پيکره جمعآوري ميشوند؛ دستهاي از برچسبهاي کانديد از ميان عبارات اسمي حاصل از قطعهبندي نحوي متن پيکره و دستهاي ديگر نيز از ميان عبارات دوتايي و سهتايي متن انتخاب ميشود. پس از مرحلهي جمعآوري برچسبهاي کانديد، مسئلهي برچسبگذاري خودکار موضوعات را به مسئلهي بهينهسازي تابع نمرهدهي ميزان شايستگي برچسب تبديل ميکنيم و براي هر موضوع ليستي از برچسبها را با بيشترين ميزان شايستگي براي آن موضوع ارائه ميدهيم. براي متمايز بودن برچسبهاي موضوعات مختلف دو رويکرد پيشنهاد ميکنيم: يکي با ارائهي تعريفي متفاوت از تابع نمرهدهي و ديگري با پالايش برچسبهاي حاصل از همان تابع نمرهدهي اوليه با استفاده از معيار معکوس فراواني سند. نتايج نشان ميدهد که در رويکرد پالايش برچسبها بيشترين تعداد موضوع به طور مناسب برچسبگذاري ميشوند. |
قیمت |
-
برای اعضای سایت : 100,000 Rial
-
برای دانشجویان عضو انجمن : 20,000 Rial
-
برای اعضای عادی انجمن : 40,000 Rial
|
خرید مقاله
|
|