دستهبندی و حاشیهنویسی همزمان تصویر با استفاده از مدلهای احتمالاتی موضوع و کدگذاری LLC کلمات بصری
تاکنون تلاشهای زیادی به منظور استفاده از مدلهای موضوعی نظیر مدل احتمالاتی LDA جهت دستهبندی و حاشیهنویسی همزمان تصاویر صورت گرفته است. اخیراً مدلهای موضوع دیگری بر مبنای شبکههای عصبی احتمالاتی نظیر SupDocNADE معرفی شدهاند که نتایج خوبی در مدلکردن دادههای چندمقداری ارائه دادهاند. در این مدلها کلمات حاشیهنویسی نیز در کنار کلمات بصری تعبیه شده و به عنوان بردار ویژگی برای شبکه در نظر گرفته میشود. عدمتعادل در تعداد کلمات بصری و حاشیهنویسی سبب میشود تا سهم کلمات حاشیهنویسی برای بازنمایی در لایه پنهان شبکهعصبی مورد استفاده در این مدل، بسیار کمتر از کلمات بصری باشد. برای حل این مشکل در این مقاله، کلمات حاشیهنویسی در هیستوگرام بردار ویژگی وزندهی میشوند. با افزودن قابلیت وزندهی ورودیها میتوان از کدگذار LLC که چندین کلمه مشابه در فرهنگ لغت را بصورت وزندار در ساخت بردار ویژگی دخیل میکند، برای تولید کلمات بصری استفاده نمود. با آزمایش مدل پیشنهادی بر روی پایگاه دادههای UIUC_Sports و LabelMe، بهبود 5 درصدی در معیار F در کلمات حاشیهنویسی و بهبود 1 درصدی در دقت دستهبندی نسبت به مدلهای موجود مشاهده میشود.
|