عنوان مقاله | نویسنده(ها) | مربوط به کنفرانس | چکیده | خرید مقاله |
---|---|---|---|---|
محبوبه فراهت, کمال جمشیدی, امیر حسن منجمی
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
مدل مخلوط گاوسی و ضرایب فرکانسی مل همواره به عنوان مهمترین روشهای مدلسازی توزیع نمونهها و استخراج ویژگی در شناسایی گفتار مطرح بودهاند. مزیت مدل مخلوط گاوسی در مدلسازی ورودیها با بالاترین دقت و مزیت ضرایب فرکانسی مل در یافتن اطلاعات تمایزدهنده در طیف زمانی کوتاه است. ویژگیهای طیف زمانی کوتاه مقاومت لازم در مقابل نویز را ندارند، از طرفی اما بهکارگیری اطلاعات در بازههای زمانی طولانیتر نیز در مدل مخلوط گاوسی بار محاسباتی بالایی دارد. این مسائل کاهش دقت را در صورت وجود عدم تطابق در شرایط آموزش و آزمون باعث میشود. ترکیب ویژگیهای مختلف و تغییر در مدلسازی نمونههای ورودی از جمله راههای پیشنهادی هستند. در این مقاله از شبکههای باور عمیق برای یافتن ویژگیهای تمایزدهنده از یک طیف زمانی طولانیتر استفاده میشود. در این حالت تبدیلات غیرخطی علاوه بر استخراج ویژگیهای سطح بالاتر و کاهش ابعاد ویژگیهای ورودی، تبدیل فضای ویژگیهای ضرایب فرکانسی مل را منجر میشود که میتوانند در مقابل تغییرات سیگنال ورودی مقاومت لازم را داشته باشند. این ویژگیها در بهبود کارایی مدل مخفی مارکوف استفاده میشوند. روش پیشنهادی بر روی مجموعهای از پرکاربردترین کلمات فارس-دات آزمایش و نتایج آن با پرکاربردترین روش شناسایی گفتار مقایسه شده است. افزایش دقت شناسایی کلمات نشان از کارایی روش پیشنهادی در مقابل تغییرات و نویز دارد.
|
||
رضا وفاشعار, محمد مهدی همایونپور
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
در این مقاله روش جدیدی برای تشخیص محدودهی گفتار در سیگنال صوتی بر اساس دستهبندی مبتنی بر انتخاب مثبت ارائه شده است. با توجه به مرزهای پیچیدهای که بین دادههای مربوط به نویز و گفتار وجود دارد، استفاده از روشهای دستهبندی معمول برای جداسازی آنها دشوار میباشد. در روش ارائه شده با استفاده از انتخاب مثبت گیرندههایی برای تشخیص دادههای گفتاری و دادههای نویزی ایجاد میشود. روش دستهبندی ارائه شده شبیه یادگیری با نمونه میباشد و قادر به جداسازی کارآمد گفتار از نویز میباشد. در فاز آموزش روش ارائه شده ابتدا گیرندههایی مبتنی بر انتخاب مثبت ایجاد میشوند. این گیرندهها با استفاده از روش انتخاب کلونی بهبود مییابند تا بتوانند فضاهای گفتار و نویز را به طور مناسبی پوشش دهند. روش ارائه شده با چند روش متداول برای تشخیص محدودهی کلمات، در محیطهای مختلف با SNR متفاوت، مقایسه شده است. برای مقایسات از پیکرهی گفتاری TIMIT استفاده شده و عملکرد روشهای مورد مقایسه بر اساس دو معیار نرخ تشخیص موفق و نرخ آلارم اشتباه بررسی شده است. نتایج مقایسات نشان میدهند که روش ارائه شده توانسته است با نرخ آلارم اشتباه پایین به نرخ تشخیص بالایی دست یابد به عنوان مثال در حضور نویز bobble، نرخ آلارم اشتباه بیشتر از 2/0 از روشهای مقایسه شده بهتر بوده، در حالیکه نرخ تشخیص موفق مناسب و بیشتر از 9/0 میباشد. در حضور نویز factory نیز در بعضی موارد بهبودی در حدود 2/0 در نرخ آلارم اشتباه ایجاد شده است. روش پیشنهادی در حضور نویز سفید با نرخ آلارم اشتباه بسیار مناسب و پایین به نرخ تشخیص بالایی دست یافته که در SNR پایین 15/0 بهبود در نرخ تشخیص نیز مشاهده میشود.
|
||
هدی سادات جعفری, محمدمهدی همایونپور
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
در این مقاله، هدف تشخیص الگوهای کلیدی در سیگنال گفتار است. الگوهای کلیدی، الگوهایی هستند که نمایندهای از معنای کل گفتار باشند. تشخیص الگوهای کلیدی در سامانههای بازیابی اطلاعات مانند دستهبندی فایلهای صوتی، موتور جستجو، خلاصهسازی، ... کاربرد دارد. در الگوریتم پیشنهادی ابتدا الگوهای تکراری در یک فایل گفتاری با استفاده از الگوریتم S-DTW تشخیص داده میشوند. سپس در مرحله دوم با استفاه از الگوریتم TextRank الگوهای کلیدی استخراج میشوند. روش پیشنهادی یک روش بینظارت بوده و بدون استفاده از سامانه بازشناسی گفتار و داشتن رونوشت، الگوهای کلیدی مستقیماً از روی سیگنال گفتار استخراج میشوند. این الگوریتم برروی تعدادی فایل گفتاری از مجموعه داده فارسدات بزرگ آزمایش شده است. برای مقایسه، از دو سامانهی ایجاز و FarsiSum استفاده شد که کلمات کلیدی را از روی متن تمیز، بدون داشتن خطاهای بازشناسی گفتار استخراج نمودند. سامانهی پیشنهادی در مقایسه با این دو سامانه، نتایج قابل رقابتی را بدست آورده است، در حالی که تنها از سیگنال گفتار برای تشخیص الگوهای کلیدی استفاده کرده است.
|
||
مصطفی برهانی, محمدحسن قاسميان يزدی
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
این مقاله یک رویکرد نظارت شدۀ برای بهبود دقت طبقهبندیِ طیفی - مکانی تصویر ابرطیفی با ساختار طبقاتی و یادگیری فعال ارائه میدهد. الگوریتم پیشنهادی شامل دو مرحلۀ اصلی میباشد. در ابتدا، از رگرسیون لجستیکِ چندجملهای (MLR) برای استنتاجِ توزیعهای احتمال پسین کلاس استفاده میکنیم. این امر با استفاده از رگرسیون لجستیکِ لاگرانژیِ تقویتی (LORSAL) انجامگرفته است. در واقع، در این مقاله، روش LORSAL با استفاده از کرنلها به حوزه ویژگی توسعهیافته است. سپس، اطلاعات حاصل از مرحلۀ قبل برای طبقهبندیِ طیفی - مکانی تصویر ابرطیفی استفاده میشود. به منظور کاهش هزینۀ دستیابی به مجموعههای آموزشیِ بزرگ، از یادگیری فعالِ مبتنی بر احتمالات پیشینِ MLR استفاده میکنیم. دیگر نوآوری این مقاله، معرفیِ رویکرد نمونهگیری فعال جدیدی است که پیوندهای شکنندۀ اصلاحشده (MBT) نامیده شده و نمونهگیریای بدون بایاس ارائه میکند. همچنین، به منظور دستیابی به حداکثر طبقهبندیِ طیفی - مکانی، پس از یکنواخت سازی توسط میدانهای تصادفی مارکوف از الگوریتم بهینهسازی گسترۀ آلفای عدد صحیح مبتنی بر min – cut استفاده میکنیم. عملکرد رویکرد پیشنهادی، با استفاده از مجموعۀ دادههای طیفیِ واقعی در آزمایشهای مختلف با نتایج سایر روشهای تحلیل تصویر ابرطیفیِ ، مقایسه شده است.
|
||
علیرضا یمقانی, فرزاد زرگری اصل
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
در این مقاله روشی نو در خلاصه سازی ویدئو در حوزه فشرده استاندارد HEVC شرح داده می شود. با استفاده از این استاندارد، ویژگیهای محتوایی فریم ها در حالت فشرده استخراج شده و با استفاده از یک الگو ریتم خوشه بندی، روشی برای خلاصه سازی ارائه گردیده است. اگر چه تحقیقات مختلفی در خصوص خلاصه سازی ویدئویی انجام گردیده است اما بیشتر آن ها، مبتنی بر ویدئو های مبتنی بر حوزه پیکسل بوده که زمان و حافظه زیادی برای کوتاه کردن آن مصرف می گردد. در الگوریتم پیشنهادی، ابتدا ویژگی هیستوگرام نرمال مدهای پیش بینی از ویدئوی فشرده بر اساس HEVC استخراج شده، سپس اشتراک این هیستوگرام به عنوان معیار مشابهت، برای هر دو فریم در ویدئو، محاسبه می گردد. در ادامه یک الگو ریتم خوشه بندی افزایشی، فریم های مشابه را در کلاس های مشخصی جای می دهد. مجموعه نماینده های هر کلاس به عنوان فریم های خلاصه شده در نظر گرفته می شود. نتایج نشان می دهد، الگو ریتم پیشنهادی به دلیل استفاده از استاندارد جدید فشرده سازی به میزان قابل توجهی در تشخیص فریم های مشابه بهتر عمل نموده است و بار محاسباتی کمتری داشته است.
|
||
مهدیه کاظمزاده, علی برومندنیا
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
تشخیص هویت از طریق اثرانگشت به دلیل دقت بالا و سادگی، متداول ترین روش شناسایی افراد بر اساس تکنولوژی بیومتریک است. عملکرد یک سیستم تأیید اثر انگشت تا حد زیادی به کیفیت تصویر اثر انگشت ورودی بستگی دارد. و استخراج ویژگی از تصویر کم کیفیت در یک سیستم شناسایی همیشه با چالش مواجه بوده است.در این مقاله ما از تبدیل فوریه زمانی کوتاه (STFT) برای حذف نویزهای تصویر و رسیدن به یک تصویر با کیفیت بالایی که بتواند جهت و موقعیت نقاط منفرد را با دقت بالاتری بدست آورد استفاده کرده ایم. همچنین یک روش نوین برای استخراج ویژگی از تصویر اثر انگشت با استفاده از گشتاورهای زرنیک ارائه دادیم. در این روش یک بردار ویژگی با طول ثابت ازهر سلول در ناحیه ROI با مرکزیت نقطه مرجع تصویر اثر انگشت، استخراج می کنیم. در این سیستم از مدل شبکه عصبی MLP برای کلاس بندی استفاده شده است. در نهایت با انجام آزمایش بر روی تصاویر پایگاه داده استاندارد، نشان داده می شود که روش پیشنهادی دارای نرخ شناسایی 96.78%و میانگین خطای 3.02 % می باشد که در مقایسه با روشهای مقایسهای عملکرد بهتری دارد.
|
||
سمیه احمدخانی, وصال پیمان ادیبی
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
در این مقاله روشی برای شناسایی چهره با استفاده از یک رویکرد کاهش بعد بدون اتلاف ارائه شده است. در این روش به جای نگاشت داده بر یک زیرفضا یا منیفولد کم بعد که موجب از دست رفتن اطلاعات میشود، فاصله داده از آن زیرفضا یا منیفولد به عنوان جریمه نگاشت در یادگیری یک مدل پیشگو مورد استفاده قرار میگیرد. بدین ترتیب از مزایای کاهش بعد در مدل پیشگو استفاده میشود، و در عین حال جلوی از دست رفتن اطلاعات مفید گرفته میشود. در روش پیشنهادی ابتدا یک منیفولد زیربنایی محلی خطی با استفاده از مدل ترکیبی تحلیل مؤلفه اصلی احتمالاتی از نمونه دادهها به دست میآید. سپس دسته بند ماشین بردار پشتیبان به عنوان مدل پیشگوی مذکور با استفاده از این منیفولد محلی خطی آموزش داده میشود. برای آموزش و ارزیابی روش پیشنهادی، چند پایگاه داده شناخته شده برای چهره مورد استفاده قرار گرفته است. نتایج آزمایش بر روی این پایگاه دادهها نشان میدهد که روش پیشنهادی نسبت به بسیاری روشهای معمول که کاهش بعد را انجام داده و سپس دسته بند را آموزش میدهند، و همچنین نسبت به روش جریمه نگاشت مبتنی بر مدلهای کاهش بعد خطی و غیرخطی دقت بیشتری دارد.
|
||
عبداله نظرپور, پیمان ادیبی
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
در این مقاله، یک روش جدید کاهش بعد بانظارت با نام کاهش بعد چند هستهای با فرم بسته برای مسئله شناسایی ارقام دستنویس ارائه شده است. ابتدا ویژگیها به کمک روش هیستوگرام گرادیان جهتدار (HOG) از تصاویر استخراج میشوند. پس از آن روش کاهش بعد چند هستهای با فرم بسته سعی در پیدا کردن منیفولد کم بعدی میکند که دقت دستهبندی در آن بیشتر است. این روش از چند تابع هسته استفاده میکند و سعی میکند ارزش (وزن) هر تابع را محاسبه کند و بر اساس ترکیب خطی هستهها به وسیله این ارزشها کاهش بعد را انجام دهد. نوآوری اصلی مدل پیشنهادی ارائه یک فرمولاسیون یادگیری چند هستهای برای کاهش بعد بانظارت است، که بجای روشهای تکرارشونده، پاسخ را به صورت تحلیلی و به فرم بسته بدست میآورد. در فضای کاهش بعد یافته از روش سادهی نزدیکترین همسایگی، برای دستهبندی استفاده شده است. به منظور ارزیابی روش پیشنهادی، چند روش کاهش بعد بانظارت دیگر نیز برای شناسایی ارقام دستنویس به کار گرفته شده است. نتایج آزمایشات بیانگر دقت بالای روش پیشنهادی است.
|
||
مجید نیکزر, احمدرضا نقشنیلچی
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
نازکسازی، یک نوع پیشپردازش روی تصویر کاراکترها است که طی آن عرض تمام بخشهای هر کاراکتر به یک پیکسل کاهش مییابد. در این مقاله روشی برای نازک سازی حروف تایپی فارسی ارائه شده است که از طریق تکرارهای متوالی کار نازک سازی را انجام می دهد، این کار به کمک حفر سطوح و حذف پیکسلهای دندانهای انجام میشود. این مقاله قصد دارد با استفاده از الگوریتم های پایه ریخت شناسی به نازک سازی کاراکترهای تایپ شده فارسی به گونهای بپردازد که تشخیص بصری کاراکترهای زبان فارسی را آسان سازد. با توجه به زیاد بودن تعداد نقاط دندانهای در اطراف کاراکترها، این روش از سرعت بالایی برخوردار است. نتایج حاصل از پیاده سازی نشان داد که این روش علاوه بر حفظ پیوستگی، نازکسازی در حد یک پیکسل و بهبود سرعت قادر به صاف نمودن منحنیهای افقی و عمودی در شکل کاراکترها همراه با حفظ دندانۀ حروف میباشد. این موضوع کمک مؤثری به تشخیص بصری کاراکترها میکند. اگرچه کارایی بصری این روش نسبت به روش ژانگ-سوئن اندکی ضعیف تر است، اما زمان مورد نیاز در این روش نسبت به روش ژانگ-سوئن بسیار کمتر است.
|
||
سارا منوچهری خوشینانی, محمدرضا احمدزاده
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
تبدیلهای جداییپذیر همچون موجک دو بعدی که از گسترش موجک جداییپذیر یک بعدی به دست آمده و روی تصویر اعمال میگردند در تشخیص لبههای معمولی عملکرد قابلقبولی ارائه میدهند اما قادر به استخراج انحناهای هموار موجود در تصاویر نمیباشند. موجکها تنها به استخراج تعداد محدودی جهت میپردازند که یک نقطهضعف برای کار با سیگنالهای چند بعدی محسوب میشود. این در حالی است که تبدیل کانتورلت به خوبی میتواند مشخصات هندسی تصویر را که از اهمیت به سزایی در ساختار بینایی انسان برخوردار است، استخراج نماید. این تبدیل با استفاده از هرم لاپلاسین و بانک فیلتر جهتی جداییناپذیر به دست میآید. روش هرم لاپلاسین براساس تفاوت روشنایی محلی استوار است. این درحالی است که سیستم بینانی انسان تنها به کنتراست روشنایی محلی حساس میباشد در نتیجه لزوماً هرم لاپلاسین یک انتخاب مناسب و درخور نخواهد بود. به این دلیل ما در این مقاله، به بررسی تبدیل کانتورلت مبتنی بر هرم کنتراست خواهیم پرداخت که در آن ابتدا تبدیل هرم کنتراست به منظور تجزیهی تصاویر منبع به زیر باندها و ایجاد یک نمایش چند مقیاسی از تصاویر اعمال میگردد و سپس با استفاده از تجزیه چند جهتی یک نمایش چند رزولوشنی فراهم میگردد. نتایج آزمایشها نشان میدهد که الگوریتم پیشنهادی عملکرد بهتری نسبت به الگوریتمهای ترکیب مبتنی بر کانتورلت و موجک دارد.
|
||
آرمان شریفزاده, مهرنوش شمسفرد
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
حجم انبوه متون قابل دسترس بخصوص در گستره جهانی اینترنت و اطلاعات موجود در این حجم انبوه، اهمیت استخراج خودکار اطلاعات از متن را بیشتر نشان میدهد. استخراج اطلاعات از متن شامل ارائه قالب ساختیافته از اطلاعات دلخواه موجود در متن میباشد. در این مقاله به معرفی یک سامانه استخراج خودکار اطلاعات از متون فارسی در دامنه خاص میپردازیم. سامانه استخراج خودکار اطلاعات برای زبان فارسی در حوزه اخبار حوادث تروریستی بر اساس ترکیبی از روشهای یادگیر مانند الگوریتم ماشین بردار پشتیبان و مدل میدانهای تصادفی شرطی و روشهای مبتنی بر الگوهای استخراج، معرفی و ارزیابی شده است. نتایج بدست آمده نشان میدهد که این سامانه در مقایسه با کارهای مشابه دارای دقت و بازخوانی قابل قبولی است.
|
||
ایمان خدادی, محمد صنیعیآباده
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
در این مقاله روشی برای پاسخگویی به پرسشها با دامنهی نامحدود، در قالب یک یا چند کلمه، ارائه میشود. رویکرد ارائه شده که AskSimorgh نامگذاری شده است، یک روش ممتیکی – آماری است؛ به این معنا که با الگوریتم ممتیک، جستجو در بین جمعیت جملات کاندید انجام میشود و از یک رویکرد مبتنی بر ویژگیهای نحوی و لغوی، برای محاسبهی احتمال یا برازش جمله، استفاده میشود. هدف از این رویکرد، ایجاد یک موتور جستجو برای پاسخگویی دقیق به پرسشها، یا یک سیستم پرسش و پاسخ مبتنی بر وب است. برای یادگیری و ارزیابی این رویکرد، از دادههای مسابقات پرسش و پاسخ TREC استفاده شده است. روند پاسخگویی به این صورت است که ابتدا متن سایتهایی که حاوی اطلاعاتی در مورد پرسش هستند، از یک موتور جستجو بازیابی میشوند و سپس در بین جملات این منابع، جستجو با الگوریتم ممتیک انجام میشود و برازندهترین جمله، به عنوان جملهی پاسخ انتخاب میشود. در نهایت با استفاده از یکسری الگوهای دستساز که از پرسشها و پاسخهای آنها فراگیری شده است، یک یا چند کلمه به عنوان پاسخ نهایی، استخراج میشود. نتایج بدست آمده، افزایش دقت در حوزهی مربوطه را نشان میدهد.
|
||
معصومه عليپور کنفي, فريبرز محمودي, امير مسعود افتخاري مقدم
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
الگوريتمهاي مدلسازي داده، روش نمونهگيري اوليه و پايگاه دانش مورد استفاده، براي برآورد سختي پرسوجو از موارد موثري بهحساب ميآيند. در اين مقاله براي برآورد سختي پرسوجو ويژگي ابهام پرسوجو مورد ارزيابي قرار گرفته شده است. از آنجاييکه استفاده از پايگاه دانش وردنت چالشهايي را همراه دارد، در اين مقاله براي تعيين ابهام پرسوجو از پايگاه دانش جامعتري بهنام بابلنت بهجاي وردنت استفاده شده است. در روش پيشنهادي نمونهگيري اوليه توسط اعتبارسنجي متقاطع صورت گرفته و با کمک الگوريتمهاي پيشبيني کننده که در دسته ماشين بردار پشتيبان و شبکه عصبي و رگرسيون قرار دارند مدلسازي روي سه مجموعه داده ترک انجام شده است. گزارش آماري ضريب همبستگي و ميانگين مربعات خطا براي مقايسه سه الگوريتم مدلسازي نشان ميدهد که مدلسازي انجام شده توسط الگوريتم پرسپترون، از ضريب همبستگي بيشتر و ميانگين مربعات خطاي کمتري نسبت به الگوريتم رگرسيون و ماشين بردار پشتيبان برخوردار است. همچنين استفاده از پايگاه دانش بابلنت نسبت به وردنت روي مجموعه داده ترک بهتر عمل کرده است.
|
||
نیره کرمانشاهی, حسین عبدالکریمی
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
در اين مقاله یک سيستم پرسش و پاسخ به زبان فارسی برای دامنه محدود کيوسک اطلاعات دانشکده مهندسی برق و کامپیوتر معرفی میشود. محدوده سؤالات ورودی در این سیستم شامل انواع سؤالاتی است که معمولاً در دانشکده از اطلاعات یا آموزش پرسیده میشود. سیستم قابلیت پاسخگویی به سؤالات مکانی، زمانی، اشخاص، دروس و ویژگیهای این موجودیتها را خواهد داشت. رویکرد پیشنهادی در این سیستم یک رویکرد معنایی مبتنی بر استفاده از هستان شناسی و بازنمایی پرسش به صورت سهتاییهای RDF است. در اين سيستم پرسش کاربر با استفاده از هستان شناسی سیستم به مجموعه اي از سهتاییهای RDF (فاعل، فعل، مفعول) تبديل میگردد. کليد استخراج پاسخ، نگاشت مناسب بين سهتاييهاي پرسش و روابط موجود در هستانشناسي است. بهکارگیری رویکردهای معنایی و مبتنی بر دانش منجر به تولید سیستم پرسش- پاسخی با دقت پاسخگویی %91.34 و فراخوان %87.92 گردیده است.
|
||
بهاره داودآبادی فراهانی, سید امید فاطمی
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
به منظور بهبود دستهبندی اسناد چندین رویکرد مختلف وجود دارد که یکی از مهمترین آنها استفاده از بردار ویژگی مناسب است. در دستهبندی اسناد معمولاً کلمات، اجزای بردار ویژگی را تشکیل میدهند. از آنجایی که در هر مجموعهی اسناد تعداد بسیار زیادی کلمه وجود دارد؛ در این مقاله روشی نوین برای تولید بردار ویژگی مناسب، به منظور بهبود دسته-بندی اسناد علمی فارسی ارائه میشود. روش پیشنهادی ارتباطات معنایی بین کلمات هر سند را با استفاده از اصطلاحنامه استخراج میکند. سپس به منظور انتخاب ویژگیهای دستهبند، روش نوین و کارآمد گروهبندی کلمات سند از لحاظ ارتباطات معنایی را، بکار میگیرد. برای ارزیابی و مقایسه روش پیشنهادی از مجموعه پایاننامههای ایرانداک (پژوهشگاه علوم و فناوری اطلاعات ایران) استفاده میشود. نتایج آزمایشات نشان میدهد، عملکرد دستهبندی با بکارگیری این روش نسبت به انتخاب ویژگی بدون استفاده از اصطلاحنامه به صورت قابل توجهی افزایش مییابد.
|
||
رضا اکبری, محمدهادی صدرالدینی, سید مصطفی فخراحمد
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
در اين مقاله، ما یک مدل را در جهت اندازهگیری میزان شباهت دو جمله در ترجمه ماشینی مبتنی بر مثال ارائه کردهایم. در مدل ارائه شده از الگوریتم ژنتیک و یک تابع برازندگی جدید که مبتنی بر بار معنایی منطبق شده بین دو جمله میباشد استفاده گردیده است. ما فعلها را به عنوان قلب یک جمله در نظر گرفتهایم چون بخش اساسی یک جمله بشمار میآیند و مقادیر زیادی از بار معنایی جمله را حمل میکنند. بنابراین ما در تابع برازندگی ارائه شده توجه بیشتر خود را بر روی افعال جمله قرار دادهایم. این نکته قابل توجه است که مدل ارائه شده دارای وابستگی زیادی به بخش گفتاری و مترادف-های کلمات استخراج شده از وردنت و همچنین ترتیب کلمات دارد. نتایج بدست آمده از آزمایشات انجام شده بر روی دو پیکره (مجموعه مثال) نشان میدهد که الگوریتم ارائه شده، کیفت تطابق جملات را در ترجمه ماشینی مبتنی بر مثال بهبود بخشیده است و ما به میانگین دقت 79.5 درصد در آزمایشات انجام شده یر روی پیکرهها رسیدهایم.
|
||
جواد پاک سيما, علي محمد زارع بيدکي, ولي درهمي
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
تحقيقات زياد روي موتورهاي جستجو نشان ميدهد که اکثر پرس و جوهاي کاربران بيش از يک کلمه ميباشد و ممکن است بطور مشخص با استفاده از علامت نقل قول به عنوان عبارت معرفي شده باشند يا از علامت نقل قول استفاده نشده باشد ولي در بيشتر مواقع منظور کاربر يک عبارت باشد. اکثر الگوريتمهاي رتبه بندي از فرکانس رخداد يک کلمه در سند(TF) براي امتياز دهي به اسناد استفاده ميکنند اما براي عبارت تعريف روشني از اين پارامتر وجود ندارد. از طرفي تعداد رخداد يک عبارت به تنهايي مفيد نيست و بايد فاصله بين کلمات عبارت محاسبه گردد. در اين مقاله پارامترهاي فاصله، فرکانس رخداد يک عبارت(PF) و IDF با توجه به فاصله تعريف ميشود و الگوريتمهايي براي محاسبه آنها ارائه ميگردد. همچنين نتايج الگوريتم پيشنهادي با الگوريتم پياده سازي شده توسط نمايه ساز متن باز لوسين مقايسه گرديده است.
|
||
مجید محبی, علیرضا طالبپور
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
بخش قابل توجهی از اطلاعات در دسترس، در پایگاه دادههای متنی ذخیره شده است. به طور معمول تنها بخش کوچکی از اسناد در دسترس، برای یک فرد یا کاربر مناسب است. از اینرو تولید پرسوجوی مناسب سندی، برای تحلیل و استخراج اطلاعات مفید از اسناد متنی، مشکل است. این امر اهمیت موضوع شباهت اسناد متنی را دو چندان میکند. انواع مختلفی از روشهای تطبیق لغوی، برای تعیین شباهت بین اسناد ارائه شد که تا یک حد خاصی موفق عمل میکردند ولی قادر به تشخیص شباهت معنایی بین دو متن نبودند. از اینرو، رویکردهای شباهت معنایی مطرح شد که از میان آنها میتوان روشهای مبتنی بر پیکره و روشهای مبتنی بر پایگاه دانش مانند وردنت را نام برد. هدف ما این است که در حوزهی مدلهای شباهت معنایی و مبتنی بر پایگاه دانش وردنت، با ارائه یک رویکرد بدون ناظر، میزان شباهت بین اسناد انگلیسی را با دقت مناسبی محاسبه کنیم؛ برای این منظور، از مدل گرافی بهره می¬بریم و برای ارزیابی، از مجموعه دادهی Microsoft Research Paraphrase Corpus استفاده میکنیم. ارزیابی انجام شده، عملکرد مناسب رویکرد پیشنهادی را نشان میدهد.
|
||
امیر هاشمی, اسلام ناظمی
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
با افزایش حجم اطلاعات و دادههای بستر وب، همواره نیاز به ارائه سامانهها و الگوریتمهای جدید برای تحلیل و شخصی سازی اطلاعات احساس میشود. سامانههای پیشنهاددهنده یکی از این ابزارها میباشند که با استفاده از روشهای دادهکاوی سعی در ارائه اطلاعات منطبق با نیاز مربوطه میباشند. در اين مقاله، روش جدیدی برای استفاده در سامانههای پیشنهاد دهنده ارائه شده است. در این روش برای ارائه پاسخ بهتر ابتدا دادههای موجود با الگوریتم
K-Means خوشهبندی شده سپس با استفاده از روش ساخت ماتریس Minhash سعی در حذف دادههایی که فاصله زیادی با نیاز کاربر دارند، دارد. همچنین برای افزایش دقت از LSH استفاده شده است. در انتها در آزمایشات نشاندادهایم که اگر خوشهبندی مناسبی انجام شود زمان پاسخ دهی، زمان مناسبی خواهد بود.
|
||
سجاد منطقی, ناصر نعمت بخش, کیوان رحیمیزاده
|
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
|
در این مقاله یک سیستم توصیهگر مبتنی بر روشی ترکیبی متشکل از رویکردهای یادگیری با ناظر و بدون ناظر توسعه داده شده است. بخش تحت ناظر آن توسط یک شبکه عصبی ساخته شده است. مشکل اصلی در هنگام استفاده از شبکه عصبی تنظیم پارامترهای آن و تعیین ساختار شبکه است که بیشتر به صورت تجربی و با سعی و خطا به دست می-آید، در این تحقیق با استفاده از الگوریتم رقابت استعماری یک شبکه عصبی بهینه طراحی شده است. سیستم توصیهگر بر روی دادههای استاندارد محک زده شده است. نتایج حاصل نشان میدهد که با استفاده از شبکههای عصبی در الگوریتم ترکیبی تحت ناظر و بدون ناظر میتوان به دقت بالاتری رسید. این مقاله با استفاده از یک مدل مبتنی بر شبکه عصبی با 4 خوشه سطری و 4 خوشه ستونی به مقدار 72/0 برای سطح زیر منحنی ROC دست یافته است.
|