آرشیو مقالات

عنوان مقاله نویسنده(ها) مربوط به کنفرانس چکیده خرید مقاله
محبوبه فراهت, کمال جمشیدی, امیر حسن منجمی
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
مدل مخلوط گاوسی و ضرایب فرکانسی مل همواره به عنوان مهم‌ترین روش‌های مدل‌سازی توزیع نمونه‌ها و استخراج ویژگی در شناسایی گفتار مطرح بوده‌اند. مزیت مدل مخلوط گاوسی در مدل‌سازی ورودی‌ها با بالاترین دقت و مزیت ضرایب فرکانسی مل در یافتن اطلاعات تمایزدهنده در طیف زمانی کوتاه است. ویژگی‌های طیف زمانی کوتاه مقاومت لازم در مقابل نویز را ندارند، از طرفی اما به‌کارگیری اطلاعات در بازه‌های زمانی طولانی‌تر نیز در مدل مخلوط گاوسی بار محاسباتی بالایی دارد. این مسائل کاهش دقت را در صورت وجود عدم تطابق در شرایط آموزش و آزمون باعث می‌شود. ترکیب ویژگی‌های مختلف و تغییر در مدل‌سازی نمونه‌های ورودی از جمله راه‌های پیشنهادی هستند. در این مقاله از شبکه‌های باور عمیق برای یافتن ویژگی‌های تمایزدهنده از یک طیف زمانی طولانی‌تر استفاده می‌شود. در این حالت تبدیلات غیرخطی علاوه بر استخراج ویژگی‌های سطح بالاتر و کاهش ابعاد ویژگی‌های ورودی، تبدیل فضای ویژگی‌های ضرایب فرکانسی مل را منجر می‌شود که می‌توانند در مقابل تغییرات سیگنال ورودی مقاومت لازم را داشته باشند. این ویژگی‌ها در بهبود کارایی مدل مخفی مارکوف استفاده می‌شوند. روش پیشنهادی بر روی مجموعه‌ای از پرکاربردترین کلمات فارس-دات آزمایش و نتایج آن با پرکاربردترین روش شناسایی گفتار مقایسه شده است. افزایش دقت شناسایی کلمات نشان از کارایی روش پیشنهادی در مقابل تغییرات و نویز دارد.
رضا وفاشعار, محمد مهدی همایونپور
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
در این مقاله روش جدیدی برای تشخیص محدودهی گفتار در سیگنال صوتی بر اساس دستهبندی مبتنی بر انتخاب مثبت ارائه شده است. با توجه به مرزهای پیچیدهای که بین دادههای مربوط به نویز و گفتار وجود دارد، استفاده از روشهای دستهبندی معمول برای جداسازی آنها دشوار میباشد. در روش ارائه شده با استفاده از انتخاب مثبت گیرندههایی برای تشخیص دادههای گفتاری و دادههای نویزی ایجاد میشود. روش دستهبندی ارائه شده شبیه یادگیری با نمونه میباشد و قادر به جداسازی کارآمد گفتار از نویز میباشد. در فاز آموزش روش ارائه شده ابتدا گیرندههایی مبتنی بر انتخاب مثبت ایجاد میشوند. این گیرندهها با استفاده از روش انتخاب کلونی بهبود مییابند تا بتوانند فضاهای گفتار و نویز را به طور مناسبی پوشش دهند. روش ارائه شده با چند روش متداول برای تشخیص محدودهی کلمات، در محیطهای مختلف با SNR متفاوت، مقایسه شده است. برای مقایسات از پیکرهی گفتاری TIMIT استفاده شده و عملکرد روشهای مورد مقایسه بر اساس دو معیار نرخ تشخیص موفق و نرخ آلارم اشتباه بررسی شده است. نتایج مقایسات نشان میدهند که روش ارائه شده توانسته است با نرخ آلارم اشتباه پایین به نرخ تشخیص بالایی دست یابد به عنوان مثال در حضور نویز bobble، نرخ آلارم اشتباه بیشتر از 2/0 از روشهای مقایسه شده بهتر بوده، در حالیکه نرخ تشخیص موفق مناسب و بیشتر از 9/0 میباشد. در حضور نویز factory نیز در بعضی موارد بهبودی در حدود 2/0 در نرخ آلارم اشتباه ایجاد شده است. روش پیشنهادی در حضور نویز سفید با نرخ آلارم اشتباه بسیار مناسب و پایین به نرخ تشخیص بالایی دست یافته که در SNR پایین 15/0 بهبود در نرخ تشخیص نیز مشاهده می‌شود.
هدی سادات جعفری, محمدمهدی همایون‌پور
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
در این مقاله، هدف تشخیص الگوهای کلیدی در سیگنال گفتار است. الگوهای کلیدی، الگوهایی هستند که نماینده‌ای از معنای کل گفتار باشند. تشخیص الگوهای کلیدی در سامانه‌های بازیابی اطلاعات مانند دسته‌بندی فایل‌های صوتی، موتور جستجو، خلاصه‌سازی، ... کاربرد دارد. در الگوریتم پیشنهادی ابتدا الگوهای تکراری در یک فایل گفتاری با استفاده از الگوریتم S-DTW تشخیص داده می‌شوند. سپس در مرحله دوم با استفاه از الگوریتم TextRank الگوهای کلیدی استخراج می‌شوند. روش پیشنهادی یک روش بی‌نظارت بوده و بدون استفاده از سامانه بازشناسی گفتار و داشتن رونوشت، الگوهای کلیدی مستقیماً از روی سیگنال گفتار استخراج می‌شوند. این الگوریتم برروی تعدادی فایل گفتاری از مجموعه داده فارس‌دات بزرگ آزمایش شده است. برای مقایسه، از دو سامانه‌ی ایجاز و FarsiSum استفاده شد که کلمات کلیدی را از روی متن تمیز، بدون داشتن خطاهای بازشناسی گفتار استخراج نمودند. سامانه‌ی پیشنهادی در مقایسه با این دو سامانه، نتایج قابل رقابتی را بدست آورده است، در حالی که تنها از سیگنال گفتار برای تشخیص الگوهای کلیدی استفاده کرده است.
مصطفی برهانی, محمدحسن قاسميان يزدی
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
این مقاله یک رویکرد نظارت شدۀ برای بهبود دقت طبقه‌بندیِ طیفی - مکانی تصویر ابرطیفی با ساختار طبقاتی و یادگیری فعال ارائه می‌دهد. الگوریتم پیشنهادی شامل دو مرحلۀ اصلی می‌باشد. در ابتدا، از رگرسیون لجستیکِ چندجمله‌ای (MLR) برای استنتاجِ توزیع‌های احتمال پسین کلاس استفاده می‌کنیم. این امر با استفاده از رگرسیون لجستیکِ لاگرانژیِ تقویتی (LORSAL) انجام‌گرفته است. در واقع، در این مقاله، روش LORSAL با استفاده از کرنل‌ها به حوزه ویژگی توسعه‌یافته است. سپس، اطلاعات حاصل از مرحلۀ قبل برای طبقه‌بندیِ طیفی - مکانی تصویر ابرطیفی استفاده می‌شود. به منظور کاهش هزینۀ دستیابی به مجموعه‌های آموزشیِ بزرگ، از یادگیری فعالِ مبتنی بر احتمالات پیشینِ MLR استفاده می‌کنیم. دیگر نوآوری این مقاله، معرفیِ رویکرد نمونه‌گیری فعال جدیدی است که پیوندهای شکنندۀ اصلاح‌شده (MBT) نامیده شده و نمونه‌گیری‌ای بدون بایاس ارائه می‌کند. همچنین، به منظور دستیابی به حداکثر طبقه‌بندیِ طیفی - مکانی، پس از یکنواخت سازی توسط میدان‌های تصادفی مارکوف از الگوریتم بهینه‌سازی گسترۀ آلفای عدد صحیح مبتنی بر min – cut استفاده می‌کنیم. عملکرد رویکرد پیشنهادی، با استفاده از مجموعۀ داده‌های طیفیِ واقعی در آزمایش‌های مختلف با نتایج سایر روش‌های تحلیل تصویر ابرطیفیِ ، مقایسه شده است.
علی‌رضا یمقانی, فرزاد زرگری اصل
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
در این مقاله روشی نو در خلاصه سازی ویدئو در حوزه فشرده استاندارد HEVC شرح داده می شود. با استفاده از این استاندارد، ویژگیهای محتوایی فریم ها در حالت فشرده استخراج شده و با استفاده از یک الگو ریتم خوشه بندی، روشی برای خلاصه سازی ارائه گردیده است. اگر چه تحقیقات مختلفی در خصوص خلاصه سازی ویدئویی انجام گردیده است اما بیشتر آن ها، مبتنی بر ویدئو های مبتنی بر حوزه پیکسل بوده که زمان و حافظه زیادی برای کوتاه کردن آن مصرف می گردد. در الگوریتم پیشنهادی، ابتدا ویژگی هیستوگرام نرمال مدهای پیش بینی از ویدئوی فشرده بر اساس HEVC استخراج شده، سپس اشتراک این هیستوگرام به عنوان معیار مشابهت، برای هر دو فریم در ویدئو، محاسبه می گردد. در ادامه یک الگو ریتم خوشه بندی افزایشی، فریم های مشابه را در کلاس های مشخصی جای می دهد. مجموعه نماینده های هر کلاس به عنوان فریم های خلاصه شده در نظر گرفته می شود. نتایج نشان می دهد، الگو ریتم پیشنهادی به دلیل استفاده از استاندارد جدید فشرده سازی به میزان قابل توجهی در تشخیص فریم های مشابه بهتر عمل نموده است و بار محاسباتی کمتری داشته است.
مهدیه کاظم‌زاده, علی برومندنیا
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
تشخیص هویت از طریق اثرانگشت به دلیل دقت بالا و سادگی، متداول ترین روش شناسایی افراد بر اساس تکنولوژی بیومتریک است. عملکرد یک سیستم تأیید اثر انگشت تا حد زیادی به کیفیت تصویر اثر انگشت ورودی بستگی دارد. و استخراج ویژگی از تصویر کم کیفیت در یک سیستم شناسایی همیشه با چالش مواجه بوده است.در این مقاله ما از تبدیل فوریه زمانی کوتاه (STFT) برای حذف نویزهای تصویر و رسیدن به یک تصویر با کیفیت بالایی که بتواند جهت و موقعیت نقاط منفرد را با دقت بالاتری بدست آورد استفاده کرده ایم. همچنین یک روش نوین برای استخراج ویژگی از تصویر اثر انگشت با استفاده از گشتاورهای زرنیک ارائه دادیم. در این روش یک بردار ویژگی با طول ثابت ازهر سلول در ناحیه ROI با مرکزیت نقطه مرجع تصویر اثر انگشت، استخراج می کنیم. در این سیستم از مدل شبکه عصبی MLP برای کلاس بندی استفاده شده است. در نهایت با انجام آزمایش بر روی تصاویر پایگاه داده استاندارد، نشان داده می شود که روش پیشنهادی دارای نرخ شناسایی 96.78%و میانگین خطای 3.02 % می باشد که در مقایسه با روش‌های مقایسه‌ای عملکرد بهتری دارد.
سمیه احمدخانی, وصال پیمان ادیبی
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
در این مقاله روشی برای شناسایی چهره با استفاده از یک رویکرد کاهش بعد بدون اتلاف ارائه شده است. در این روش به جای نگاشت داده بر یک زیرفضا یا منیفولد کم بعد که موجب از دست رفتن اطلاعات می‌شود، فاصله داده از آن زیرفضا یا منیفولد به عنوان جریمه نگاشت در یادگیری یک مدل پیشگو مورد استفاده قرار می‌گیرد. بدین ترتیب از مزایای کاهش بعد در مدل پیشگو استفاده می‌شود، و در عین حال جلوی از دست رفتن اطلاعات مفید گرفته می‌شود. در روش پیشنهادی ابتدا یک منیفولد زیربنایی محلی خطی با استفاده از مدل ترکیبی تحلیل مؤلفه اصلی احتمالاتی از نمونه داده‌ها به دست می‌آید. سپس دسته بند ماشین بردار پشتیبان به عنوان مدل پیشگوی مذکور با استفاده از این منیفولد محلی خطی آموزش داده می‌شود. برای آموزش و ارزیابی روش پیشنهادی، چند پایگاه داده شناخته شده برای چهره مورد استفاده قرار گرفته است. نتایج آزمایش بر روی این پایگاه داده‌ها نشان می‌دهد که روش پیشنهادی نسبت به بسیاری روش‌های معمول که کاهش بعد را انجام داده و سپس دسته بند را آموزش می‌دهند، و همچنین نسبت به روش جریمه نگاشت مبتنی بر مدل‌های کاهش بعد خطی و غیرخطی دقت بیشتری دارد.
عبداله نظرپور, پیمان ادیبی
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
در این مقاله، یک روش جدید کاهش بعد بانظارت با نام کاهش بعد چند هسته‌ای با فرم بسته برای مسئله شناسایی ارقام دست‌نویس ارائه شده است. ابتدا ویژگی‌ها به کمک روش هیستوگرام گرادیان جهت‌دار (HOG) از تصاویر استخراج می‌شوند. پس از آن روش کاهش بعد چند هسته‌ای با فرم بسته سعی در پیدا کردن منیفولد کم بعدی می‌کند که دقت دسته‌بندی در آن بیشتر است. این روش از چند تابع هسته استفاده می‌کند و سعی می‌کند ارزش (وزن) هر تابع را محاسبه کند و بر اساس ترکیب خطی هسته‌ها به وسیله این ارزش‌ها کاهش بعد را انجام دهد. نوآوری اصلی مدل پیشنهادی ارائه یک فرمولاسیون یادگیری چند هسته‌ای برای کاهش بعد بانظارت است، که بجای روش‌های تکرارشونده، پاسخ را به صورت تحلیلی و به فرم بسته بدست می‌آورد. در فضای کاهش بعد یافته از روش ساده‌ی نزدیک‌ترین همسایگی، برای دسته‌بندی استفاده شده است. به منظور ارزیابی روش پیشنهادی، چند روش کاهش بعد بانظارت دیگر نیز برای شناسایی ارقام دست‌نویس به کار گرفته شده است. نتایج آزمایشات بیانگر دقت بالای روش پیشنهادی است.
مجید نیک‌زر, احمدرضا نقش‌نیلچی
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
نازک‌سازی، یک نوع پیش‌پردازش روی تصویر کاراکترها است که طی آن عرض تمام بخش‌های هر کاراکتر به یک پیکسل کاهش می‌یابد. در این مقاله روشی برای نازک سازی حروف تایپی فارسی ارائه شده است که از طریق تکرارهای متوالی کار نازک سازی را انجام می دهد، این کار به کمک حفر سطوح و حذف پیکسل‌های دندانه‌ای انجام می‌شود. این مقاله قصد دارد با استفاده از الگوریتم های پایه ریخت شناسی به نازک سازی کاراکترهای تایپ شده فارسی به گونه‌ای بپردازد که تشخیص بصری کاراکترهای زبان فارسی را آسان سازد. با توجه به زیاد بودن تعداد نقاط دندانه‌ای در اطراف کاراکترها، این روش از سرعت بالایی برخوردار است. نتایج حاصل از پیاده سازی نشان داد که این روش علاوه بر حفظ پیوستگی، نازک‌سازی در حد یک پیکسل و بهبود سرعت قادر به صاف نمودن منحنی‌های افقی و عمودی در شکل کاراکترها همراه با حفظ دندانۀ حروف می‌باشد. این موضوع کمک مؤثری به تشخیص بصری کاراکترها می‌کند. اگرچه کارایی بصری این روش نسبت به روش ژانگ-سوئن اندکی ضعیف تر است، اما زمان مورد نیاز در این روش نسبت به روش ژانگ-سوئن بسیار کمتر است.
سارا منوچهری خوشینانی, محمدرضا احمدزاده
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
تبدیل‌های جدایی‌پذیر همچون موجک دو بعدی که از گسترش موجک جدایی‌پذیر یک بعدی به دست آمده و روی تصویر اعمال می‌گردند در تشخیص لبه‌های معمولی عملکرد قابل‌قبولی ارائه می‌دهند اما قادر به استخراج انحناهای هموار موجود در تصاویر نمی‌باشند. موجک‌ها تنها به استخراج تعداد محدودی جهت می‌پردازند که یک نقطه‌ضعف برای کار با سیگنال‌های چند بعدی محسوب می‌شود. این در حالی است که تبدیل کانتورلت به خوبی می‌تواند مشخصات هندسی تصویر را که از اهمیت به سزایی در ساختار بینایی انسان برخوردار است، استخراج نماید. این تبدیل با استفاده از هرم لاپلاسین و بانک فیلتر جهتی جدایی‌ناپذیر به دست می‌آید. روش هرم لاپلاسین براساس تفاوت روشنایی محلی استوار است. این درحالی است که سیستم بینانی انسان تنها به کنتراست روشنایی محلی حساس می‌باشد در نتیجه لزوماً هرم لاپلاسین یک انتخاب مناسب و درخور نخواهد بود. به این دلیل ما در این مقاله، به بررسی تبدیل کانتورلت مبتنی بر هرم کنتراست خواهیم پرداخت که در آن ابتدا تبدیل هرم کنتراست به منظور تجزیه‌ی تصاویر منبع به زیر باندها و ایجاد یک نمایش چند مقیاسی از تصاویر اعمال می‌گردد و سپس با استفاده از تجزیه چند جهتی یک نمایش چند رزولوشنی فراهم می‌گردد. نتایج آزمایش‌ها نشان می‌دهد که الگوریتم پیشنهادی عملکرد بهتری نسبت به الگوریتم‌های ترکیب مبتنی بر کانتورلت و موجک دارد.
آرمان شریف‌زاده, مهرنوش شمس‌فرد
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
حجم انبوه متون قابل دسترس بخصوص در گستره جهانی اینترنت و اطلاعات موجود در این حجم انبوه، اهمیت استخراج خودکار اطلاعات از متن را بیشتر نشان می‌دهد. استخراج اطلاعات از متن شامل ارائه قالب ساخت‌یافته از اطلاعات دلخواه موجود در متن می‌باشد. در این مقاله به معرفی یک سامانه استخراج خودکار اطلاعات از متون فارسی در دامنه خاص می‌پردازیم. سامانه استخراج خودکار اطلاعات برای زبان فارسی در حوزه اخبار حوادث تروریستی بر اساس ترکیبی از روش‌های یادگیر مانند الگوریتم ماشین بردار پشتیبان و مدل میدان‌های تصادفی شرطی و روش‌های مبتنی بر الگوهای استخراج، معرفی و ارزیابی شده است. نتایج بدست آمده نشان می‌دهد که این سامانه در مقایسه با کارهای مشابه دارای دقت و بازخوانی قابل قبولی است.
ایمان خدادی, محمد صنیعی‌آباده
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
در این مقاله روشی برای پاسخ‌گویی به پرسش‌ها با دامنه‌ی نامحدود، در قالب یک یا چند کلمه، ارائه می‌شود. رویکرد ارائه شده که AskSimorgh نام‌گذاری شده است، یک روش ممتیکی – آماری است؛ به این معنا که با الگوریتم ممتیک، جستجو در بین جمعیت جملات کاندید انجام می‌شود و از یک رویکرد مبتنی بر ویژگی‌های نحوی و لغوی، برای محاسبه‌ی احتمال یا برازش جمله، استفاده می‌شود. هدف از این رویکرد، ایجاد یک موتور جستجو برای پاسخ‌گویی دقیق به پرسش‌ها، یا یک سیستم پرسش و پاسخ مبتنی بر وب است. برای یادگیری و ارزیابی این رویکرد، از داده‌های مسابقات پرسش و پاسخ TREC استفاده شده است. روند پاسخ‌گویی به این صورت است که ابتدا متن سایت‌هایی که حاوی اطلاعاتی در مورد پرسش هستند، از یک موتور جستجو بازیابی می‌شوند و سپس در بین جملات این منابع، جستجو با الگوریتم ممتیک انجام می‌شود و برازنده‌ترین جمله، به عنوان جمله‌ی پاسخ انتخاب می‌شود. در نهایت با استفاده از یکسری الگوهای دست‌ساز که از پرسش‌ها و پاسخ‌های آنها فراگیری شده است، یک یا چند کلمه به عنوان پاسخ نهایی، استخراج می‌شود. نتایج بدست آمده، افزایش دقت در حوزه‌ی مربوطه را نشان می‌دهد.
معصومه علي‌پور کنفي, فريبرز محمودي, امير مسعود افتخاري مقدم
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
الگوريتم‌هاي مدلسازي داده، روش نمونه‌گيري اوليه و پايگاه دانش مورد استفاده، براي برآورد سختي پرس‌وجو از موارد موثري به‌حساب مي‌آيند. در اين مقاله براي برآورد سختي پرس‌وجو ويژگي ابهام پرس‌وجو مورد ارزيابي قرار گرفته شده است. از آنجاييکه استفاده از پايگاه دانش وردنت چالش‌هايي را همراه دارد، در اين مقاله براي تعيين ابهام پرس‌وجو از پايگاه دانش جامع‌تري به‌نام بابل‌نت به‌جاي وردنت استفاده شده است. در روش پيشنهادي نمونه‌گيري اوليه توسط اعتبارسنجي متقاطع صورت گرفته و با کمک الگوريتم‌هاي پيش‌بيني کننده که در دسته ماشين بردار پشتيبان و شبکه عصبي و رگرسيون قرار دارند مدلسازي روي سه مجموعه داده ترک انجام شده است. گزارش آماري ضريب همبستگي و ميانگين مربعات خطا براي مقايسه سه الگوريتم مدلسازي نشان مي‌دهد که مدلسازي انجام شده توسط الگوريتم پرسپترون، از ضريب همبستگي بيشتر و ميانگين مربعات خطاي کمتري نسبت به الگوريتم رگرسيون و ماشين بردار پشتيبان برخوردار است. همچنين استفاده از پايگاه دانش بابل‌نت نسبت به وردنت روي مجموعه داده ترک بهتر عمل کرده است.
نیره کرمانشاهی, حسین عبدالکریمی
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
در اين مقاله یک سيستم پرسش‌ و ‌پاسخ به زبان فارسی برای دامنه محدود کيوسک اطلاعات دانشکده مهندسی برق و کامپیوتر معرفی می‌شود. محدوده سؤالات ورودی در این سیستم شامل انواع سؤالاتی است که معمولاً در دانشکده از اطلاعات یا آموزش پرسیده می‌شود. سیستم قابلیت پاسخگویی به سؤالات مکانی، زمانی، اشخاص، دروس و ویژگی‌های این موجودیت‌ها را خواهد داشت. رویکرد پیشنهادی در این سیستم یک رویکرد معنایی مبتنی بر استفاده از هستان شناسی و بازنمایی پرسش به صورت سه‌تایی‌های RDF است. در اين سيستم پرسش کاربر با استفاده از هستان شناسی سیستم به مجموعه اي از سه‌تایی‌های RDF (فاعل، فعل، مفعول) تبديل می‌گردد. کليد استخراج پاسخ، نگاشت مناسب بين سه‌تايي‌هاي پرسش و روابط موجود در هستان‌شناسي است. به‌کارگیری رویکردهای معنایی و مبتنی بر دانش منجر به تولید سیستم پرسش- پاسخی با دقت پاسخگویی %91.34 و فراخوان %87.92 گردیده است.
بهاره داودآبادی فراهانی, سید امید فاطمی
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
به منظور بهبود دسته‌بندی اسناد چندین رویکرد مختلف وجود دارد که یکی از مهم‌ترین آن‌ها استفاده از بردار ویژگی مناسب است. در دسته‌بندی اسناد معمولاً کلمات، اجزای بردار ویژگی را تشکیل می‌دهند. از آن‌جایی که در هر مجموعه‌ی اسناد تعداد بسیار زیادی کلمه وجود دارد؛ در این مقاله روشی نوین برای تولید بردار ویژگی مناسب، به منظور بهبود دسته-بندی اسناد علمی فارسی ارائه می‌شود. روش پیشنهادی ارتباطات معنایی بین کلمات هر سند را با استفاده از اصطلاح‌نامه استخراج می‌کند. سپس به منظور انتخاب ویژگی‌های دسته‌بند، روش نوین و کارآمد گروه‌بندی کلمات سند از لحاظ ارتباطات معنایی را، بکار می‌گیرد. برای ارزیابی و مقایسه روش پیشنهادی از مجموعه پایان‌نامه‌های ایران‌داک (پژوهشگاه علوم و فناوری اطلاعات ایران) استفاده می‌شود. نتایج آزمایشات نشان می‌دهد، عملکرد دسته‌بندی با بکارگیری این روش نسبت به انتخاب ویژگی بدون استفاده از اصطلاح‌نامه به صورت قابل توجهی افزایش می‌یابد.
رضا اکبری, محمدهادی صدرالدینی, سید مصطفی فخراحمد
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
در اين مقاله، ما یک مدل را در جهت اندازه‌گیری میزان شباهت دو جمله در ترجمه ماشینی مبتنی بر مثال ارائه کرده‌ایم. در مدل ارائه شده از الگوریتم ژنتیک و یک تابع برازندگی جدید که مبتنی بر بار معنایی منطبق شده بین دو جمله می‌باشد استفاده گردیده است. ما فعل‌ها را به عنوان قلب یک جمله در نظر گرفته‌ایم چون بخش اساسی یک جمله بشمار می‌آیند و مقادیر زیادی از بار معنایی جمله را حمل می‌کنند. بنابراین ما در تابع برازندگی ارائه شده توجه بیشتر خود را بر روی افعال جمله قرار داده‌ایم. این نکته قابل توجه است که مدل ارائه شده دارای وابستگی زیادی به بخش گفتاری و مترادف-های کلمات استخراج شده از وردنت و همچنین ترتیب کلمات دارد. نتایج بدست آمده از آزمایشات انجام شده بر روی دو پیکره (مجموعه مثال) نشان می‌دهد که الگوریتم ارائه شده، کیفت تطابق جملات را در ترجمه ماشینی مبتنی بر مثال بهبود بخشیده است و ما به میانگین دقت 79.5 درصد در آزمایشات انجام شده یر روی پیکره‌ها رسیده‌ایم.
جواد پاک سيما, علي محمد زارع بيدکي, ولي درهمي
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
تحقيقات زياد روي موتورهاي جستجو نشان مي‌دهد که اکثر پرس و جوهاي کاربران بيش از يک کلمه مي‌باشد و ممکن است بطور مشخص با استفاده از علامت نقل قول به عنوان عبارت معرفي شده باشند يا از علامت نقل قول استفاده نشده باشد ولي در بيشتر مواقع منظور کاربر يک عبارت باشد. اکثر الگوريتم‌هاي رتبه بندي از فرکانس رخداد يک کلمه در سند(TF) براي امتياز دهي به اسناد استفاده مي‌کنند اما براي عبارت تعريف روشني از اين پارامتر وجود ندارد. از طرفي تعداد رخداد يک عبارت به تنهايي مفيد نيست و بايد فاصله بين کلمات عبارت محاسبه گردد. در اين مقاله پارامترهاي فاصله، ‌فرکانس رخداد يک عبارت(PF) و IDF با توجه به فاصله تعريف مي‌شود و الگوريتم‌هايي براي محاسبه آنها ارائه مي‌گردد. همچنين نتايج الگوريتم پيشنهادي با الگوريتم پياده سازي شده توسط نمايه ساز متن باز لوسين مقايسه گرديده است.
مجید محبی, علیرضا طالب‌پور
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
بخش قابل توجهی از اطلاعات در دسترس، در پایگاه داده‌های متنی ذخیره شده است. به طور معمول تنها بخش کوچکی از اسناد در دسترس، برای یک فرد یا کاربر مناسب است. از اینرو تولید پرس‌وجوی مناسب سندی، برای تحلیل و استخراج اطلاعات مفید از اسناد متنی، مشکل است. این امر اهمیت موضوع شباهت اسناد متنی را دو چندان می‌کند. انواع مختلفی از روشهای تطبیق لغوی، برای تعیین شباهت بین اسناد ارائه شد که تا یک حد خاصی موفق عمل می‌کردند ولی قادر به تشخیص شباهت معنایی بین دو متن نبودند. از اینرو، رویکردهای شباهت معنایی مطرح شد که از میان آنها می‌توان روشهای مبتنی بر پیکره و روشهای مبتنی بر پایگاه دانش مانند وردنت را نام برد. هدف ما این است که در حوزه‌‌ی مدل‌های شباهت معنایی و مبتنی بر پایگاه دانش وردنت، با ارائه یک رویکرد بدون ناظر، میزان شباهت بین اسناد انگلیسی را با دقت مناسبی محاسبه کنیم؛ برای این منظور، از مدل گرافی‌ بهره می¬بریم و برای ارزیابی، از مجموعه داده‌ی Microsoft Research Paraphrase Corpus استفاده می‌کنیم. ارزیابی انجام شده، عملکرد مناسب رویکرد پیشنهادی را نشان می‌دهد.
امیر هاشمی, اسلام ناظمی
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
با افزایش حجم اطلاعات و داده‌های بستر وب، همواره نیاز به ارائه سامانه‌ها و الگوریتم‌های جدید برای تحلیل و شخصی سازی اطلاعات احساس می‌شود. سامانه‌های پیشنهاددهنده یکی از این ابزارها می‌باشند که با استفاده از روش‌های داده‌کاوی سعی در ارائه اطلاعات منطبق با نیاز مربوطه می‌باشند. در اين مقاله، روش جدیدی برای استفاده در سامانه‌های پیشنهاد دهنده ارائه شده است. در این روش برای ارائه پاسخ بهتر ابتدا داده‌های موجود با الگوریتم K-Means خوشه‌بندی شده سپس با استفاده از روش ساخت ماتریس Minhash سعی در حذف داده‌هایی که فاصله زیادی با نیاز کاربر دارند، دارد. همچنین برای افزایش دقت از LSH استفاده شده است. در انتها در آزمایشات نشان‌داده‌ایم که اگر خوشه‌بندی مناسبی انجام شود زمان پاسخ دهی، زمان مناسبی خواهد بود.
سجاد منطقی, ناصر نعمت بخش, کیوان رحیمی‌زاده
نوزدهمین کنفرانس ملی سالانه انجمن کامپیوتر ایران
در این مقاله یک سیستم توصیه‌گر مبتنی بر روشی ترکیبی متشکل از رویکردهای یادگیری با ناظر و بدون ناظر توسعه داده شده است. بخش تحت ناظر آن توسط یک شبکه عصبی ساخته شده است. مشکل اصلی در هنگام استفاده از شبکه عصبی تنظیم پارامترهای آن و تعیین ساختار شبکه است که بیشتر به صورت تجربی و با سعی و خطا به دست می-آید، در این تحقیق با استفاده از الگوریتم رقابت استعماری یک شبکه عصبی بهینه طراحی شده است. سیستم توصیه‌گر بر روی داده‌های استاندارد محک زده شده است. نتایج حاصل نشان می‌دهد که با استفاده از شبکه‌های عصبی در الگوریتم ترکیبی تحت ناظر و بدون ناظر می‌توان به دقت بالاتری رسید. این مقاله با استفاده از یک مدل مبتنی بر شبکه عصبی با 4 خوشه سطری و 4 خوشه ستونی به مقدار 72/0 برای سطح زیر منحنی ROC دست یافته است.
1 87 88 89 90 91 92 93 143