فا   |   En
Login
مشاهده‌ مشخصات مقاله

بازشناسی گفتار فارسی با استفاده از شبکه عصبی حافظه کوتاه مدت ماندگار

Authors
  • هادی ویسی
  • آرمیتا حجی مانی
Conference بیست و یکمین کنفرانس ملی سالانه انجمن کامپیوتر
Abstract امروزه روش های مختلفی برای بازشناسی گفتار وجود دارند که مهم‌ترین آن ها روش های مبتنی بر شبکه های عصبی و مدل مخفی مارکوف (HMM) هستند. از آنجا که سیگنال گفتار نمونه ای از داده های متوالی است که در آنها مقدار داده فعلی به مقادیر قبلی وابسته است، شبکه های عصبی بازگشتی به دلیل دارا بودن حافظه، برای مدل‌سازی این نوع داده‌ها مناسب هستند. شبکه عصبی حافظه کوتاه مدت ماندگار (LSTM) به عنوان یکی از شبکه‌های بازگشتی، مشکل فراموشی داده‌ها در دنباله‌های طولانی را رفع کرده است. در این مقاله برای نخستین بار از شبکه عصبی حافظه کوتاه مدت ماندگار جهت بازشناسی گفتار فارسی استفاده شده است. برای این منظور، از ضرایب کپسترال در مقیاس مل (MFCC) به عنوان ویژگی‌و از دادگان فارس دات کوچک استفاده شده است. در ارزیابی شبکه، نتایج حاصل با روش مدل مخفی مارکوف مقایسه شده است. نتایج به دست آمده بیانگر دقت 74.89% این شبکه در بازشناسی فریم های مجموعه فارس دات است که با دقت بازشناسی واج با روش مدل مخفی مارکوف قابل مقایسه است. کارایی بالای این شبکه در بازشناسی گفتار فارسی نشان دهنده قدرت بالای این شبکه در یادگیری دنباله های طولانی است.
قیمت
  • برای اعضای سایت : 100,000 Rial
  • برای دانشجویان عضو انجمن : 20,000 Rial
  • برای اعضای عادی انجمن : 40,000 Rial

خرید مقاله