دانشگاه آزاد اسلامی
واحد تهران جنوب
دانشكده تحصیلات تكمیلی
“M.Sc” پایاننامه برای دریافت درجه كارشناسی ارشد
مهندسی برق ‐ الكترونیك
عنوان :
شناسایی چند حالت گفتاری در زبان فارسی با استفاده از ویژگیهای نوای گفتار به
كمك شبكههای عصبی
استاد راهنما :
دكتر غرویان
استاد مشاور :
دكتر شیخان
نگارش:
علیرضا ناظریه
چكیده
در سالهای اخیر، شناخت حالات گفتار انسانی بعلت تنوع كاربردهای آن، موجب افزایش استفاده از
چنین تكنولوژی شده است. در این تحقیق ابتدا تعریفی از حالت ارائه شده، سپس به برخی مشكلات
موجود در این كار كه تشخیص را سختتر میكند پرداخته و راهحلهای متفاوت ارائه شده در این زمینه
معرفی میشود. بعد از آن به الگوریتمها و روشهای ارائه شده در زمینه بازشناسی حالت در گفتار
پرداخته و چند نمونه از تحقیقاتی كه در این زمینه صورت گرفته ارائه شده است. همچنین به برخی مزایا
و معایب هر روش و اینكه هر كدام از این روشها برای چه شرایطی مفیدترند نیز، اشاره خواهد شد. در
نهایت برخی كاربردهای آن نیز مورد بررسی قرار میگیرد. در این تحقیق از شبكه های عصبیARTMAP
فازی برای شناسایی چهار حالت عادی، خشم، شادی، و پرسشی و با استفاده از 52 ویژگی استفاده شده
است. نتایج نشان میدهد كه شبكههای عصبی میتوانند بهعنوان یك دستهبندی كننده خوب برای
شناسایی حالت گفتار استفاده شوند. نتایج این روشها زمانی بهتر خواهد بود كه حالت گفتار ذكر شده
دارای تفاوتهای قابل توجهی نسبت به سایر حالات باشد.
بر این اساس دقت شناسایی حالت برای حالت عادی 87/76%، برای حالت سوالی 51/74%، حالت شادی 76/13%، و حالت خشم 93/65% به دست آمد.
مقدمه
چارلز داروین نخستین كتاب درباره بیان احساسات انسان و حیوان را در قرن نوزدهم نگاشت. پس از این
اثر مهم روانشناسان و متخصصان هوش مصنوعی به تدریج به جمعآوری دانش و اطلاعات در این زمینه
پرداختند. این مسئله موج جدیدی از توجه روانشناسان و متخصصان هوش مصنوعی را برانگیخته است.
كه بعضی از دلایل آن عبارتند از:
پیشرفت فناوری در ثبت، ذخیره و تحلیل اطلاعات صوتی و تصویری، بالا رفتن سطح فناوری ارتباط
انسان و رایانه از نقطه و كلیك به حس و عاطفه و نرمافزارهای زندهوار مخصوص كمك به انسان و
های شركت سونی كه قادر به AIBO ، های شركت تایگر FURBI روباتهای حیوان شكل خانگی از قبیل
درك و بیان احساسات میباشند. به تازگی زمینههای تحقیقاتی جدیدی در هوش مصنوعی تحت عنوان
محاسبه عاطفی ایجاد شده است. درحوزه رمزگشایی و توصیف و به تصویر كشیدن حالات در گفتار،
تاكنون روانشناسان به آزمایشات تجربی بسیاری دست زده و فرضیههایی ارائه دادهاند. از طرف دیگر
محققان هوش مصنوعی نیز در شاخههای زیر تحقیقات ارزندهای انجام دادهاند:
ساخت و تركیب حالات گفتار، بازشناسی حالات گفتار و استفاده از نرمافزارهایی برای رمزگشایی و بیان
حالات استفاده میشوند. هدف، تحقیق و كاوش در راههای استفاده از بازشناسی حالات گفتار است كه
درتجارت، یك كاربرد بالقوه آن، میتواند تشخیص حالت گفتاری، در یك مكالمه تلفنی و ایجاد فیدبك
به یك اپراتور یا سرپرست، به منظور نمایش باشد. كاربرد دیگر آن ذخیره پیامهای صوتی طبق حالت بیان
شده توسط تماس گیرنده میباشد. كاربردی دیگر از آن، استفاده از محتوای حالت احساسی مكالمات،
جهت ارزیابی عملكرد اپراتور است.
شناسایی خودكارحالت گفتار، با توجه با حالات صورت، حركات بدن و یا ویژگیهای گفتار یكی از
روشهای بازشناسی حالت گفتار میباشد. بخصوص در زمینه سیستمهای امنیتی علاقهمندیهای بسیاری
مشاهده شده است.
حال باید دید، منظور از حالت در گفتار چیست؟ اگر تاكنون در چند سخنرانی شركت كرده باشید
خواهید دید كه برخی از سخنرانیها جذاب و برخی خستهكننده میباشند. این مشكل علاوه بر موضوع
سخنرانی به نحوه بیان سخنران نیز بستگی دارد. اگر سخنران گفتاری یكنواخت داشته باشد همانند یك
یک مطلب دیگر :
روبات خواهد بود، كه باعث خوابآلودگی شنونده میشود. بنابراین سخنرانان حرفهای با تغییر آهنگ
گفتار خویش و با حركات به موقع دست، سر و بدن خویش، با تاكید روی برخی كلمات، بیان برخی
جملات با تعجب برخی با افسوس و… حال و هوای سخنرانی را تغییر میدهند. این تغییرات در نحوه
بیان جملات و كلمات را “حالت در گفتار” گویند. بعبارت دیگر ادای جملات به هر شكلی غیر از حالت
عادی و یكنواخت بعنوان یك حالت شناخته میشود. حالات مختلف از قبیل: خشم، تنفر، ترس، شادی،
غم، هیجان، آرامش، كسالت، افسردگی و … میباشند. حتی در برخی از مواقع در مورد میزان یك حالت
بحث میشود، مثلا شاد با خیلی شاد در نظر گرفته میشود. اضافه كردن حالت عادی به این حالتها
معقول بنظر میرسد تا هر كدام از این حالتها درك شوند. یعنی برای در نظر گرفتن یك حالت جدید
یك سری تغییرات باید نسبت به یك مبدا وجود داشته باشد و در اینگونه كارها مبنا حالت عادی و بدون
حالت میباشد. این طبقهبندی بعنوان اساس مقایسه استفاده میشود. امروزه آمار عمومی از یك عبارت
بعنوان اساس كار است، اگر چه سعی در استفاده از ویژگیهای ذاتی موجود را دارند.
برای اطمینان از تشخیص صحیح، معقول است كه تعداد و نوع حالتهای قابل تشخیص محدود و
متناسب با نیاز در آن كاربرد خاص باشد(برای طبقهبندی مناسب). هنوز بصورت فنی هیچ استاندارد
مشخصی برای تشخیص و طبقهبندی حالتهای گفتار موجود نیست. اغلب تمیز دادن، میان یك مجموعه
تعریف شده از حالتهای گفتار مجزا است، و برای تعداد و اسامی آنها ایدهء یكسانی موجود نیست. از
طرفی این تحقیقات در هر زبان و لهجهای خاص خود میباشد و چنانچه برای سایر زبانها استفاده شود،
دقت بازشناسی كاهش مییابد. مثلا نمیتوان سیستمی كه برای زبان انگلیسی طراحی شده است را برای
زبان فارسی بكار برد. زیرا پایگاه دادهای كه برای زبان انگلیسی طراحی شده ویژگیهای خاص خود را
دارد كه برای زبان فارسی متفاوت است و كاربردی ندارد. البته ممكن است الگوریتم كاری آنها مشابه
باشد.
افراد با استفاده از اطلاعات حالت یا عاطفی راحتتر با یكدیگر ارتباط برقرار میكنند. و اهمیت آن در
برخی مواقع بیش از اطلاعات كلامی میباشد. با افزایش اهمیت اطلاعات غیر كلامی در زمینه رابطه
انسان با ماشین، مدتی است كه این امر بعنوان موضوع تحقیقی در حوزه مهندسی مورد بحث و بررسی
قرار گرفته است. اگر رایانهای بتواند هیجانات و حالات انسانی را بهخوبی خود انسانها درك كند رابطه
فوق بهبود خواهد داشت.
برای مثال، رابطه میان انسان و رایانه را میتوان به گونهای ترتیب داد كه واكنشهایی كه در برابر كاربران
نشان میدهند، برحسب حالات عاطفی كاربر باشد. برای آگاهی از اینكه در یك عبارت چه نوع حالتی
نهفته است، تركیبی از فونتیكها (آواشناسیها)، و فیزیولوژی تكنولوژی بازشناسی حالت میتواند مبنایی
برای یك مدل صوتی(گفتار) آماده سازد، كه بتواند كیفیت بازشناسی و سنتز گفتار را بهبود دهد.
برخی كاربردهای مهم دیگر برای تكنولوژی بازشناسی حالات شامل سیستم گفتگوی اتوماتیك در مراكز
تلفن و برخی استفادههای ویژه برای افراد ناتوان و پیر نیز میتوان نام برد. امروزه تحقیق حالت در گفتار
بطور عمده بر نمونههای تك زبانه متمركز شده و كمتر در زمینه چند زبانه كار شده است. نوای گفتار یك
نمایشگر اولیه اطلاعات حالت گوینده است.
راهحلهای بازشناسی حالت بستگی به حالتهایی دارد كه دستگاه میخواهد بازشناسی نماید. همچنین
علاقهمندی به كاربرد تكنولوژیهای بازشناسی حالت برای سیستمهای پاسخگویی صوتی متقابل،
مخصوصا برای مراكز تلفن میباشد. این سیستمها محاورهای و از این رو جملات معمولا كوتاه هستند.
برای طبیعیتر بودن مسئله، مسیرتحقیق بازشناسی حالت از آنالیز گفتار ناآگاهانه گرفته میشود. حركت
بعدی، معمولاً تلاش برای افزایش عملكرد سیستمهای رابط ماشین و انسان مانند خدمات تلفنی كنترل
صوتی است.
از مشكلات حالات ناآگاهانه در مقایسه با گفتارحقیقی برچسبزنی آنها است ، زیر ا دانستن حالات
حقیقی بطور قطعی غیر ممكن میشود.
مقایسه عملكرد بازشناسی حالت بدلیل نبود پایگاه داده مشترك سخت است. نتایج دستههای حالت پایه
مشترك، وابستگی به گوینده، حرفهای یا مردمان عادی، سن فرد گوینده، محیط ضبط صدا، یا نوع
جملات و (كلمات یا عبارات) را در پایگاه داده باید در نظر گرفت. مشكل میتوان گفت كه كدام سیستم
در كل بهتر است. عملكرد بازشناسی حالت تا حد زیادی وابسته به این است كه چگونه میتوان ویژگی –
های مناسب مستقل از گوینده، زبان و متن را استخراج كرد.
برای بازشناسی از شبكههای هوشمند استفاده میشود كه از آن جمله شبكههای عصبی مصنوعی، مدل-
های ماركوف مخفی، مدلهای مخلوطكننده گوسی، درختهای تصمیمگیری، ماشینهای بردار پشتیبان،
آنالیز تفكیككننده خطی، آنالیز تفكیككننده درجه دوم و … میباشد.
در ادامه نتایج چند تحقیق كه از روشهای مختلف برای منظورهای متفاوت استفاده كرده است، بررسی