بررسی نقش صحت گفتار در ارتباط انسان ها

بررسی نقش صحت گفتار در ارتباط انسان ها
بررسی نقش صحت گفتار در ارتباط انسان ها
120,000 ریال 
تخفیف 15 تا 30 درصدی برای همکاران، کافی نت ها و مشتریان ویژه _____________________________  
وضعيت موجودي: موجود است
تعداد:  
افزودن به ليست مقايسه | افزودن به محصولات مورد علاقه

تعداد صفحات : 136 صفحه _ فرمت WORD _ دانلود مطالب بلافاصله پس از پرداخت آنلاین

فصل اول مقدمه:
صحت و گفتار نقش اساسي در ارتباط انسانها ايفا مي‌كنند و يكي از دلايل پيشرفت انسانها است.
براي برقراري ارتباط كامپيوتر با انسان بوسيلة گفتار در كار لازم است انجام شود. يكي سنتزل گفتار است. و ديگري بازشناسي گفتار، سنتز گفتار بيان گفتار بوسيلة كامپيوتر مي‌باشد و بازشناسي يعني فهميدن گفتار در بازشناسي گفتار. هدف بدست آوردن دنبالة آوايي يك گفتار مي‌باشد و اين دنبالة آوايي مي‌تواند بر اساس واج، سيلاب، كلمه، جمله و ... باشد. بازشناسي گفتار عكس عمل سنتز است و گفتار را به متن تبديل مي‌كند. اما انجام بازشناسي گفتار به دليل خاصيت صداي انسانها، داراي پيچيدگي‌هاي زيادي است. اما اغلب بازشناسي كامل و درست غير ممكن است. حتي خود انسانها هم نمي‌توانند به طور كامل همه صداها را بفهمند و ميزان، درك گوش انسانها حدود 70% مي‌باشد. شكل 1-1 ارتباط گفتاري بين انسانها و كامپيوتر را نشان مي‌دهد. به دليل نقش مهم و كاربردهاي فراواني كه بازشناسي گفتار دارد، تحقيقات و مقاله‌هاي زيادي در اين زمينه انجام شده و راه حل‌هاي متفاوتي پيشنهاد شده است،‌ ولي بازشناسي گفتار كاملاً درست هنوز امكان‌پذير نمي‌باشد.
بازشناسي گفتار داراي كاربردهاي زيادي است. از جمله كاربردهاي بازشناسي گفتار، حل مشكل تايپ است، با كمك بازشناسي گفتار مي‌توان جمله‌ها را يكي پس از ديگري خواند و كامپيوتر آنها را تايپ كند. يكي ديگر از كاربردهاي بازشناسي گفتار، حل مشكل صحبت دو فرد مختلف همزبان است. يكي از مشكلات انسانها ارتباط با افرادي است كه با زبانهاي متفاوت صحبت مي‌كنند. ارتباط بدون دانستن زبان مشكل است. و يادگيري يك زبان ديگر كار وقت گير و پر زحمتي است ولي به كمك بازشناسي گفتار به يادگيري زبانهاي مختلف احتياجي نخواهد بود و مي‌توان با يك دستگاه كوچك با فردي كه با زبان ديگري صحبت مي‌كند، صحبت نمود. يك كامپيوتر كوچك صداي شما را گرفته و به تعدادي از كلمات تبديل مي‌نمايد. سپس اين كلمات به زبان ديگر ترجمه شده و در نهايت با زبان جديد گفته مي‌شوند. دو مرحلة آخر اين سيستم جزو مسايل انجام شده گفتار هستند و با كامل نمودن مسئله بازشناسي گفتار بدون دانستن زبان‌هاي ديگر به آنها تكلم نمود.
شكل 1-2 نشان دهنده ارتباط دو فرد با زبان‌هاي مختلف است. يكي از كاربردهاي ديگر بازشناسي گفتار، برقراري ارتباط با كامپيوتر است. همان گونه كه به انسانهاي ديگر دسترس مي‌دهيد، به كامپيوتر هم مي‌توان دستور داد و با آن صحبت كرد. يا حتي مي‌توانيد از او بخواهيد كاري برايتان انجام دهد.
حتي با كمك بازشناسي گفتار مي‌توان به انسانهاي نابينا و ناشنوا كمك كرد. به طور مثال نابينايان مي‌توانند با صحبت كردن و دادن دستور به كامپيوتر با آن كار كنند.
از دستاوردهاي جديد بازشناسي گفتار و پردازش مدت كاربرد آن در آموزش‌هاي زبان دوم مي‌باشد. بدين ترتيب كه با ايجاد سيستمي‌كه قابليت آشكارسازي خطاي تلفظ بين لهجه‌هاي زبان اصلي و لهجة يك فردي كه به زبان دوم فرد سخن مي‌گويد، وي را در يادگيري و تصحيح تلفظ و لهجه آن زبان كمك نمي‌كنند.
بازشناسي گفتار مي‌تواند براي شرايط مختلفي انجام گيرد. هر كدام از اين شرايط مي‌توانند باعث مشكل شدن، پيچيدگي بازشناسي شوند. يكي از اين شرايط، وابسته بودن بازشناسي به يك گوينده يا مستقل بودن آن از گوينده است. مستقل بودن از گوينده به معناي آن است كه بتوان كار بازشناسي را براي هر فرد انجام داد. از ديگر شرايط بازشناسي گسسته يا پيوسته بودن گفتار است. راحتي بازشناسي گفتار گسسته، داشتن ابتدا و انتهاي عصر كلمه يا اساساً خود كلمه يا همان واحد آوايي مي‌باشد. همچنين از ديگر شرايطي كه در بازشناسي مطرح است،تعداد واژگان مي‌باشد. يعني بازشناسي گفتار براي چه تعداد كلمه‌اي صورت مي‌پذيرد.
هدف از انجام پروژة فوق در ابتدا بازشناسي كلمات گسسته قراني و در مرحلة دوم ارزيابي نحوة بيان و تلفظ كلمات قرآني مي‌باشد. از آنجائيكه براي مقايسه بين كلمة ادا شده توسط كاربر و صداي استاد بايد يك سيستم بهينه وجود داشته باشد. در مرحلة اول سعي مي‌كنيم، سيستم را به حالت بهينه خود برسانيم و سپس پارامترهاي اين سيستم جهت انجام مرحلة  دوم استفاده كنيم.
اما چون در هنگام ارزيابي نحوة‌ بيان كلمه قرآني، كلمه مورد نظر از قبل مشخص است، بناباين در مرحله دوم احتياجي به بازشناسي گفتار نمي‌باشد.
در بخش اول براي بهتر درك كردن مفهوم بازشناسي به بررسي سيستم توليد صوت و شنوايي انسان مي‌پردازيم. سپس وارد مفاهيم بازشناسي گفتار خواهيم شد. در اين مرحله روشهاي جداسازي سيگنال زمينه از روي سيگنال صحبت مورد بررسي قرار مي‌گيرد. سپس نحوة استخراج ماتري ضرائب كپستروم و در نهايت بازشناسي گفتار بوسيلة الگوريتم انحراف زماني پويا (DTU)  و مدل مخفي ماركوف مورد بررسي قرار مي‌گيرد.
پس از آشنايي با ابزارهاي بازشناسي گفتار، نحوة پياده سازي الگوريتم‌هاي فوق ذكر خواهد شد. بعد از راه‌اندازي سيستم بازشناسي گفتار كلمات مقطع، بوسيلة الگوريتم DTN مشاهده شد نرخ بازشناسي گفتار پائيني است و حدود %47 مي‌باشد. از اين رو در جهت بهبود پارامترهاي سيستم و بهينه كردن آن در مراحل بازشناسي و پارامترهاي آن تغييراتي داده شد، كه به ذكر آنها پرداخته خواهد شد.
پس از بهينه كردن پارامترهاي سيستم بازشناسي گفتار و رسانيدن نرخ بازشناسي گفتار به 99% براي 20 كلمه قرآني الگوريتم‌هاي ارزيابي نحوة بيان بوسيلة روش DTA بحث خواهد شد.
در بخش انتهايي به بررسي مدل مخفي ماركوف خواهيم پرداخت. سپس مراحل پياده سازي الگوريتم فوق بوسيلة نرم افزار  و نكات عملي آن گفته خواهد شد. در نهايت سيستم بازشناسي گفتار كلمات مقطع قرآني و نحوة پياده سازي آن مورد بررسي قرار خواهد گرفت و در مرحلة بعدي الگوريتم ارزيابي نحوة بيان بوسيلة ذكر خواهد شد.
تغيير محيط اكوستيكي روي نتيجه بازشناسي اثر خواهد گذاشت. از آنجائيكه سيستم فوق براي نمونه‌هاي آزمايشگاهي آموزش داده شده با تغيير محيط اكوستيكي مطمئناً نتايج بازشناسي تغيير خواهد كرد و نمونه‌هاي واقعي داراي نوين ميكروفن، محيط و همچنين برگشت صدا خواهند بود.
در انتها به بررسي سيستم‌هاي بهبود گفتار خواهيم پرداخت، هدف از اين بخش حذف هزينه ورودي از طريق ميكروفن و از بين بردن تأثيرهاي محيط بر روي سيگنال صدا مي‌باشد.
در اين بخش به دو روش اشاره خواهيم: ابتدا روش spectral subtraction
كه به ميزان يك روش عمدي براي حذف نويز مي‌رود ذكر خواهد شد.
سپس به معرفي يك الگوريتم جديد در حذف نويز ميكروفن خواهيم پرداخت.
مدل اعضاي صوتي انسان
در شكل (1-2) يك دياگرام شماتيك از مكانيزم توليد صحبت انسان نشان داده شده است. هنگام صحبت معمولي،‌ قفسه سين با فشار وارد كردن به ششها باعث مي‌شود كه هواي فشرده از ششها از طريق حنجره بيرون رانده شود. تارهاي صوتي كه درست در پشت غدة تيروئيد قرار گرفته‌اند،‌ اگر تحت تنش قرار گيرند، با عبور هوا مرتعش مي‌شوند و بدين ترتيب هوا نيز متناسب با فركانس ارتعاش تارهاي صوتي مرتعش شده و در اين حالت حروف صدادار توليد مي‌گردند.
اگر تارهاي صوتي از هم جدا شوند، جريان هوا از درون فاصلة بين تارهاي صوتي عبور مي‌كند و تأثير آن ايجاد نمي‌شود. جريان هوا سپس از فضاي حلق عبور نموده و بسته به موقعيت دريچة تنظيم عبور هوا از دهان يا بيني از فضاي اين دو عبور مي‌نمايد. جريان هوا از طريق دهان و بيني يا هر دو مشتركاً به بيرون داده مي‌شود و هنگام صحبت اين كاملاً قابل حس كردن است.
در حالت توليد حرف بي صدا مانند «س» يا «پ» تارهاي صوتي در هم باز مي‌شوند و يكي از دو حالت زير غالب است. يا يك جريان مغشوش هوا توليد مي‌شود، هنگامي‌كه هوا از درون فضاي نيمه بسته باريك در نقطه‌اي از اعضاي صوتي عبور مي‌كند (مانري) و يا يك تحريك گذري مختصر بدنبال ايجاد فشار پشت يك نقطة كاملاً بسته در اعضاي صوتي انسان اتفاق مي‌افتد (مانند p).
وقتيكه جز جز كننده‌هاي مختلف مانند زبان، لبها، آرواره‌ها و پردة تفكيك بيني و دهان در حين صحبت مدام حالتشان عوض مي‌شود. شكل قسمتهاي مختلف فضاي داخل ناخيه صوتي تغيير مي‌كند. ناحيه صوتي از حنجره تا لبها مانند يك حفرة تشديد كننده عمل مي‌كند كه فركانسهاي معيني را تقويت و بقيه فركانسها را تضعيف مي‌نمايد. اعضاي صوتي انسان مثل يك لولة صوتي غير يكنواخت است كه از تارهاي صوتي تا لبها ادامه دارد و طول آن در افراد مانع حدود cm17 مي‌باشد. بنابراين اولين فركانس تشديد آن در فركانس زير اتفاق مي‌افتد.
سطح مقطع غير يكنواخت اين لوله – مقدار زيادي متكي به وضعيت جز جز كننده‌ها است. و از صفر تا نزديك cm20 متغير است.
عضو صوتي مدهاي تشديد يعني از ارتعاش را داراست كه فرمنت ناميده مي‌شود كه به مقدار زيادي به موقعيت دقيق جزءجزءكننده‌ها بستگي دارد.
شكل (2-2) تصوير شماتيك نيم رخ ناحيه صوتي را براي چند حرف صدادار نشان داده است و مقادير نمونه فركانسها نيز ذيل آن براي سه فرمنت اول بر حسب Hz داده شده است.
شكل 3-2 مشخصه‌هاي فركانسي انتقالي اين حروف را نشان مي‌دهد، وضعيت تشديدها به روشني در اين منحني‌ها ديده مي‌شود. خوبست كه بدانيم بطور قابل ملاحظه‌اي در فهم صحبتها، فقط 3 فرمنت اول در تعيين صدايي كه شنيده مي‌شود مهم هستند. اگرچه براي توليد اصوات با كيفيت قابل قبول و بهتر فرمنت‌هاي بالا نيز مورد نياز مي‌باشد.
شكل موج صداي توليد شده بوسيلة حنجرة در هر حال يك سينوسي معمولي نيست. اگر اينطور بود ناحيه صوتي تشديد كننده، در خروجي فقط يك سيگنال سينوس مي‌داد كه بسته به ميزان دور يا نزديك بودن آن به فركانس تشديد، تقويت يا تضعيف شده بود.
حنجره داراي دو لبه چين خوردة پوستي بنام تارهاي صوتي است كه در هر سيكل از پريود فركانس گام يكبار از هم باز شده و دوباره بهم مي‌آيد. فركانس هيچ در مكالكات انسان مذكر از 50 الي 250 هرتز متغير است كه بطور متوسط حدود Hz100است. براي انسان مؤنث اين فركانس در رنج بالاتر تا حدود Hz500 قرار دارد. در آواز خواندن اين فركانس بالاتر نيز هست. بعضي آوازخوانهاي اپرا، فركانس گام خود را تا Hz1000 مي‌توانند برسانند.
حركت نوساني تارهاي صوتي شكل موجي توليد مي‌كند كه مي‌توان آن را با يك پالس مثلثي تقريب زد. اين شكل موج داراي طيف فركانسي غني است كه با شيب db/ocdao12 مي‌افتد و همة‌‌هارمونيكها نيز تحت تأثير نواحي تشديد اعضاي صوتي قرار مي‌گيرند. (شكل 4-2)
شكل 4-2 بالائي مربوط است به مدل فيلتر منبع كه مشخصات فيلتر و طيف است. شكل سمت راست تحريك دهانة حنجره در گفتار طبيعي است و بالاخره شكل سمت چپ تقويت در تحريك دهانه حنجره است.
ناحيه صوتي وقتي كه به وسيلة يك شكل موج با طيف‌هارمونيكي گسترده قرار مي‌گيرد. نقاط موجي در طيف انرژي شكل موج مكالمات توليد مي‌كند كه همان فرمنت‌ها هستند. پائين ترين فرمنت كه اولين فرمنت ناميده مي‌بود از حدود Hz.200 تا Hz100 در حين صحبت متغير است. و مقدار دقيق آن متكي به ابعاد ناحيه صوتي مي‌باشد.
فرمنت دوم از حدود Hz500 تا Hz9500 متغير است و فرمنت سوم از حدود Hz1500 تا Hz3500. البته گفتار يك پديدة استاتيك و ثابت نيست. مدل لولة صوتي مي‌تواند نمايشگر طيف گفتار در مدتي كه يك حرف صدادار بطور ممتد كشيده مي‌شود و دهان در حالت ثابت باقي مي‌ماند (مانند آآ‌آ) باشد. اما در گفتار واقعي زبان و لبها در تحريك دائم هستند و شكل ناحيه صوتي را مرتباً تغيير مي‌دهند و نتيجتاً موقعيت فركانسهاي تشديد را عوض مي‌كنند. اين مشابه يك لوله صوتي است كه بطور مداوم از قسمتهاي مختلف فشرده و منبسط مي‌شود.
بعنوان مثال در هنگام بيان كلمة «ميز» احساس مي‌كنيم كه چطور زبانتان به سقف دهان نزديك مي‌شود و باعث ايجاد يك حالت عبوري نيمه بسته در نزديك جلوي حفرة صوتي مي‌شود.
در طيف يك حرف صدادار كه بطور مداوم ادامه داده شود، بصورت مداوم ادامه داده شود، بصورت يك طيف انرژي ثابت مي‌آيد. اما بايد توجه داشت كه منظور از حروف صدادار در اينجا با آنچه معمولاً تصور مي‌شود متفاوت است. بگوئيد «I» و ببينيد زبان هنگام بيان به آهستگي تغيير موقعيت مي‌دهد. از نظر تكنيكي اين تها يك حرف صدادار نيست و يك لغزش بين دو موقعيت مربوط به دو حرف صدادار است.
تفاوتهاي شنوايي اصلي بين حروف صدادار مختلف و فركانسهاي دو فرمنت اول آنهاست. ديديم كه صحبت كردن، محدود كردن صوت است بعد از آنكه بوسيلة نوسانات در حنجره توليد شده است. وقتي كه با حالت نجوا و زمزمه صحبت مي‌كنيم، تارهاي صوتي در حنجره كمي‌از هم جدا نگاه داشته شده‌اند و هواي عبوري از آنها بصورت مغشوش در مي‌آيد و باعث تحريك حفرة تشديد كننده (اعضاي صوتي) بوسيلة يك نويز مي‌گردد.
فرمنتها در اينجا نيز حضور دارند و روي نويز سوار شده‌اند. براي حروف صدادار ريشة حروف در تارهاي صوتي است و صدا حاوي فرت‌هاي شبه پريوديك با باند عريض است كه توسط مرتعش شدن تارهاي صوتي ايجاد گرديده‌اند.
براي حروف بي صدا مانند «س» صدا در نقطه نيمه بسته تحت فشار در عضو صوتي قرار دارد و شامل جريان هواي شبه رندوم مغشوش مي‌باشد. براي حروف بي صدا مانند p (مثل pop) ريشة حرف در نقطه مسدود قرار دارد و بوسيلة‌ آزاد شدن هواي فشرديكه پشت نقطة كاملاً مسدود ايجاد گرديده است، توليد مي‌گردد. از نوع اخير كه صداهاي تنفسي ناميده مي‌شود، حرف H مثل كلمه Hello را نيز مي‌توان ذكر نمود. بدين ترتيب حروف مكالمات را به 3 دسته مي‌توان تقسيم نمود:
1- حروف صدادار
2- حروف بي صدا سايشي مثل س ر ش ف
3- حروف بي صداي تنفسي هـ، پ
توليد حروف بي صدا از نوع سايشي نيز ميسر است كه مثلاً حروف ز ژ – و كه آنها را صدادار سايشي مي‌ناميم. نمونة حروف بي صدا سايشي س – ش – ف هستند.
2-2 مدل منبع – فيلتر گفتار
فرض اساسي در تقريباً تمامي‌سيستمهاي پردازش گفتار اين است كه منبع تحريك و سيستم اعضاي صوتي مستقل از هم هستند. اين موضوع به ما اجازه مي‌دهد كه در مورد تابع تبديل عضو صوتي بحث كنيم و اين امكان را مي‌دهد كه اين سيستم را با هر منبع ممكن ديگر تحريك نمائيم.
فرض فوق در مورد اكثر حالات مورد نظر ما به خوبي معتبر مي‌باشد. البته حالاتي نيز وجود دارد كه فرض فوق معتبر نمي‌باشد و مدل اساسي مي‌شكند (مانند حرف p در po). براي بيشتر قسمتها ما معتبر بودن آن را فرض مي‌نمائيم. بر اين اساس يك مدل ديجيتالي ساده توليد گفتار را در شكل (5-2) مشاهده مي‌كنيم.
منابع تحريك عبارتند از يك مولد پالس كه فركانس آن همان فركانس گام مي‌باشد و يك مولد نويز رندوم.
مولد پالس در هر تعداد از نمونه و مرتبط با شروع عبور يك حجم از هوا از تارهاي صوتي، يك پالس توليد مي‌كند كه طول آن متناسب با پريود گام مي‌باشد. خروجي نويز رندوم مشابه اغتشاش شبه رندوم برار حروف بي صدا مي‌باشد. هر كدام يا هر دو اين منابع ممكن است بعنتوان ورودي براي يك فيلتر ديجيتال خطي و متغير با زبان بكار روند. اين فيلتر، عضو صوتي (ناحيه صوتي) را مشابه سازي مي‌نمايد و ندا ضرايب فيلتر تعيين كننده ناحيه صوتي بعنوان يك تابع متغير نسبت به زمان در حين گفتار مي‌باشند.
بطور متوسط در هر 10 ميلي ثانيه يكبار، ضرايب فيلتر عوض مي‌شوند كه نشانگر مشخصات ناحيه صوتي جديد هستند، كنترل بهره
 
فصل دوم
Speech analysist
مقدمه:
در اين بخش در مورد تجزيه و تحليل سيگنال صوت بحث خواهد شد و مراحل پردازش روي سيگنال صحبت جهت آمادگي آن براي بازشناسي مورد بررسي قرار خواهد گرفت.
در اين بخش اطلاعاتي در مورد نحوة فريم بندي، اعمال پنجره، عمليات جداسازي سيگنال صحبت از روي زمينه، voice Decision ، فركانس فرمنت و ضرايب LPC ، كپستروم بحث خواهد شد.
فريم بندي سيگنال صحبت
دنبال نمونه‌هاي از سيگنال صحبت در شكل نشان داده شده است. همان طور كه از شكل پيدا است، خواص سيگنال با گذشت زمان تغعير مي‌كند. مثلاً در بعشي از زمانتها سيگنال واكه دار يا بي واكه است يا نقاط ماكزيمم دامنه بسيار تغيير مي‌كند و همچنين در نقاطي كه سيگنال صحبت واكه دار است فركانس گام عوض مي‌شود.
در تمام كارهاي پردازش سيگنال فرض بر اين است كه خواص و ويژگي سيگنال صورت در طول زمان به آرامي‌تغيير مي‌كند.
در طول يك دوره كوتاه از زمان تقريباً ثابت است. با فرضهاي فوق ما به روشي دست پيدا مي‌كنيم كه در آن به پردازش زمان كوتاه يك قسمت از سيگنال صحبت مي‌پردازد.
اغلب اين بخش‌هاي كوتاه سيگنال صحبت كه به آن analysis frame نيز مي‌گويند. با يكديگر هم پوشاني دارند.
اگر بخواهيم يك بخش يا قسمت از سيگنال صحبت را نشان بدهيم بصورت رياضي به فرم زير مي‌باشد.

كه در آن  m طول فريم مي‌باشد.
براي بدست آوردن N ، نمونه فديك سيگنال صحبت بايد آن را فريم بندي كنيم.
اما براي از بين بردن تأثير لبه‌ها بايد از پنجره استفاده نمود. استفاده از پنجره دو مزيت دارد.
1- پنجره با تضعيف سيگنال در ابتدا و انتهاي پنجره اثر تغيير ناگهاني دامنه را در ابتدا و انتهاي پنجره يا فريم كاهش مي‌دهد.
2- با ضرب كردن پنجره در يك سيگنال صحبت در زمان، موجب ايجاد كانولوتن طيف پنجره و سيگنال صحبت در محور فركانس خواهيم شد. در حقيقت ما با اين يك عمل Weignted moving avarage در محور فركانس انجام داده ايم.
اين كار باعث از بين رفتن اعوجاج حاصل از فريم بندي سيگنال صحبت مي‌شود.
پنجره بكار برده شده بايد داراي دو خاصيت باشد: اول دقت فركانسي بالا يعني، robe اصلي بسيار باريك و كوتاه باشد. 2- فركانس كوچك نسبت به ساير مؤلفه‌هاي طيف ايجاد شده بوسيلة كانولوتن. به عبارت ديگر تضعيف بسيار زياد درrobe  اصلي.
پنجره Hamming داراي خاصيت‌هاي فوق بوده
با معلوم كردن ميزان هم پوشاني و طول پنجرة Haming مي‌توان سيگنال صحبت را به بخش‌هايي به طول مساوي تقسيم نمود.

فيلتر پيش تأكيد
ممكن است محدودة ديناميك طيف صحبت بسيار وسيع باشد. اين باعث مي‌شود كه در هنگام محاسبة ماتريس مشخصه سيگنال دچار مشكل شويم و همچنين اين فيلتر پيش تأكيد باعث يكنواخت تر كردن طيف فركانسي خواهد شد. براي اين فيلتر پيش تأكيد از يك فيلتر FIR درجة اول استفاده مي‌كنيم.

مي‌توان مقدار بهينه را بدست آورد ولي بسته به گوينده‌هاي مختلف فرق مي‌كند ولي مقدار آن زياد در نتايج تأثير ندارد.
جداسازي سيگنال صحبت از روي سيگنال زمينه
شكل اساسي در پردازش صوت، تشخيص سيگنال صحبت از سيگنال نويز زمينه مي‌باشد. از اين مسأله اغلب بعنوان مسأله تشخيص ابتدا و انتهاي صوت نام برده مي‌شود. بوسيله تشخيص درست ابتدا و انتهاي يك سيگنال صحبت، هم ميزان پردازش سيگنال پائين مي‌آيد،‌ هم نرخ بازشناسي بالا مي‌رود.
الگوريتم‌هاي مختلفي براي تشخيص و جداسازي سيگنال صحبت از روي سيگنال زمينه وجود دارند. در اين پروژه دو روش و پياده سازي شده است. در روش اول از پارامترهاي ميزان عبور از صفر و انرژي هر فريم براي پيدا كردن ابتدا و انتهاي سيگنال صحبت استفاده مي‌شود.
اين الگوريتم به طور قابل ملاحظه‌اي مي‌تواند در محيطهاي اكوستيكي كه داراي سيگنال به نويز 30d هستند. با دقت بالا كار كند. الگوريتم اول براي گوينده‌هاي مختلف و شرايط مختلف، قسمت شد و نتايج خوبي بدست آمد.
الگوريتم دوم تقريباً شبيه الگوريتم اول است، و فقط كمي‌تفاوت با آن در نحوة استفاده از پارامتر انرژي دارد.
الگوريتم دوم نيز از پارامترهاي انرژي و استفاده مي‌كند.
براي دستيابي به يك الگوريتم كه بتواند سيگنال صوت را غير از صوت جدا كند،‌ ابتدا لازم است محيط صوتي را كه در آن صدا ضبط شده است مشخص كنيم، عموماً در اين پروژه‌ها داراي دو نوع محيط صوتي مي‌باشيم. در حالت اول صداي كاربرد در يك محيط آزمايشگاهي بدون حضور، هيچ نيز اكوستيك ضبط شده است. در حالت دوم، صداي كاربرد بوسيلة يك ميكروفن معمولي از طريق كامپيوتر ضبط مي‌شود كه به همراه آن نويز وجود دارد.
در شكل (1) سكوت زمينه در هنگام ضبط صدا در محيط اول و دوم آورده شده است.
همان طور كه در شكلها ديده مي‌شود،‌ سكوتي كه در محيط اكوستيك باشد، داراي يك مؤلفه فركانس پائين قبلي (با پريود ms8) مي‌باشد. اما سكوتي كه در محيط معمولي و از طريق كامپيوتر ضبط شده داراي يك طيف وسيعي از فركانسها مي‌باشد.
شكل (2) طيف فركانسي اين دو سكوت زمينه را نشان مي‌دهد.

اين طيفهاي فركانسي از يك پنجرة Hamming، كه داراي 512 نقطه است بدست آمده، دانة آن به صورت لگاريتمي‌مي‌باشد. غير از مؤلفه فركانس پائيني تقريباً هر دو طيف شبيه به هم هستند.
مسأله اساسي در پيدا كردن ابتدا و انتهاي سيگنال صحبت، نويزهاي موجود در سيگنال صحبت مي‌باشد.
يك راه ساده جهت جدا كردن سيگنال صحبت از روي تغييرات سريع انرژي سيگنال صحبت در هنگام اول سيگنال و سكوت زمينه است.
در هنگامي‌كه در حالت اول يك صدا ضبط مي‌شود مي‌توان حتي از طريق چشم نيز تفاوت بين سيگنال زمينه و سيگنال صورت را به دليل پائين بودن سطح نويز و يا در حقيقت عدم وجود نويز تشخيص داد. در حقيقت چشم ما از طريق مشاهدة تغييرات، ناگهاني شكل موج يا همان تغزيت ناگهاني انرژي قادر به تشخيص ابتدا و انتهاي سيگنال صوت مي‌باشد.
همان طور كه در بخش قبلي در مورد سيگنال بي صدا بحث كرديم، تمام اين صوتها داراي ماهيت نويز گونه مي‌باشند، بنابراين با افزايش سطح نويز سيگنال زمينه، اگر صوت با يك حرف سايشي مثل «ف» شروع شود ديگر چشم قابليت تشخيص ابتداي سيگنال را از نويز ندارد. همچنين به دليل پائين بودن انرژي سيگنال صوت بي صدا پيدا كردن يك آستانه خوب براي جدا كردن ابتدا و انتهاي سيگنال صوت فقط با پارامتر انرژي مشكل مي‌باشد.

همان طور كه گفته شد به كمك پارامتر انرژي نمي‌توان ابتدا و انتهاي سيگنال صوت را معين نمود. پارامتر ديگري كه در الگوريتم استفاده خواهد شد پارامتر ميزان عبور از صفر هم فريم مي‌باشد.
اين پارامتر بيان مي‌كند،‌ سيگنال صوت در هر فريم چند بار به سطح مثبت و سپس در نمونه بعدي به سطح منفي رفته است، يعني در حقيقت از صفر عبور كرده است.
ميزان اين پارامتر ارتباط مستقيمي‌با فركانس سيگنال دارد. هر چقدر فركانس سيگنال بيشتر باشد نرخ عبور از صفر آن نيز بيشتر خواهد بود.
همان طور كه قبلاً گفته شد، صوتهاي بي صدا ماهيت نويز گونه دارند ولي فركانس عبور از صفر آنها كمتر است از نويز سفيد يا نويز زمينه مي‌باشد. يعني نويز زمينه داراي خاصيت پراكندگي بيشتري است. سپس با كمك اين پارامتر مي‌توان به راحتي اصوات بي صدا را از روي سيگنال زمينه جدا نمود.
به طور كلي مشكل جداسازي سيگنال‌هاي صوتي از روي زمينه را مي‌توان به سيگنال‌هايي محدود كرد كه اصوات زير ختم شوند:
ا) صوتهاي سايشي ضعيف مثل «ف»
ب) صوتهاي انفجاري مثل «پ، ك و ت»
ج) كلماتي كه به حروفي ختم مي‌شوند كه از طريق بيني ادا مي‌شوند مثل «م، ن»
د) حروف صدادار سايشي در انتهاي كلمه
هـ) كم شدن اثر حرف صدادار در انتهاي كلمه
با توجه به مسائل مطرح نشده مي‌توان با كمك پارامترهاي انرژي و ZCR الگوريتمي‌را طراحي نمود كه قابليت حل مسائل فوق را داشته باشد.
- الگوريتم تشخيص ابتدا و انتهاي سيگنال با كمك انرژي و ZCR
طبق بحث‌هاي گذشته هدف از اين الگوريتم
1- سادگي، كارآمدي بالا در هنگام پردازش
2- پيدا كردن يك نقطه ابتدا و انتها با اطمينان بالا
3- قابليت به كار بردن الگوريتم در مورد سيگنالهاي با زمينة متفاوت
همان طور كه گفته شد با كمك پارامترهاي انرژي و ميزان عبور از صفر به همراه يك سري تصميمات منطقي در مرحلة آخر مي‌توان الگوريتم با قابليتهاي فوق را پياده سازي كرد.
هر دو پارامتر انرژي و ميزان عبور از صفر، بسيار ساده قابل محاسبه هستند. براي پيدا كردن انرژي هر فريم مي‌توان از جمع مقدار دامنه به توان دو استفاده نمود.

n شمارة هر فريم مي‌باشد و M طول پنجره مي‌باشد.
براي محاسبة مقدار عبور از صفر ابتدا مقدار DC سيگنال را از آن كم مي‌كنيم، سپس آن را از يك فيلتر به 11 گذر عبور مي‌دهيم. اين دو كار را براي هر فريم انجام داد، سپس مقدار دفعاتي را كه سيگنال از سطح مثبت منفي رفته و يا بالعكس را طبق فرمول زير حساب مي‌كنيم.
پس از پيدا كردن مقدار انرژي و ميزان عبور از صفر براي هر فريم طبق الگوريتم و با پيدا كردن نقاط آستانه مي‌توان به جداسازي سيگنال صوت از روي زمينه پرداخت.
قبل از توضيح الگوريتم در بعضي از مقالات مشاهده شده كه ، توصيه مي‌شود قبل از فريم بندي و پردازش سيگنال صوت، سيگنال را از يك فيلتر پائين گذر با فركانس Hz10 و يك فيلتر بالاگذر Hz100 عبور دهيم. با انجام عمليات فوق و پياده سازي روش مذكور مشاهده مي‌شود كاملاً كيفيت شنيداري سيگنال پائين مي‌آيد،‌ ثانياً نرخ بازشناسي كاهش خواهد يافت. لذا از انجام عمل فيتر كردن خودداري شده است و در مرحلة اول از يك فيلتر بالاگذر FIR جهت حذف DC استفاده شده است.
فرض بر اين است كه در حدود بين ms100  تا ms200 اول سيگنال هيچ نوع صدايي وجود ندارد و فقط سيگنال زمينه خالص وجود دارد. بنابراين در اين محدوده مي‌توان ويژگي‌هاي آماري سيگنال زمينه را پيدا نمود. اين ويژگيها تا ميانگين و انحراف معيار و مقدار انرژي و ميزان عبور از صفر سيگنال سكوت مي‌باشد.
براي پيدا كردن مقادير آستانه براي ميزان عبور از صفر از فرمول زير استفاده مي‌كنيم.
يعني ميانگين مقدار ZCR
با در برابر انحراف ميعار آن صحيح مي‌كنيم.
و بدين ترتيب از طريق اين مقدار آستانه مي‌توان صوت بي صدا را از روي سيگنال زمينه جدا نمود.
براي پيدا كردن مقادير آستانه از انرژي به اين ترتيب عمل مي‌كنيم. مقدار ماكزيم انرژي فريمها را بدست مي‌آوريم و همچنين ميانگين انرژي سكوت زمينه را بدست مي‌آوريم.
سپس از طريق فرمول زير مقادير آستانه را بدست مي‌آوريم.

فرمول 2 نشان مي‌دهد، ‌مقدار برابر با 3 درصد ماكزيمم انرژي (كه براي مقدار سكوت نرماليزه شده) مي‌باشد و فرمول (3) بيان مي‌كند مقدار 4 برابر انرژي سكوت مي‌باشد.
مقدار آستانه پائين مقدار اين دو عدد يعني و مي‌باشد، مقدار آستانه بالايي 5 برابر مقدار آستانه پائين است.
در شكل 1 فلوچارت مربوط به الگوريتم براي حدس اوليه نشان داده شده است. در ابتدا الگوريتم از اولين فريم شروع به جستجو براي يافتن نقطه‌اي مي‌كند مقدار انرژي آن فريم بيشتر از حد آستانة پائيني باشد. بعد از يافتن اولين فريم كه مقدار انرژي آن از حد آستانه پاييني گذشت، آن فريم را به عنوان نقطه شروع اوليه مي‌ناميم. البته اين اتفاق به شرطي مي‌افتد كه بعد از چند فريم مقدار انرژي از حد آستانه بالايي نيز عبور كند. همچنين نبايد ميزان انرژي قبل از رسيدن به ITW از ITL كمتر باشد.
دليل قرار دادن مقادير آستانه بالايي جهت مطمئن شدن از حضور سيگنال صوتي در فايل ضبط شده است.
الگوريتم مشابه‌اي براي پيدا كردن نقطة انتهايي به كار مي‌رود. بدين ترتيب كه الگوريتم از آخرين فريم به صورت معكوس شروع به يافتن نقطه‌اي يا فريمي‌مي‌كند كه مقدار انرژي آن بيشتر از سطح ITL باشد.
با پيدا كردن نقاط اوليه ابتدايي و انتهايي ما اين نقاط را مي‌ناميم. تا اين زمان ما تنها از پارامتر انرژي استفاده نموده ايم كه بتوانيم نقاط ابتدا و انتها را مشخص كنيم. اين نقاط ابتدا و انتها به طور كامل بيان گر وجود نقاط كاملي كه سيگنال صوت در آن شروع و خاتمه يافته نمي‌باشد. دليل اين موضوع را قبلاً گفته ايم و بايد در اين مرحله بگوييم قسمتي از سيگنال صوت خارج از مي‌باشد.
پس از يافتن نقاط با الگوريتم شروع به چك كردن مقدار ميزان عبور از صفر براي نقاط يعني حدود ms250 قبل مي‌كند. اگر تعداد زمانهايي كه ميزان عبور از صفر هر فريم از مقدار آستانه IZCT كمتر باشد. در حدود 2 يا 3 بيشتر بود. نقطه انتهايي به همان آخرين نقطه كه از حد آستانه كمتر شد، منتقل مي‌گردد. در صورتيكه در اين ms250 هيچ فريمي‌يافت نشود كه مقدار ميزان عبور از صفر آن كمتر از حد آستانه باشد. همان نقطه به عنوان اول فريم شناخته خواهد شد.
الگوريتم مشابه‌اي براي پيدا كردن نقاط انتهايي به كار مي‌رود. اين بار نقاط براي پيدا كردن فريم‌هايي كه داراي ميزان عبور از صفر زير مقدار آستانه هستند جستجو خواهد شد.


Fast End point Dection algorithm in office EnviROMENT

اين الگوريتم شامل 4 مرحله مي‌باشد. در مرحلة اول سيگنال صوت يك كلمه، پيش پردازش شده و نويز زمينه تخمين زده مي‌شود و از آن جهت وفق دادن الگوريتم در مراحل بعدي استفاده خواهد شد. در مرحلة دوم اولين و آخرين نقطه فريم واكه‌دار به عنوان مبناي جستجو معين خواهند شد.
در مرحلة سوم با قرار دادن يك سطح انرژي پائين در اطراف ناحيه ابتدا و انتها مي‌توان در مرحلة چهارم نقاط ابتدايي و انتهايي را مشخص نمود.
تخمين اوليه نويز زمينه:
براي حذف DC ، و تقويت جزءهاي فركانس بالا، ابتدا سيگنال را با فيلتر درجة اول FIR ، پيش تأكيد مي‌كنيم.
با بدست آوردن نمونه‌هايي از ابتدا و انتهاي سيگنال مي‌توان نويز زمينه يا (نويز محيط اكوستيكي) را حدس زد. با كمك رابط (2) انرژي نويز را در دو فريم اول و آخر كه طول آنها زياد است و همپوشاني هم با هم ندارند حساب مي‌كنيم.
كه در آن طول پنجره يا طول فريم مي‌باشد (حدود 80ms)
ميزان نويز در ابتداي سيگنال زمينه با كمك فرمول (3) محاسبه خواهد شد.
اگر ميزان تفاوت انرژي دو فريم كمتر از دو برابر يكي انرژيها باشد، انرژي نويز برابر با ميانگين دو انرژي است، در غير اين صورت انرژي نويز برابر مينيمم اين دو انرژي است.

نويز تخمين زده شده در انتهاي سيگنال هم به همان صورت تخمين زده خواهد شد كه از دو مقدار انرژي فريم‌هاي آخري استفاده خواهد شد.

در نهايت مقدار انرژي نويز در كل سيگنال با كمك ميزان نويز در ابتدا و انتهاي سيگنال تخمين زده خواهد شد.
اگر اختلاف بين دو مقدار كمتر يا مساوي دو برابر يكي از مقدارها باشد،  نويز زمينه برابر با ميانگين دو مقدار خواهد بود. در غير اين صورت نويز زمينه قابل تشخيص نخواهد بود و سيگنال ورودي برگشت داده خواهد شد و خط آشكار مي‌شود.
با اين وجود، سطح انرژي نويز بدست آمده، بايد درحد دو آستانه قرار گيرد. در غير اين صورت سيگنال ورودي غير قابل قبول مي‌باشد و به عنوان كاملاً نويزي يا بسيار ضعيف شناخته خواهد شد.
TN مقدار قابل قبول انرژي نويز براي محيطهاي اكوستيكي مي‌باشد و TS به عنوان مقدار انرژي مي‌نيمم سكوت براي تشخيص قطعي يا عدم وجود سيگنال مي‌باشد.
مقدار TL و TN به نوع ميكروفن و خطاي كواتيزيشن بستگي دارد. مي‌توان به طور حدودي و در نظر گرفت.

پيدا كردن اولين و آخرين فريم واكه‌دار
مكان شروع اولين فريم واكه‌دار صحبت ورودي و مكان آخرين فريم واكه‌دار صحبت ورودي به عنوان مبنا براي جستجو مشخص مي‌شوند.
براي مشخص كردن واكه دار بودن يا نبودن فريم به جستجوي دامنه در زمان مي‌پردازيم. اولين فريمي‌كه داراي N قله بالاي حد آستانه TA باشد به عنوان اولين فريم voice ورودي شناخته خواهد شد. مقدار N به طور تجربي بدست مي‌آيد.
بنابراين مقدار
به عنوان اولين فريم واكه‌دار بدست مي‌آيد.
مقدار آستانه براي دامنه (TA) به طور تجربي از طريق فرمول زير بدست مي‌آيد.
كه در آن
و يك ثابت است كه به طور تجربي بدست مي‌آيد.
همان طريق كه گفته شد، الگوريتم مشابهي در حوزة زمان با چك كردن دامنه به صورت معكوس از آخرين فريم شروع به پردازش مي‌كند و اولين فريمي‌كه واكه‌دار بود به عنوان معلوم مي‌شود.
تفاضل بين بايد از حد يك آستانه بيشتر باشد تا مشخص شود سيگنالي وجود داشته است و يا حداقل سيگنال موجود داراي معنا مي‌باشد. اين مقدار حدود ms20 مي‌باشد.
در غير اين صورت الگوريتم تشخيص خط مي‌دهد.

مكان ناحية داراي سطح انرژي پائيني
در ابتداي سيگنال يك محدودة كم انرژي قرار داده مي‌شود كه فرض مي‌شود، نقطه شروع در آنجا قرار دارد.
همچنين در انتهاي سيگنال ورودي يك محدوده كم انرژي قرار داده مي‌شود، كه فرض مي‌شود نقطه انتهايي درون آن قرار دارد. در محدودة اين نقاط، الگوريتم جستجو براي پيدا كردن نقاط نهايي شروع و پايان سيگنال صحبت بسيار سريع‌تر عمل خواهد كرد.
يك فريم 80ms از نقطه ابتدايي اوليه به سمت عقب برگردانده مي‌شود، و منحني انرژي سيگنال را رسم مي‌كند. اين مقادير انرژي با دو مقدار آستانه جهت پيدا كردن نواحي كم انرژي مقايسه خواهند شد.
نتايج تحليلي براي نواحي از طريق فرمول زير بدست مي‌آيد.
مقادير به طور تجربي پيدا خواهند شد.
شكل (2) مقادير ، و زمانهاي ، را نشان مي‌دهد.
در انتهاي سيگنال ورودي يك فريم 80ms در نقطه انتهايي اوليه به سمت جلو حركت داده مي‌شود و منحني انرژي سيگنال رسم خواهد شد. اين مقادير انرژي با دو مقدار آستانه جهت پيدا كردن نواحي كم انرژي مقايسه خواهد شد.

، يك مقادير انرژي هستند كه به طور تجربي بدست مي‌آيند.
قابل توجه است كه مقادير اترژي آستانه انتهايي بيشتر از نقطه اوليه مي‌باشد. اين به دليل اين است كه ناحيه انتهايي سيگنال صحبت داراي محدودة نويز تنفس است.

مرحله 4 پيدا كردن نقطة انتهايي و ابتدايي
در محدودة نواحي كم انرژي كه در بخش قبل حدس زده شد، نقطه واقعي ابتدايي و انتهايي جستجو خواهد شد. در بين محدودة ، سيگنال به پنجره‌هايي بدون همپوشاني با طول ms30 تقسيم شده و مقادير انرژي براي آن محاسبه خواهد شد.
نقطه شروع واقعي سيگنال، متناسب است با ميزان ماكزييم مقدار منحني انرژي. فرمول تحليلي جهت پيدا كردن نقطة ابتدايي به شرح ذيل است.
به همان روش، نقاط بين ، جهت پيدا كردن نقطه انتهايي جستجو خواهند شد.

پياده سازي الگوريتم‌ها
هر دو الگوريتم فوق پياده سازي شده‌اند. الگوريتم نهايي كه جهت بكارگيري در سيستم پياده سازي شد، مخلوطي از دو الگوريتم فوق مي‌باشد.
در الگوريتم نهايي، روش پيدا كردن انرژي نويز و تخمين مقدار آن مانند روش دوم مي‌باشد، و جهت پيدا كردن مقادير آستانه از اين مقدار طبق روابط الگوريتم اول استفاده خواهيم كرد. براي پيدا كردن حد آستانه تعداد عبور از صفر از رابطة

استفاده مي‌كنيم.
دليل عدم استفاده از ساختار كلي الگوريتم دوم و پياده سازي الگوريتم اول، وابستگي بسيار شديد الگوريتم دوم به پارامترهاي تجربي بود. همان طور كه در الگوريتم دوم مشاهده مي‌كنيم، ما در اين الگوريتم داراي حدود 7 پارامتر هستيم كه به طور تجربي و به روش آزمايش و خطا بدست مي‌آيد. ولي در الگوريتم اول تنها يك پارامتر است كه به روش تجربي بدست مي‌آيد.
همچنين الگوريتم دوم شديداً وابسته به طول پنجره است و براي پيدا كردن طول پنجرة بهينه بايد تمام مقادير پارامترها را تغيير داد.
بنابراين پس از پياده سازي روش‌هاي فوق تصميم گرفته شد از ايده‌هاي الگوريتم دوم در جهت پياده سازي الگوريتم اول استفاده كنيم.
با پياده سازي الگوريتم اول نتايج خوبي بدست آورديم. البته در اين مرحله آزادي عمل در انتخاب طول پنجره وجود داشت و همچنين بازشناسي گفتار وجود نداشت. بنابراين در اين مرحلة هدف فقط جداسازي سيگنال صحبت در زمينه بوده كه به خوبي انجام پذيرفت.
استخراج ضرائب كپزرم
مدل فيلتر منبع كه در فصل اول در مورد مسير صوتي انسان معرفي كرديم بيان مي‌كند، سيگنال صوت حاصل ضرب يك سيگنال تحريك و يك فيلتر خطي در فضاي فركانسي مي‌باشد.
كه در اين صورت بايد خلاص طيف قدرت يك فريم از سيگنال صوت را بتواند نشان دهد. همچنين نيز بتواند بخوبي جزئيات سيگنال تحريك را نشان دهد.
با يك نگاه دقيق به معادلة (1) مي‌توان فهميد كه از طريق تبديل ضرب به جمع و سپس فيلتر كردن نتيجه مي‌توان توابع ، را بدست آورد. براي تبديل ضرب به جمع مي‌توان از خواص لگاريتم استفاده نمود.
براي بيشتر فعاليت‌هاي مربوط به صوت نا بخش حقيقي دامنه را احتياج داريم پس معادلة را مي‌توان بصورت نوشت.
به صورت خيلي آرام تغيير مي‌كند و داراي دو مؤلفه فركانس بالا و يك مؤلفه فركانس پائين مي‌باشد. بنابراين با يك تبديل ديگر مي‌توان اين مؤلفه‌ها را به صورت طبيعي از هم جدا نمود به راحتي مي‌توان را بدست آورد. به اين روند، تحليل كپستروم مي‌گويند.

همان طور كه در اشكال موجود ديده مي‌شود، بيشتر جزئيات در نزديكي نقطه شروع، در اوايل سيگنال اتفاق مي‌افتد. بنابراين ضرائب مرتبة پائين داراي جزئياتي راجع به خواص فركانسي مي‌باشند. ضرايب بعدي شامل و پيكهايي هستند كه در صورت واكه‌دار بودن فريم مي‌توانند بيان‌گر فركانس گام باشند.

ضرائب مرتبه پائيين كپستروم نسبت به شيب طيف فركانسي حساسيت دارند، همچنين نوع پالي خروجي حنجره و تارهاي صوتي نيز روي آنها تأثير مي‌گذارد. ضرايب مرتبة بالاي كپستروم نسبت به مكان پنجره و طول آن و مقدار هم‌پوشان و ساير عوامل موقتي تأثيرپذير هستند. همچنين در تمام سيستمهاي پردازش صوت – صورت مستقل گوينده بايد تمام اطلاعات مربوط به يك گويندة خاص را از ضرائب مشخصه حذف نمود.
جهت از بين بردن تغييرات بحث شده و جداسازي ، ،‌ از يك پنجره استفاده مي‌كنيم. كه به صورت يك سينوسي عمل مي‌كند. اين پنجره مقدارهاي واقع شده در وسط پنجره را تقويت مي‌كند و مقدارهاي ابتدايي و انتهايي را كمي‌تضعيف مي‌كند.
كه در آن L طول پنجره ، يا طول مورد دلخواه ضرائب كپستروم مي‌باشد.
براي هر فريم از سيگنال صحبت مي‌توان مقدارهاي ضرائب كپستروم (معمولاً ) را استخراج نمود، و ماتريس بدست آمده را به عنوان ماتريس ضرائب ويژگي يا مشخصه آن سيگنال صحرت معرفي نمود.
محاسبة ضرايب دلتاكپترال
همانطور كه مي‌دانيم ضرائب پپيشگويي خطي و يا ضراي كپترال مربوط به يك قطعه تحليلي از سيگنال صحبت مي‌باشند و عمل استخراج اين ضرايب بدون در نظر گرفتن قطعات قبلي يا بعدي صورت مي‌گيرد. بالطبع ضرايب مشخصه بدست آمده تنها نماينده خصوصيات همان قطعه خاص از سيگنال صحبت خواهند بود.
در حقيقت سيگنال صحبت غير ايستا مي‌باشد و در نتيجه مشخصه‌هاي استخراجي بايد بازگو كنندة تغييرات ديناميك سيگنال صحبت نيز باشند.
لذا استفاده از ضرايب دلتا كپسترال پيشنهاد مي‌گردد.
در اين صورت مجموع مشخصه‌هاي K قطعه قبل و بعد از يك قطعه به همراه ضرايب كپترال همان قطعه به عنوان مشخصة آن فريم در نظر گرفته خواهد شد.
پردازش روي فريم‌هاي واكه دار:
همان طور كه در فصل اول سخن گفتيم، اختلاف انسان به دو دستة واكه دار يا بي واكه تقسيم مي‌شوند. همچنين در مورد حروف واكه دار مي‌توان گفت بعضي از آنها صدادار هستند. در فارسي داراي 1 حرف صدادار هستيم.
از آنجا كه بيشتر اطلاعات شنيداري توسط حروف صدادار منتقل خواهند شد. بنابراين اين حروف داراي اهميت زيادي هستند. از اين رو ما احتياج به شناسايي حروف صدادار در يك كلمه هستيم. علت اين امر را در بخش ارزيابي صداي گوينده بيان خواهيم كرد.
روشهاي پيدا كردن فريم واكه‌در گوناگون هستند و از پارامترهاي مختلفي مي‌توان استفاده نمود.
همچنين اطلاعات ديگري كه در اين فريم‌ها موجود است.‌ فركانس گام شخص گوينده است. دربارة نحوة استفاده از فركانسي گام بعداً صحبت خواهيم كرد.
در اين پروژه ما دو روش را جهت شناسايي فريم واكه‌دار پياده سازي كرديم. همچنين از هر دو روش فركاني گام را نيز استخراج نموديم.
روش اول، روش خود همبستگي مي‌باشد. در روش دوم از ضرايب كپستروم جهت استخراج فريم واكه‌دار و فركاني استفاده خواهد شد.

روش اول: استفاده از autocorrelation
تابع خود همبستگي روش ساده‌اي را براي نمايش پريود يك شكل در حوزة زمان فراهم مي‌آورد. در اين روش‌ها به بررسي روشهاي پياده سازي تشخيص واكه‌دار بودن فريم و سپس فركاني گام آن از طريق تابع خود همبستگي خواهيم پرداخت.
يكي از محدوديتهاي استفاده از تابع خود همبستگي اين است كه اطلاعات زيادي را از سيگنال در خود نگه مي‌دارد. براي جلوگيري و از بين بردن مسئله فوق بهترين راه حل اين است كه در هنگام پردازش سيگنال، ورودي را طوري جلو ببريم كه، خاصيت پريوديك بودن سيگنال بر ساير خواص و ويژگيهاي سيگنال غالب باشد.
از تكنيكهايي كه اين چنين عملياتي را روي سيگنال انجام مي‌دهند. بعنوان «صاف كنندة طيف فركانسي» ياد مي‌شود. اين  تكنيكها كارشان حذف اطلاعات مربوط به فيلتر صوتي مي‌باشد. با اين كار، مي‌توان ميزان دامنة هر‌هارمونيك را به شكل همان قطار پالي پريوديكي در آورد.
روش‌هاي مختلفي براي هموار كردن طيف فركانسي وجود دارد، اما بهترين روش و ساده ترين آنها، بنام «برش مركزي» مشهور است.
در روشي كه توسط Jsondhi (نام net) ارائه شد، سيگنالي كه برش مركزي داده شده، توسط يك تابع غير خطي بدست مي‌آيد.
كه در آن در شكل نشان داده شده است.
يك قسمت از سيگنال صحبت كه مي‌خواهيم از آن براي ورودي جهت تابع خود همسبتگي استفاده كنيم در شكل نشان داده شد.
براي اين فريم، مقدار ماكزيمم دامنه Amax پيدا شده است و داراي آن مي‌توان مقدار CL را بدست آورد.
جهت پيدا كردن مقادير CL راه‌هاي مختلفي وجود دارد. مثلاً در مقاله Sondhi
مقدار CL از اين فرمول بدست مي‌آيد.
همان طور كه در شكل ديده مي‌شود،‌ مقادير نمونه‌هايي كه بيشتر از CL هستند، برابر است با مقدار ورودي منهاي مقدار سطح برش (CL)، و براي نمونه‌هايي كه پائين تر از سطح CL هستند. اين مقادير صفر مي‌باشند.
شكل خروجي سيگنال صحبت پس از انجام برش مركزي را نشان مي‌دهد.
در اين شكل مشاهده مي‌كنيد، نقاط قله تبديل به پالس‌هايي شده‌اند كه مانند پالس‌هاي حنجره عمل خواهند كرد.
در شكل تأثير برش مركزي در روي محاسبة تابع خود همبستگي نشان داده شده است. شكل (3-a
همان طور كه مشاهده مي‌كنيد در نقطه پريود فركانس گام يك قله بسيار قوي مقدار زياد در تابع خود همبستگي وجود دارد. همچنين پيكهايي وجود دارد كه مي‌توان از آنها به عنوان نوسانهاي ضعيف شده، فيلتر صوتي ياد كرد.
در شكل [3-b] مقدار سيگنال برش داده شده پس از انجام عمل با سطح معين نشان داده شده است. اين سطح برابر است با 68% ماكزيم مقدار 100 نمونة‌ اول توجه كنيد. تمام شكل موج باقي مانده پس از برش، يك سري پالس هستند كه در محدودة فركانس تمام قرار دارند. بنابراين تابع خود همبستگي موج‌ها داراي پيكهايي بمراتب كمتر از حالت قبلي است و بنابراين تصميم‌گيري بهتر خواهد بود و امكان اشتباه پائين‌تر خواهد آمد.
با نگاه به شكل مي‌توان تأثير سطح برش را مشاهده نمود. به طور خيلي واضح مي‌توان فهميد با افزايش سطح برش، تعداد نقاط قله كه از سطح برش بيشتر هستند، كاهش خواهد يافت. پالس كمتري در شكل موج خروجي ظاهر خواهد شد. بنابراين تعداد نقاط قلة كمتري در تابع خود همبستگي ظاهر خواهد شد.

نظري براي اين محصول ثبت نشده است.


نوشتن نظر خودتان

براي نوشتن نظر وارد شويد.

محصولات
نظر سنجي
نظرتون در مورد ویکی پروژه چیه؟
  •   مراحل ثبت نام خیلی زیاده!
  •   مطلب درخواستیم رو نداشت!
  •   ایمیل نداشتم که ثبت نام کنم!
  •   مطلبی که میخواستم گرون بود!
نظرنتيجه