خانه مسترینگ

خانه مسترینگ

استودیوی شخصی سرمد دهنادی

همه چیز در مورد نرخ نمونه برداری (۱)

نرخ نمونه برداری

یکی از ابتدایی ترین و در عین حال پر مناقشه ترین  مباحث تکنولوژی صدای دیجیتال مبحث نرخ نمونه برداری یا همان sample rate است. در این مقاله به طور کاملا علمی علمی و نه بر طبق نظرات شخصی مهندسین صدا، تمامی زوایای تاریک این مبحث را برای علاقه مندان توضیح خواهم داد. این مقاله صرفا به مبحث نرخ نمونه برداری می پردازد و مسائل مربوط به bit depth  در مقاله های بعدی مورد بررسی قرار می گیرد.

نرخ نمونه برداری به زبان ساده

صدایی که میشنویم عبارت است ازیک سری ارتعاشات منظم  در بازه زمان. تعداد این ارتعاشات در یک ثانیه فرکانس نامیده می شود. مثلا اگر تعداد ارتعاشات یک سیگنال  در یک ثانیه عدد ۶ باشد می گوییم فرکانس آن سیگنال ۶hz است. (شکل یک)

 نرخ نمونه برداری

 شکل یک: هر سیکل کامل با نقطه نشان داده شده و تعداد سیکل های کامل ۶ می باشد.

برای ضبط صدا به صورت دیجیتال لازم است به صورت منظم از سیگنال نمونه برداری شود و این نمونه برداری به گونه ای باشد که در باز پخش سیگنال ضبط شده شکل سیگنال تغییر نکند. به عنوان مثال برای اینکه سیگنال مثال بالا به درستی باز پخش شود لازم است دوازده بار مورد نمونه برداری قرار بگیرد. این عدد ۱۲ همان  نرخ نمونه برداری مناسب برای مثال بالاست ( شکل دو). به عبارت دیگر نرخ نمونه برداری عبارت است از تعداد دفعات نمونه برداری از سیگنال در واحد زمان.

2

 شکل دو : نقاطی که از آنها نمونه گرفته شده با نقطه مشخص شده است.

قانون نیکوییست

با دقت در مثال بالا متوجه می شویم حداقل نرخ نمونه برداری لازم جهت ضبط دقیق سیگنال باید دو برابر فرکانس  سیگنال باشد. این قانون را نخستین بارHarry Niquist  و Claude Shannon کشف کردند و به قانون نیکوییست شنُن مشهور شد. طبق این قا نون برای ضبط یک سیگنال به طریقه دیجیتال، نرخ نمونه برداری باید حد اقل دوبرابر بالاترین فرکانس موجود در سیگنال باشد. مثلا اگر سیگنال شما در بازه ای بین ۱۰hz تا ۱۰۰hz  باشد ، نرخ نمونه برداری لازم برای ضبط مناسب این سیگنال دوبرابر بالاترین فرکانس موجود در سیگنال یعنی ۲۰۰hz می باشد.

نرخ نمونه برداری و صدا

صدایی که می شنویم دارای فرکانسی بین ۲۰hz تا ۲۰khz می باشد. البته در عمل کمتر کسی قادر به شنیدن اصواتی با فرکانس بالای ۱۵khz است . میزان شنوایی انسان با افزایش سن کاهش می یابد به طوری که در کودکی فرکانس های بالای ۱۵khz  قابل شنیدن تر هست تا در بزرگسالی.

بالاترین فرکانسی که در بازه فرکانسی صدا تعریف می شود ۲۰khz  یا ۲۰۰۰۰hz  است از این رو طبق قانون بالا نرخ نمونه برداری لازم جهت ضبط صدا باید ۴۰۰۰۰hz  یا  ۴۰khz  باشد . حال آنکه در عمل این عدد ۴۴۱۰۰hz است . حال سوال این است چرا ۴۱۰۰hz  بیشتر ؟ برای یافتن پاسخ این سوال، توضیح  زیر ضروریست.

Aliasing Filter

گفتیم برای ضبط سیگنال ، نرخ نمونه برداری باید حد اقل دو برابر بالاترین فرکانسی باشد که قصد ضبطش را داریم از این رو قبل از عمل نمونه برداری از سیگنال(سمپلینگ) لازم است دامنه فرکانسی سیگنال مورد نظر را محدود کنیم تا فرکانسی بالاتر از فرکانس ماکسیمم مد نظر ما وارد مدار نمونه بردار نشود. مثلا در مورد صدا چون بازه مطلوب ما ۲۰hz  تا ۲۰khz  می باشد باید از فیلتری استفاده کنیم که در عمل اجازه وارد شدن فرکانس های بالا تر از ۲۰khz را به مدار نمونه بردار (ad converter) ندهد. این فیلتر، فیلتر Aliasing نامیده میشود.

چون نرخ نومنه برداری بر اساس بالاترین فرکانس مطلوب ما انتخاب میشود در صورتی که از این فیلتر استفاده نشود فرکانس های بالاتر از فرکانس مطلوب  ما وارد مدار شده و چون نرخ نومنه برداری کمتر از دوبرابر این فرکانس های نا مطلوب است ،این فرکانس ها به غلط توسط مدار نمونه بردار به صورت فرکانس های پایین تشخیص داده می شوند  که باعث افت کیفیت و ورود دیستورشن به سیگنال ضبط شده می شود.

3

شکل سه: موج قرمز فرکانس بالاتر از حد مطلوب است و موج آبی فرکانسی است که بر اثر  پایین بودن نرخ نمونه بردداری حاصل شده و در اصل دیستورشن است.

مثال عینی این پدیده زمانی است که شما به چرخ های یک اتومبیل در حال حرکت نگاه میکنید. تا وقتی اتومبیل به سرعتی مشخص نرسیده شما چرخش لاستیک ها را به سمت جلو می بینید چرا که هنوز فرکانس نمونه برداری چشم شما برای آن سرعت مناسب است . وقتی اتومبیل به سرعتی مشخص  رسید شما ناگهان احساس می کنید چرخ ها ثابتند  و همزمان با سرعت گرفتن بیشتر خودرو شما حس می کنید چرخ ها به سمت عقب در حال چرخشند حال آنکه این خطای دید شماست و دلیل آن کمتر بودن سرعت نمونه برداری چشم شما نسبت به سرعت چرخ است. این دقیقا همان خطایی است که در ضبط صدا نیز می تواند روی دهد البته در صورت عدم استفاده از فیلترAliasing .

فیلتری که برای این منظور استفاده می شود از نوع فیلتر های پایین گذر می باشد و اگر چه یک فیلتر  پایین گذر ایده آل در تئوری قابلیت حذف سیگنال بالا تر از ۲۰khz و نگه داشت سیگنال ۲۰khz  به پایین را داراست، در عمل جهت حذف رزونانس در فرکانس برش و ارزانتر شدن طراحی فیلتر، شیب برش را کمتر در نظر گرفته و عمل فیلترینگ در طول بازه ای از فرکانس اعمال می شود.

طبق محاسبات علمی که خارج از حوصله ای مقاله است، حد اقل بازه فرکانسی لازم جهت طراحی فیلتری که هم از نظر کیفیت  و هم هزینه قابل قبول باشد ۲khz می باشد که در نتیجه برای دستیابی به این بازه اضافه در حد بالایی سیگنال صوتی، لازم است عمل نمونه برداری به جای ۲۰khz  تا ۲۲khz  انجام شود وطبق قانون نیکوییست اگر حد اکثر فرکانس ۲۲khz  باشد نرخ نمونه برداری باید حد اقل دو برابر یعنی ۴۴khz  باشد. به این ترتیب فیلتر ما تا فرکانس ۲۰khz را به راحتی از خود عبور داده و از ۲۰khz  تا  ۲۲khz سیگنال را باشیب ملایم تضعیف کرده تا جایی که از فرکانس ۲۲khz به بعد هیچ سیگنالی از فیلتر عبور نخواهد کرد.

تا اینجا به نرخ نمونه برداری ۴۴۰۰۰hz رسیدیم . دلیل آن ۱۰۰hz بیشتر را نیز باید به طور خلاصه در تلاش برای سازگاری این فرمت با فرمت های تصویری PAL  وNTSC جستجو کرد که بحث در این مورد خارج از موضوع این مقاله است.*

با مطالعه موارد بالا دلیل انتخاب نرخ نمونه برداری ۴۴۱۰۰hz به عنوان مرجع مشخص می شود و نیز روشن می شود که این نرخ نمونه برداری توانایی ضبط فرکانس هایی تا ۲۲۰۵۰hz را دارا می باشد حال آنکه بالاترین فرکانس در محدوده اصوات ۲۰۰۰۰hz  است که آن هم برای ۹۹ درصد افراد قابل شنیدن نیست. پس به صورت کاملا علمی ثابت می شود که نرخ نمونه برداری ۴۴٫۱ khz تمامی رنج شنوایی انسان و حتی فراتر را پوشش می دهد.

سوال اصلی اینجاست که با وجود کافی بودن این نرخ نمونه بردداری ، علت وجود سرعت های بالاتر  نمونه برداری  چیست و آیا اصولا نیازی به نرخ نمونه برداری سریعتر وجود دارد؟ به بیان دیگر، آیا نرخ های نمونه برداری بالاتر  تاثیری در کیفیت ضبط اصوات دارند یا خیر؟

در مقاله بعدی به پاسخ این پرسش خواهیم پرداخت.

                                                                                                                                                 نوشته سرمد دهنادی

                                                                                                                                              ۱۸ فروردین ۱۳۹۲

کپی با ذکر منبع مجاز است.

NTSC:

۲۴۵ × ۶۰ × ۳ = ۴۴,۱۰۰

۲۴۵ active lines/field × ۶۰ fields/second × ۳ samples/line = 44,100 samples/second

(۴۹۰ active lines per frame, out of 525 lines total)

PAL:

۲۹۴ × ۵۰ × ۳ = ۴۴,۱۰۰

۲۹۴ active lines/field × ۵۰ fields/second × ۳ samples/line = 44,100 samples/second

(۵۸۸ active lines per frame, out of 625 lines total)