یکی از ابتداییترین و در عین حال پر مناقشهترین مباحث مربوط به آموزش میکس و مسترینگ، مبحث سمپل ریت یا همان sample rate است. در این مقاله به طور کاملا علمی و نه بر طبق نظرات شخصی مهندسین صدا، تمامی زوایای تاریک این مبحث را برای علاقهمندان توضیح خواهم داد. این مقاله صرفا به مبحث سمپل ریت میپردازد و مسائل مربوط به bit depth در مقالههای بعدی مورد بررسی قرار خواهد گرفت.
سمپل ریت به زبان ساده
صدایی که میشنویم عبارت است ازیک سری ارتعاشات منظم در بازه زمان. تعداد این ارتعاشات در یک ثانیه فرکانس نامیده میشود. مثلا اگر تعداد ارتعاشات یک سیگنال در یک ثانیه عدد ۶ باشد میگوییم فرکانس آن سیگنال ۶hz است. (شکل یک)
شکل یک : هر سیکل کامل با نقطه نشان داده شده و تعداد سیکل های کامل ۶ می باشد.
برای ضبط صدا به صورت دیجیتال لازم است به صورت منظم از سیگنال نمونه برداری شود و این نمونه برداری به گونهای باشد که در باز پخش سیگنال ضبط شده، شکل موج سیگنال تغییر نکند. به عنوان مثال برای اینکه سیگنال مثال بالا بعد از تبدیل شدن به دیجیتال به درستی باز پخش شود لازم است دوازده بار مورد نمونه برداری قرار بگیرد. این عدد ۱۲ همان سمپل ریت مناسب برای مثال بالاست (شکل دو).
به عبارت دیگر :
سمپل ریت عبارت است از تعداد دفعات نمونه برداری از سیگنال در یک ثانیه.
شکل دو : نقاطی که از آنها نمونه گرفته شده با نقطه مشخص شده است.
قانون نیکوئیست
با دقت در مثال بالا متوجه میشویم حداقل مقدار سمپل ریت لازم جهت ضبط دقیق سیگنال باید دو برابر فرکانس سیگنال باشد. این قانون را نخستین بار Harry Niquist و Claude Shannon کشف کردند و به قانون نیکوییست – شنُن مشهور شد. طبق این قانون برای ضبط یک سیگنال به طریقه دیجیتال، سمپل ریت باید حداقل دوبرابر بالاترین فرکانس موجود در سیگنال باشد. مثلا اگر سیگنال شما در بازهای بین ۱۰hz تا ۱۰۰hz باشد ، سمپل ریت لازم برای ضبط درست این سیگنال باید دوبرابر بالاترین فرکانس موجود در سیگنال یعنی ۲۰۰hz باشد.
سمپل ریت و صدا
صدایی که می شنویم دارای فرکانسی بین 20 هرتز تا 20 کیلوهرتز (20 هزار هرتز) است. البته در عمل کمتر کسی قادر به شنیدن اصواتی با فرکانس بالای ۱۵khz است . میزان شنوایی انسان با افزایش سن کاهش مییابد به طوری که در کودکی فرکانسهای بالای ۱۵khz قابل شنیدن تر هست تا در بزرگسالی.
بالاترین فرکانسی که در بازه فرکانسی صدا تعریف میشود 20 کیلوهرتز یا ۲۰۰۰۰hz است از این رو طبق قانون بالا سمپل ریت لازم جهت ضبط صدا باید 40 هزار هرتز (۴۰khz) باشد . حال آنکه در عمل این عدد در تمامی نرمافزارها و سخت افزارها و حتی استاندارد سی دی صوتی 44100 هرتز است . حال سوال این است چرا ۴۱۰۰hz بیشتر ؟ برای یافتن پاسخ این سوال، توضیح زیر ضروریست.
خطای aliasing
گفتیم برای ضبط سیگنال ، نرخ نمونه برداری باید حد اقل دو برابر بالاترین فرکانسی باشد که قصد ضبطش را داریم از این رو قبل از عمل نمونه برداری از سیگنال(سمپلینگ) لازم است دامنه فرکانسی سیگنال مورد نظر را محدود کنیم تا فرکانسی بالاتر از فرکانس ماکسیمم مد نظر ما وارد مدار نمونه بردار نشود. مثلا در مورد صدا چون بازه مطلوب ما ۲۰hz تا ۲۰khz است، باید از فیلتری استفاده کنیم که در عمل اجازه وارد شدن فرکانسهای بالاتر از ۲۰khz را به مدار مبدل آنالوگ به دیجیتال (AD converter) ندهد. این فیلتر، فیلتر Aliasing نامیده میشود.
چون سمپل ریت بر اساس بالاترین فرکانس مطلوب ما انتخاب میشود در صورتی که از این فیلتر استفاده نشود، فرکانس های بالاتر از فرکانس مطلوب ما وارد مدار شده و چون در این حالت سمپل ریت کمتر از دوبرابر این فرکانسهای نامطلوب است ،این فرکانسها به غلط توسط مدار نمونهبردار به صورت فرکانسهای پایین تشخیص داده میشوند که باعث افت کیفیت و ورود دیستورشن به سیگنال ضبط شده خواهد شد.
شکل سه: موج قرمز فرکانس بالاتر از حد مطلوب است و موج آبی فرکانسی است که بر اثر پایین بودن نرخ نمونه بردداری حاصل شده و در اصل دیستورشن است.
مثال عینی این پدیده زمانی است که شما به چرخ های یک اتومبیل در حال حرکت نگاه میکنید. تا وقتی اتومبیل به سرعتی مشخص نرسیده شما چرخش لاستیک ها را به سمت جلو میبینید چرا که هنوز فرکانس نمونه برداری دوربین یا چشم شما برای آن سرعت مناسب است . وقتی اتومبیل به سرعتی مشخص رسید شما ناگهان احساس میکنید چرخ ها ثابتند و همزمان با سرعت گرفتن بیشتر خودرو شما حس میکنید چرخ ها به سمت عقب در حال چرخشند. حال آنکه این خطای دید شماست و دلیل آن کمتر بودن سرعت نمونه برداری دوربین یا چشم شما نسبت به سرعت چرخ است. این دقیقا همان خطایی است که در ضبط صدا نیز میتواند روی دهد البته در صورت عدم استفاده از فیلتر Aliasing .
فیلتر aliasing
فیلتری که برای این منظور استفاده می شود از نوع فیلتر های پایین گذر می باشد و اگر چه یک فیلتر پایین گذر ایده آل در تئوری قابلیت حذف سیگنال بالا تر از ۲۰khz و نگه داشت سیگنال ۲۰khz به پایین را داراست، در عمل جهت حذف رزونانس در فرکانس برش و ارزانتر شدن طراحی فیلتر، شیب برش را کمتر در نظر گرفته و عمل فیلترینگ در طول بازه ای از فرکانس اعمال می شود.
طبق محاسبات علمی که خارج از حوصله ای مقاله است، حد اقل بازه فرکانسی لازم جهت طراحی فیلتری که هم از نظر کیفیت و هم هزینه قابل قبول باشد ۲khz می باشد که در نتیجه برای دستیابی به این بازه اضافه در حد بالایی سیگنال صوتی، لازم است عمل نمونه برداری به جای ۲۰khz تا ۲۲khz انجام شود وطبق قانون نیکوییست اگر حد اکثر فرکانس ۲۲khz باشد نرخ نمونه برداری باید حد اقل دو برابر یعنی ۴۴khz باشد. به این ترتیب فیلتر ما تا فرکانس ۲۰khz را به راحتی از خود عبور داده و از ۲۰khz تا ۲۲khz سیگنال را باشیب ملایم تضعیف کرده تا جایی که از فرکانس ۲۲khz به بعد هیچ سیگنالی از فیلتر عبور نخواهد کرد.
تا اینجا به نرخ نمونه برداری ۴۴۰۰۰hz رسیدیم . دلیل آن ۱۰۰hz بیشتر را نیز باید به طور خلاصه در تلاش برای سازگاری این فرمت با فرمت های تصویری PAL وNTSC جستجو کرد که بحث در این مورد خارج از موضوع این مقاله است.*
با مطالعه موارد بالا دلیل انتخاب نرخ نمونه برداری ۴۴۱۰۰hz به عنوان مرجع مشخص می شود و نیز روشن می شود که این نرخ نمونه برداری توانایی ضبط فرکانس هایی تا ۲۲۰۵۰hz را دارا می باشد حال آنکه بالاترین فرکانس در محدوده اصوات ۲۰۰۰۰hz است که آن هم برای ۹۹ درصد افراد قابل شنیدن نیست. پس به صورت کاملا علمی ثابت می شود که نرخ نمونه برداری ۴۴٫۱ khz تمامی رنج شنوایی انسان و حتی فراتر را پوشش می دهد.
سوال اصلی اینجاست که با وجود کافی بودن این نرخ نمونه بردداری ، علت وجود سرعت های بالاتر نمونه برداری چیست و آیا اصولا نیازی به نرخ نمونه برداری سریعتر وجود دارد؟ به بیان دیگر، آیا نرخ های نمونه برداری بالاتر تاثیری در کیفیت ضبط اصوات دارند یا خیر؟
انتخاب سمپل ریت مناسب
وقتی در آموزش میکس و مسترینگ صحبت از نرخ نمونهبرداری به میان می آید بیشترین بحث و جدل پیرامون انتخاب نرخ نمونهبرداری مناسب شکل میگیرد. عدهای بر این باورند که استفاده از نرخ نمونهبرداری بالاتر سبب افزایش کیفیت سیگنال میشود و عدهای دیگر بر روی قانون نیکوییست پافشاری کرده و استفاده از نرخهای نمونهبرداری بالاتر را بیهوده تلقی مینمایند. در این بخش سعی کردم تمامی زوایای مربوط به این بحث را بررسی و در نهایت به یک نتیجهگیری علمی برسیم.
ابتدا باید به این نکته اشاره کرد که زمانی که در مورد استفاده از نرخهای نمونهبرداری بالاتر صحبت می شود باید ابتدا مشخص شود نرخ نمونهبرداری بالاتر در مرحله ضبط استفاده می شود یا در مرحله پخش و یا در حین عمل پردازش دیجیتال. چراکه طبق مشاهدات علمی این سه مورد دارای تفاوت می باشند.
سمپل ریتهای استاندارد
۴۴٫۱khz : جهت CDصوتی و VCD,SVCD و MP3
۴۸khz : برای تجهیزات حرفهای ویدیویی، DVD و تلویزیون دیجیتال
۸۸٫۲khz : مورد استفاده دربعضی تجهیزات حرفهای در هنگامی که فرمت نهایی CD صوتی می باشد.
۹۶khz : جهت استفاده در DVD صوتی و تصویری و Blue ray
۱۷۶٫۴khz : مورد استفاده دربعضی تجهیزات حرفهای درهنگامی که فرمت نهایی CD صوتی می باشد.
۱۹۲khz : جهت استفاده در DVD صوتی و تصویری و Blue ray
۳۸۴khz : جهت استفاده در بعضی نرمافزارهای ادیت صوتی
تاثیر سمپل ریت بالاتر بر روی کیفیت صدا
نظریه اول
ضبط صدا با نرخ نمونهبرداری بالاتر باعث ضبط فرکانسهای فراصوت می شود و گرچه این فرکانسها توسط گوش شنیده نمی شود اما به صورت نامحسوس سبب گرمتر شدن سیگنال ضبط شده می گردد. بررسی…
نظریه دوم
ضبط صدا با نرخ نمونهبرداری بالاتر به جهت افزایش تعداد نقاط نمونهبرداری از سیگنال، سبب میشود سیگنال ضبط شده دارای دقت بالاتری نسبت به اصل سیگنال باشد. بررسی…
نظریه سوم
استفاده از نرخ نمونهبرداری بالاتر در هنگام ضبط و پخش به دلیل استفاده ازaliasing filter با شیب کمتر سبب بهبود کیفیت سیگنال و کاهش اثرات ناخواسته این فیلتر بر روی فرکانسهای محدوده شنوایی می شود. بررسی…
نظریه چهارم
استفاده از افکتهای صوتی در نرخ نمونهبرداری بالاتر باعث بالاتر رفتن کیفیت و کاهش دیستورشن ناشی از فرایند می شود. بررسی…
بررسی نظریههای مربوط به سمپل ریت بالاتر
بررسی نظریه اول:
این مورد به طور کامل مردود است زیرا بر فرض توانایی مبدل آنالوگ به دیجیتال برای ضبط سیگنالهای فراصوت ، پاسخگویی فرکانسی ۹۹ درصد میکروفنها در محدوده ۲۰ هرتز تا ۲۰ کیلوهرتز است و عملا فرکانسهای فراصوت توسط این میکروفن ها قابل ضبط نمی باشند.
تستهای دقیق در آزمایشگاههای مجهز، مشخص نموده که استفاده از نرخ نمونهبرداری بالاتر باعث ایجاد دیستورشن در مبدل آنالوگ به دیجیتال میشود و محققان بر اینباورند که این دیستورشن سبب ایجاد تغییری ناچیز ولی محسوس در صدای ضبط شده با نرخ نمونه برداری بالاتراز ۶۴ کیلوهرتز است و به مذاق عده ای از صدابرداران خوش می آید.
دلیل ایجاد این دیستورشن در سرعتهای بالای نمونهبرداری، به مباحث الکترونیکی از جمله زمان لازم برای شارژ و دشارژ خازنها بر میگردد که خارج از موضوع بحث ماست.
بررسی نظریه دوم:
از آنجا که عملا در هنگام ضبط فرکانسی بالاتر از حدود ۲۰ کیلوهرتز ضبط نمی شود(توضیح شماره یک)، طبق قانون علمی نیکوییست نرخ نمونه برداری۴۴۱۰۰ به طور کامل محدوده شنوایی را پوشش داده و نیازی به سمپل ریت بالاتر نیست.
بررسی نظریه سوم:
این مورد در مبدلهای قدیمیتر که از فیلتر آنالوگ بهره می بردند توسط آزمایش های علمی به اثبات رسیده است البته در صورت طراحی صحیح و استفاده از قطعات با کیفیت که معمولا باعث گران شدن قیمت محصول می شد، فیلتر در فرکانس ۴۴۱۰۰ هم پاسخ قابل قبولی داشت.
بسیاری از مبدلهای امروزی برای رفع مشکل aliasing filter از روشی به نام Oversampling استفاده می کنند وطی آن با نرخ نمونهبرداری بسیار بالاتر از نرخ نمونهبرداری که شما بر روی دستگاه تعیین کردید (۳۲، ۶۴ و یا ۱۲۸ برابر) از سیگنال نمونهبرداری میشود و سپس aliasing filter متناسب با نرخ نمونهبرداری انتخابی شما به صورت دیجیتال(نه آنالوگ) بر روی سیگنال اعمال میشود. در هنگام باز پخش سیگنال ( تبدیل دیجیتال به آنالوگ) هم ابتدا over sampling انجام میپذیرد و بعد از اعمال فیلتر متناسب با نرخ نمونهبرداری انتخابی شما سیگنال دیجیتال به آنالوگ تبدیل میشود.
به عنوان مثال فرض می کنیم نرخ نمونهبرداری کارت صدای خود را روی ۴۴۱۰۰ تنظیم کردهایم و قصد ضبط صدای خواننده را داریم . کارت صدای ما بسته به مدل ، سمپل ریت تعیین شده توسط ما را در ۳۲ ، ۶۴ و یا ۱۲۸ ضرب میکند و صدای خواننده را با این سمپل ریت بسیار بالا از آنالوگ به دیجیتال تبدیل کرده و بعد از اعمال aliasing filter مجدد فرکانس را به ۴۴۱۰۰ تقلیل میدهد. در هنگام پخش صدای ضبط شده خواننده، ابتدا سمپل ریت را مجدد بالا میبرد و بعد از اعمال فیلتر پایین گذر دیجیتال و متناسب با سمپلریت انتخابی ما در نرمافزار جهت پخش، سیگنال را به آنالوگ تبدیل می کند.
با این روش( استفاده از تکنیک over sampling) عملا فضای لازم بین حد بالای فرکانس قابل شنیدن (حدود ۲۰ کیلوهرتز) و بالاترین فرکانس فرا صوت نمونهبرداری شده توسط مبدل، جهت اعمال یک فیلتر پایین گذر (aliasin filter) با شیب کم فراهم میآید.
با توجه به مطالب فوق مشخص میشود که انتخاب سمپل ریت پایینتر یا بالاتر در مبدلهای امروزی تاثیری در کیفیت عملکرد aliasing filter و در نتیجه ضبط صدا ندارد.
بررسی نظریه چهارم:
مورد ۴ از نظر علمی به اثبات رسیده است. به طور کلی تمامی پروسسهایی نظیر compression, Equalization, distortion و غیره که موجب ایجاد فرکانسهای هارمونیک جدید میشوند ، جهت دستیابی به کیفیت بهتر پردازش و کاهش اعوجاج ناشی از پردازش، نیازمند نرخ نمونهبرداری بالاتر هستند. اساسا در پردازش سیگنال به دلیل جابجایی و تغییر مقادیر سمپلها هرچه تعداد نقاط سمپلگیری از یک سیگنال بیشتر باشد پردازش دقیقتر و با درصد اعوجاج کمتر انجام میپذیرد .
نتیجه گیری
بهترین سمپل ریت کدام است؟
از مجموع مباحث فوق که البته به اختصار مطرح شد میتوان به این نتیجهگیری رسید که در سیستمهای پیشرفته امروزی، جهت ضبط دیجیتال صدا، سمپل ریت ۴۴۱۰۰ هرتز و یا 48000 هرتز (در صورتی که صدا برای ویدئو ضبط میشود)، کاملا کفایت میکند . جهت پخش موسیقی، سمپل ریت تا فرکانس ۹۶ کیلوهرتز قابل قبول اما غیرضروری و جهت پردازش سیگنال استفاده از نرخهای نمونهبرداری بالاتر سبب افزایش کیفیت کار خواهد شد.
نکته دیگر در بحث استفاده از سمپل ریتهای بالاتر، قدرت کامپیوتر مورد استفاده است . میزان مصرف CPU و همچنین فضای لازم جهت ذخیرهسازی اطلاعات با دوبرابر شدن سمپل ریت، دوبرابر میشود و این میزان فشار بر سیستم در سیستمهای نه چندان پرقدرت، عملا مشکلات عدیدهای را برای کاربر ایجاد خواهد کرد. علاوه بر این، بسیاری از پلاگینها و نرمافزارهای جانبی در سمپل ریتهای بالا مثل ۱۷۶ و۱۹۲ دچار مشکل شده و از طرف دیگر تعداد ورودیهای سختافزاری در اکثر کارتهای صدا، با افزایش سمپلریت کاهش مییابد.
با توجه به جمیع جهات و مطالبی که در ابتدا مطرح شد، به جز در مرحله میکسومسترینگ، استفاده از سمپلریت بالاتر از 44.1 و یا 48 کیلوهرتز مقرون به صرفه و توجیهپذیر نبوده و نتایج منفی آن بسیار بیشتر از نتایج مثبت آن(در صورت وجود !!!) خواهد بود.
برای مطالعه بیشتر میتوانید به این لینک مراجعه فرمایید.