سمپل ریت (sample rate) صدای دیجیتال چیست؟

سرمد دهنادی
به روز شده در ۲۵ فروردین ۱۴۰۳

یکی از ابتدایی‌ترین و در عین حال پر مناقشه‌ترین مباحث مربوط به آموزش میکس و مسترینگ، مبحث سمپل ریت یا همان sample rate است. در این مقاله به طور کاملا علمی و نه بر طبق نظرات شخصی مهندسین صدا، تمامی زوایای تاریک این مبحث را برای علاقه‌مندان توضیح خواهم داد. این مقاله صرفا به مبحث سمپل ریت می‌پردازد و مسائل مربوط به bit depth در مقاله‌های بعدی مورد بررسی قرار خواهد گرفت.

سمپل ریت به زبان ساده

صدایی که می‌شنویم عبارت است ازیک سری ارتعاشات منظم در بازه زمان. تعداد این ارتعاشات در یک ثانیه فرکانس نامیده می‌شود. مثلا اگر تعداد ارتعاشات یک سیگنال در یک ثانیه عدد ۶ باشد می‌گوییم فرکانس آن سیگنال ۶hz است. (شکل یک)

برای ضبط صدا به صورت دیجیتال لازم است به صورت منظم از سیگنال نمونه برداری شود و این نمونه برداری به گونه‌ای باشد که در باز پخش سیگنال ضبط شده، شکل موج سیگنال تغییر نکند. به عنوان مثال برای اینکه سیگنال مثال بالا بعد از تبدیل شدن به دیجیتال به درستی باز پخش شود لازم است دوازده بار مورد نمونه برداری قرار بگیرد. این عدد ۱۲ همان سمپل ریت مناسب برای مثال بالاست (‌شکل دو‌).

به عبارت دیگر :

سمپل ریت عبارت است از تعداد دفعات نمونه برداری از سیگنال در یک ثانیه.

قانون نیکوئیست

با دقت در مثال بالا متوجه می‌شویم حداقل مقدار سمپل ریت لازم جهت ضبط دقیق سیگنال باید دو برابر فرکانس سیگنال باشد. این قانون را نخستین بار Harry Niquist و Claude Shannon کشف کردند و به قانون نیکوییست – شنُن مشهور شد. طبق این قانون برای ضبط یک سیگنال به طریقه دیجیتال، سمپل ریت باید حداقل دوبرابر بالاترین فرکانس موجود در سیگنال باشد. مثلا اگر سیگنال شما در بازه‌ای بین ۱۰hz تا ۱۰۰hz باشد ، سمپل ریت لازم برای ضبط درست این سیگنال باید دوبرابر بالاترین فرکانس موجود در سیگنال یعنی ۲۰۰hz باشد.

سمپل ریت و صدا

صدایی که می شنویم دارای فرکانسی بین 20 هرتز تا 20 کیلوهرتز (20 هزار هرتز) است. البته در عمل کمتر کسی قادر به شنیدن اصواتی با فرکانس بالای ۱۵khz است . میزان شنوایی انسان با افزایش سن کاهش می‌یابد به طوری که در کودکی فرکانس‌های بالای ۱۵khz قابل شنیدن تر هست تا در بزرگسالی.

بالاترین فرکانسی که در بازه فرکانسی صدا تعریف می‌شود 20 کیلوهرتز یا ۲۰۰۰۰hz است از این رو طبق قانون بالا سمپل ریت لازم جهت ضبط صدا باید 40 هزار هرتز (۴۰khz) باشد . حال آنکه در عمل این عدد در تمامی نرم‌افزارها و سخت افزار‌ها و حتی استاندارد سی دی صوتی 44100 هرتز است . حال سوال این است چرا ۴۱۰۰hz بیشتر ؟ برای یافتن پاسخ این سوال، توضیح زیر ضروریست.

خطای aliasing

گفتیم برای ضبط سیگنال ، نرخ نمونه برداری باید حد اقل دو برابر بالاترین فرکانسی باشد که قصد ضبطش را داریم از این رو قبل از عمل نمونه برداری از سیگنال(سمپلینگ) لازم است دامنه فرکانسی سیگنال مورد نظر را محدود کنیم تا فرکانسی بالاتر از فرکانس ماکسیمم مد نظر ما وارد مدار نمونه بردار نشود. مثلا در مورد صدا چون بازه مطلوب ما ۲۰hz تا ۲۰khz است، باید از فیلتری استفاده کنیم که در عمل اجازه وارد شدن فرکانس‌های بالاتر از ۲۰khz را به مدار مبدل آنالوگ به دیجیتال (AD converter) ندهد. این فیلتر، فیلتر Aliasing نامیده می‌شود.

چون سمپل ریت بر اساس بالاترین فرکانس مطلوب ما انتخاب می‌شود در صورتی که از این فیلتر استفاده نشود، فرکانس های بالاتر از فرکانس مطلوب ما وارد مدار شده و چون در این حالت سمپل ریت کمتر از دوبرابر این فرکانس‌های نامطلوب است ،این فرکانس‌ها به غلط توسط مدار نمونه‌بردار به صورت فرکانس‌های پایین تشخیص داده می‌شوند که باعث افت کیفیت و ورود دیستورشن به سیگنال ضبط شده خواهد شد.

مثال عینی این پدیده زمانی است که شما به چرخ های یک اتومبیل در حال حرکت نگاه می‌کنید. تا وقتی اتومبیل به سرعتی مشخص نرسیده شما چرخش لاستیک ها را به سمت جلو می‌بینید چرا که هنوز فرکانس نمونه برداری دوربین یا چشم شما برای آن سرعت مناسب است . وقتی اتومبیل به سرعتی مشخص رسید شما ناگهان احساس می‌کنید چرخ ها ثابتند و همزمان با سرعت گرفتن بیشتر خودرو شما حس می‌کنید چرخ ها به سمت عقب در حال چرخشند. حال آنکه این خطای دید شماست و دلیل آن کمتر بودن سرعت نمونه برداری دوربین یا چشم شما نسبت به سرعت چرخ است. این دقیقا همان خطایی است که در ضبط صدا نیز می‌تواند روی دهد البته در صورت عدم استفاده از فیلتر Aliasing .

فیلتر aliasing

فیلتری که برای این منظور استفاده می شود از نوع فیلتر های پایین گذر می باشد و اگر چه یک فیلتر پایین گذر ایده آل در تئوری قابلیت حذف سیگنال بالا تر از ۲۰khz و نگه داشت سیگنال ۲۰khz به پایین را داراست، در عمل جهت حذف رزونانس در فرکانس برش و ارزانتر شدن طراحی فیلتر، شیب برش را کمتر در نظر گرفته و عمل فیلترینگ در طول بازه ای از فرکانس اعمال می شود.

طبق محاسبات علمی که خارج از حوصله ای مقاله است، حد اقل بازه فرکانسی لازم جهت طراحی فیلتری که هم از نظر کیفیت و هم هزینه قابل قبول باشد ۲khz می باشد که در نتیجه برای دستیابی به این بازه اضافه در حد بالایی سیگنال صوتی، لازم است عمل نمونه برداری به جای ۲۰khz تا ۲۲khz انجام شود وطبق قانون نیکوییست اگر حد اکثر فرکانس ۲۲khz باشد نرخ نمونه برداری باید حد اقل دو برابر یعنی ۴۴khz باشد. به این ترتیب فیلتر ما تا فرکانس ۲۰khz را به راحتی از خود عبور داده و از ۲۰khz تا ۲۲khz سیگنال را باشیب ملایم تضعیف کرده تا جایی که از فرکانس ۲۲khz به بعد هیچ سیگنالی از فیلتر عبور نخواهد کرد.

تا اینجا به نرخ نمونه برداری ۴۴۰۰۰hz رسیدیم . دلیل آن ۱۰۰hz بیشتر را نیز باید به طور خلاصه در تلاش برای سازگاری این فرمت با فرمت های تصویری PAL وNTSC جستجو کرد که بحث در این مورد خارج از موضوع این مقاله است.*

با مطالعه موارد بالا دلیل انتخاب نرخ نمونه برداری ۴۴۱۰۰hz به عنوان مرجع مشخص می شود و نیز روشن می شود که این نرخ نمونه برداری توانایی ضبط فرکانس هایی تا ۲۲۰۵۰hz را دارا می باشد حال آنکه بالاترین فرکانس در محدوده اصوات ۲۰۰۰۰hz است که آن هم برای ۹۹ درصد افراد قابل شنیدن نیست. پس به صورت کاملا علمی ثابت می شود که نرخ نمونه برداری ۴۴٫۱ khz تمامی رنج شنوایی انسان و حتی فراتر را پوشش می دهد.

سوال اصلی اینجاست که با وجود کافی بودن این نرخ نمونه بردداری ، علت وجود سرعت های بالاتر نمونه برداری چیست و آیا اصولا نیازی به نرخ نمونه برداری سریعتر وجود دارد؟ به بیان دیگر، آیا نرخ های نمونه برداری بالاتر تاثیری در کیفیت ضبط اصوات دارند یا خیر؟

انتخاب سمپل ریت مناسب

وقتی در آموزش میکس و مسترینگ صحبت از نرخ نمونه‌برداری به میان می آید بیشترین بحث و جدل پیرامون انتخاب نرخ نمونه‌برداری مناسب شکل میگیرد. عده‌ای بر این باورند که استفاده از نرخ نمونه‌برداری بالاتر سبب افزایش کیفیت سیگنال میشود و عده‌ای دیگر بر روی قانون نیکوییست پا‌فشاری کرده و استفاده از نرخ‌های نمونه‌برداری بالاتر را بیهوده تلقی می‌نمایند. در این بخش سعی کردم تمامی زوایای مربوط به این بحث را بررسی و در نهایت به یک نتیجه‌گیری علمی برسیم.

ابتدا باید به این نکته اشاره کرد که زمانی که در مورد استفاده از نرخ‌های نمونه‌برداری بالاتر صحبت می شود باید ابتدا مشخص شود نرخ نمونه‌برداری بالاتر در مرحله ضبط استفاده می شود یا در مرحله پخش و یا در حین عمل پردازش دیجیتال. چراکه طبق مشاهدات علمی این سه مورد دارای تفاوت می باشند.

سمپل ریت‌های استاندارد

۴۴٫۱khz : جهت CDصوتی و VCD,SVCD و MP3

۴۸khz : برای تجهیزات حرفه‌ای ویدیویی، DVD و تلویزیون دیجیتال

۸۸٫۲khz : مورد استفاده دربعضی تجهیزات حرفه‌ای در هنگامی که فرمت نهایی CD صوتی می باشد.

۹۶khz : جهت استفاده در DVD صوتی و تصویری و Blue ray

۱۷۶٫۴khz : مورد استفاده دربعضی تجهیزات حرفه‌ای درهنگامی که فرمت نهایی CD صوتی می باشد.

۱۹۲khz : جهت استفاده در DVD صوتی و تصویری و Blue ray

۳۸۴khz : جهت استفاده در بعضی نرم‌افزارهای ادیت صوتی

تاثیر سمپل ریت بالاتر بر روی کیفیت صدا

نظریه اول

ضبط صدا با نرخ نمونه‌برداری بالاتر باعث ضبط فرکانس‌های فرا‌صوت می شود و گرچه این فرکانس‌ها توسط گوش شنیده نمی شود اما به صورت نا‌محسوس سبب گرم‌تر شدن سیگنال ضبط شده می گردد. بررسی…

نظریه دوم

ضبط صدا با نرخ نمونه‌برداری بالاتر به جهت افزایش تعداد نقاط نمونه‌برداری از سیگنال، سبب میشود سیگنال ضبط شده دارای دقت بالاتری نسبت به اصل سیگنال باشد. بررسی…

نظریه سوم

استفاده از نرخ نمونه‌برداری بالاتر در هنگام ضبط و پخش به دلیل استفاده ازaliasing filter با شیب کمتر سبب بهبود کیفیت سیگنال و کاهش اثرات ناخواسته این فیلتر بر روی فرکانس‌های محدوده شنوایی می شود. بررسی…

نظریه چهارم

استفاده از افکتهای صوتی در نرخ نمونه‌برداری بالاتر باعث بالاتر رفتن کیفیت و کاهش دیستورشن ناشی از فرایند می شود. بررسی…

بررسی نظریه‌های مربوط به سمپل ریت بالاتر

بررسی نظریه اول:

این مورد به طور کامل مردود است زیرا بر فرض توانایی مبدل آنالوگ به دیجیتال برای ضبط سیگنال‌های فراصوت ، پاسخگویی فرکانسی ۹۹ درصد میکروفن‌ها در محدوده ۲۰ هرتز تا ۲۰ کیلوهرتز است و عملا فرکانس‌های فراصوت توسط این میکروفن ها قابل ضبط نمی باشند.

تست‌های دقیق در آزمایشگاه‌های مجهز، مشخص نموده که استفاده از نرخ نمونه‌برداری بالاتر باعث ایجاد دیستورشن در مبدل آنالوگ به دیجیتال می‌شود و محققان بر این‌باورند که این دیستورشن سبب ایجاد تغییری ناچیز ولی محسوس در صدای ضبط شده با نرخ نمونه برداری بالاتراز ۶۴ کیلوهرتز است و به مذاق عده ای از صدابرداران خوش می آید.

دلیل ایجاد این دیستورشن در سرعت‌های بالای نمونه‌برداری، به مباحث الکترونیکی از جمله زمان لازم برای شارژ و دشارژ خازن‌ها بر می‌گردد که خارج از موضوع بحث ماست.

بررسی نظریه دوم:

از آنجا که عملا در هنگام ضبط فرکانسی بالاتر از حدود ۲۰ کیلوهرتز ضبط نمی شود(توضیح شماره یک)، طبق قانون علمی نیکوییست نرخ نمونه برداری۴۴۱۰۰ به طور کامل محدوده شنوایی را پوشش داده و نیازی به سمپل ریت بالاتر نیست.

بررسی نظریه سوم:

این مورد در مبدل‌های قدیمی‌تر که از فیلتر آنالوگ بهره می بردند توسط آزمایش های علمی به اثبات رسیده است البته در صورت طراحی صحیح و استفاده از قطعات با کیفیت که معمولا باعث گران شدن قیمت محصول می شد، فیلتر در فرکانس ۴۴۱۰۰ هم پاسخ قابل قبولی داشت.

بسیاری از مبدل‌های امروزی برای رفع مشکل aliasing filter از روشی به نام Oversampling استفاده می کنند وطی آن با نرخ نمونه‌برداری بسیار بالاتر از نرخ نمونه‌برداری که شما بر روی دستگاه تعیین کردید (۳۲، ۶۴ و یا ۱۲۸ برابر) از سیگنال نمونه‌برداری می‌شود و سپس aliasing filter متناسب با نرخ نمونه‌برداری انتخابی شما به صورت دیجیتال(نه آنالوگ) بر روی سیگنال اعمال می‌شود. در هنگام باز پخش سیگنال ( تبدیل دیجیتال به آنالوگ) هم ابتدا over sampling انجام می‌پذیرد و بعد از اعمال فیلتر متناسب با نرخ نمونه‌برداری انتخابی شما سیگنال دیجیتال به آنالوگ تبدیل می‌شود.

به عنوان مثال فرض می کنیم نرخ نمونه‌برداری کارت صدای خود را روی ۴۴۱۰۰ تنظیم کرده‌ایم و قصد ضبط صدای خواننده را داریم . کارت صدای ما بسته به مدل ، سمپل ریت تعیین شده توسط ما را در ۳۲ ، ۶۴ و یا ۱۲۸ ضرب می‌کند و صدای خواننده را با این سمپل ریت بسیار بالا از آنالوگ به دیجیتال تبدیل کرده و بعد از اعمال aliasing filter مجدد فرکانس را به ۴۴۱۰۰ تقلیل می‌دهد. در هنگام پخش صدای ضبط شده خواننده، ابتدا سمپل ریت را مجدد بالا می‌برد و بعد از اعمال فیلتر پایین گذر دیجیتال و متناسب با سمپلریت انتخابی ما در نرم‌افزار جهت پخش، سیگنال را به آنالوگ تبدیل می کند.

با این روش( استفاده از تکنیک over sampling) عملا فضای لازم بین حد بالای فرکانس قابل شنیدن (حدود ۲۰ کیلوهرتز) و بالاترین فرکانس فرا صوت نمونه‌برداری شده توسط مبدل، جهت اعمال یک فیلتر پایین گذر (aliasin filter) با شیب کم فراهم می‌آید.

با توجه به مطالب فوق مشخص می‌شود که انتخاب سمپل ریت پایین‌تر یا بالاتر در مبدل‌های امروزی تاثیری در کیفیت عملکرد aliasing filter و در نتیجه ضبط صدا ندارد.

بررسی نظریه چهارم:

مورد ۴ از نظر علمی به اثبات رسیده است. به طور کلی تمامی پروسس‌هایی نظیر compression, Equalization, distortion و غیره که موجب ایجاد فرکانس‌های هارمونیک جدید میشوند ، جهت دستیابی به کیفیت بهتر پردازش و کاهش اعوجاج ناشی از پردازش، نیازمند نرخ نمونه‌برداری بالاتر هستند. اساسا در پردازش سیگنال به دلیل جابجایی و تغییر مقادیر سمپل‌ها هرچه تعداد نقاط سمپل‌گیری از یک سیگنال بیشتر باشد پردازش دقیق‌تر و با درصد اعوجاج کمتر انجام می‌پذیرد .

نتیجه گیری

بهترین سمپل ریت کدام است؟

از مجموع مباحث فوق که البته به اختصار مطرح شد می‌توان به این نتیجه‌گیری رسید که در سیستم‌های پیشرفته امروزی، جهت ضبط دیجیتال صدا، سمپل ریت ۴۴۱۰۰ هرتز و یا 48000 هرتز (در صورتی که صدا برای ویدئو ضبط می‌شود)، کاملا کفایت می‌کند . جهت پخش موسیقی، سمپل ریت تا فرکانس ۹۶ کیلو‌هرتز قابل قبول اما غیر‌ضروری و جهت پردازش سیگنال استفاده از نرخ‌های نمونه‌برداری بالاتر سبب افزایش کیفیت کار خواهد شد.

نکته دیگر در بحث استفاده از سمپل ریت‌های بالاتر، قدرت کامپیوتر مورد استفاده است . میزان مصرف CPU و همچنین فضای لازم جهت ذخیره‌سازی اطلاعات با دو‌برابر شدن سمپل ریت، دو‌برابر می‌شود و این میزان فشار بر سیستم در سیستم‌های نه چندان پر‌قدرت، عملا مشکلات عدیده‌ای را برای کاربر ایجاد خواهد کرد. علاوه بر این، بسیاری از پلاگین‌ها و نرم‌افزار‌های جانبی در سمپل ریت‌های بالا مثل ۱۷۶ و۱۹۲ دچار مشکل شده و از طرف دیگر تعداد ورودی‌های سخت‌افزاری در اکثر کارت‌های صدا، با افزایش سمپل‌ریت کاهش می‌یابد.

با توجه به جمیع جهات و مطالبی که در ابتدا مطرح شد، به جز در مرحله میکس‌و‌مسترینگ، استفاده از سمپل‌ریت بالاتر از 44.1 و یا 48 کیلوهرتز مقرون به صرفه و توجیه‌پذیر نبوده و نتایج منفی آن بسیار بیشتر از نتایج مثبت آن(در صورت وجود !!!) خواهد بود.

برای مطالعه بیشتر می‌توانید به این لینک مراجعه فرمایید.

دوره جامع تولید موسیقی

آموزش ساخت اولین ملودی تا تنظیم و مسترینگ حرفه‌ای به صورت مرحله به مرحله

ثبت نام رایگان