ضبط صدای دیجیتال چیست؟

ضبط صدای دیجیتال یا Digital Sound Recording

صدا نوسان فشار هوا است. صدای دیجیتالی شده یک گراف از تغییرات فشار هوا در طول زمان است. برای اینکه بتوان این موضوع را بهتر درک کرد، با استفاده از sound Recorder در سیستم عامل ویندوز صدایی کوتاه ضبط کرده و به تغییر نوسان نوار سبز رنگ توجه کنید. وقتی که این نوار تا انتها پر می‌شود نشان دهنده‌ي زیاد بودن فشار هوا است که گوش‌ها قادر به شناسایی بلندی صدا خواهند بود و زمانی که این نوار در وسط و رو به پایین باشد، تغییری در فشار هوا ایجاد نشده است.

تبدیل صدای آنالوگ به دیجیتال

یکی از توابع اصلی موجود در کارت صدا(واسط‌های صدا) تبدیل کردن فرمت آنالوگ به دیجیتال است. موج صدا دارای اطلاعاتی بی‌نهایت از جمله گام‌ها، حجم صدا و مدت‌زمان پخش است. کامپیوترها توانایی پردازش این اطلاعات بی‌نهایتی را ندارند، بنابراین سیگنال صدا باید قبل از اینکه از آن استفاده شود به فرمتی که برای کامپیوتر قابل درک است تبدیل شود.

در هنگام تبدیل کردن سیگنال از آنالوگ به دیجیتال واسط صدا یا کارت صدا، بالا یا پایین بودن کیفیت صدا را با استفاده از نرخ نمونه‌برداری و کنترل فرمت نمونه‌برداری تشخیص می‌دهد. با بزرگ‌تر شدن مقدار داده‌ي صدا، کارت صدا بهتر می‌تواند سیگنال اصلی که از میکروفن دریافت می‌شود را تقريب بزند. در ادامه مفاهیم نرخ نمونه‌برداری و فرمت نمونه‌برداری که اجزای اصلی در تشخیص کیفیت صدا هستند را توضیح خواهیم داد. به‌عنوان مثال، یک واسط صدا که در داخل مادربردهای امروزی تعبیه می‌شود ممکن است از انواع فرمت‌های نمونه‌برداری و نرخ‌های نمونه‌برداری (مانند 24/192) پشتیبانی کند اما دلیل بر خوب بودن نمی‌شود. در سطح حرفه‌ای، با اتصال FireWire به یک واسط صدا با فرمت نمونه‌برداری 16 بیتی و نرخ نمونه‌برداری 44.1 کیلوهرتزی که استاندارد است می‌توانيم صدای بهتری داشته باشیم.

نمونه‌برداری

زمانی که صدایی به وسیله‌ي میکروفن ضبط می‌شود، میکروفن نوسان فشار هوا را به نوسانات ولتاژ برق تبدیل می‌کند که کارت صدا هر از چندگاه (در بازه‌اي مشخص) آن را اندازه گرفته و به عدد تبدیل می‌کند این عمل با نام نمونه‌برداری شناخته می‌شود. زمانی که صدایی (خواننده یا یک ابزار آکوستیکی) پخش می‌شود، پردازش بصورت معکوس عمل خواهد کرد، به این صورت که نوسان ولتاژ بجای میکروفن به پخش‌کننده‌ها (بلندگو) می‌رود و توسط مخروط بلندگوها به فشار هوا تبدیل شده که قابل شنیده شدن است.

نمونه‌برداری یکی از واحدهای مهم داده در صدا است. برای درک بهتر این مفهوم از مثال تصویر که محسوس‌تر است استفاده می‌کنیم، در سیستم‌های کامپیوتری داده‌های تصویر (مانند فیلم) به شکل سریالی از تصاویر ذخیره می‌‌شوند که با نام فریم خوانده می‌شود و آن‌ها را یکی پس از دیگری نمایش می‌دهند و با نرخی از پیش تعیین‌شده به نام نرخ فریم می‌توان آن را تغییر داد. در سیستم‌های کامپیوتری داده‌ي صدا هم بصورت سریالی از صدا با نام sampleذخیره می‌شود و آن‌ها را یکی پس از دیگری با نرخی از پیش تعیین‌شده به نام نرخ نمونه‌برداری مي‌توان پخش كرد.

نرخ نمونه‌برداری

به سرعتی که صدا را از ولتاژها نمونه‌برداری می‌کند نرخ نمونه‌بردای گفته می‌شود و با واحد کیلوهرتز kHz بیان می‌شود. یک کیلوهرتز شامل هزار نمونه در ثانیه است. نرخ نمونه‌برداری به تعداد نمونه‌های پخش‌شده در هر ثانیه گفته می‌شود. نرخ نمونه‌برداری که برروی CDهای صوتی استفاده می‌شود 44.1 یا 44100 است که هر دو دارای یک معنی هستند. نرخ‌های نمونه‌برداری معمولاً 44.1، 48 و 96 است. نرخ‌های نمونه‌برداری دیگری مانند 22 و 88.2 و 192 هم وجود دارندکه زیاد عمومی نیستند.

از آنجایی که بازه‌ي شنوایی انسانبین 20 تا Hz 20000 است بنابراین زمانی که در حال ضبط موسیقی یا موارد آکوستیکی هستیم، بهترین نرخ نمونه‌برداری موج صوت 44.1، 48، 88.2 یا 96 kHz خواهد بود. توجه به این نکته لازم است که نمونه‌برداری با نرخی بیش از 50 یا 60 KHz نمی‌تواند حامل اطلاعات مفیدی برای شنونده‌ي انسانی باشد. به همین دلیل تولیدکنندگان حرفه‌ای تجهیزات صوتی از نرخی در محدوده‌ي 50kHzاستفاده می‌کنند.

فرمت نمونه‌برداری

فرمت نمونه‌برداری یا عمق بیت یا بیت در هر نمونه به تعداد بیت‌های استفاده شده جهت توضیح هر نمونه گفته می‌شود. با بزرگ‌تر شدن تعداد بیت‌ها، داده‌ي بیشتری در هر نمونه ذخیره خواهد شد. فرمت نمونه‌برداری معمولاً 16 بیت و 24 بیت است. نمونه‌هاي 8 بیتی کیفیت بسیار پایین دارند و معمولاً در مودم‌ها استفاده می‌شدند، نمونه‌های 32 بیتی هم موجود هستند اما در بیشتر واسط‌های صوتی پشتیبانی نمی‌شوند.

نرخ بیت

نرخ بیت به تعداد بیت‌ها یا مقدار داده‌ای برمی‌گردد که در یک بازه‌ي زمانی مشخصی پردازش می‌شود و در حوزه‌ي صدا با واحد کیلوبیت در هر ثانیه (یا kb/s kbps) اندازه‌گیری می‌شود. به‌عنوان مثال، به موسیقی که گوش می‌دهید دارای 256 کیلوبیت در ثانیه باشد، به این مفهوم است که در هر ثانیه از موسیقی 256 کیلوبیت داده ذخیره‌شده است. برای اینکه بتوانیم یک فایل را انتقال دهیم به نرخ بیت که بیان‌کننده‌ي مقدار داده‌ي مورد نیاز در هر ثانیه است نیاز داریم.

نحوه‌ي محاسبه‌ي نرخ بیت هم برابر است با ضرب نرخ نمونه‌برداری در فرمت نمونه‌برداری در تعداد کانال‌ها. به عنوان مثال، نرخ بیت CD های صوتی (705.6 kb/s) در حالت تک کاناله است که حاصل ضرب نرخ نمونه‌برداری (44.1 kHz) ‌در فرمت نمونه‌برداری (16 بیت) است. به عنوان مثال فرمت فایل mp3 هم بطور معمول با نرخ بیت kb/s128 فشرده می‌شود.

کانال صدا

گوش انسان صدا را به شکل استریو می‌شنود و مغز انسان با استفاده از تفاوت‌های ریزی که در ورودی صدای چپ با راست وجود دارد می‌توان محل انتشار صدا در محیط را تشخیص داد. برای اینکه در صدای دیجیتال نیز بتوانیم این امکان را داشته باشیم در هنگام ضبط و پخش به شکل استریو به دو کانال صدا احتیاج داریم.

نکته: تمام ضبط‌های صدای استریو به دو کانال احتیاج دارند اما لزوماً تمام ضبط‌هايي كه با دو کانال انجام مي‌شوند استریو نیست. به عنوان مثال، زمانی که از میکروفون تک کپسوله برای ضبط بر روی دو کانال استفاده می‌کنید، نتیجه‌ي نهایی استریو واقعی نیست بلکه مونوی دو کاناله است. در حقیقت صدای ضبط‌شده‌ي تک کاناله‌ای است که بر روی دو کانال کپی شده است.