فشرده‌سازی داده‌های صوتی

از ویکی‌پدیا، دانشنامهٔ آزاد
پرش به: ناوبری، جستجو

نوعی از فشرده‌سازی داده‌است که به منظور کاهش اندازه فایل‌های صوتی طراحی شده‌است. الگوریتم‌های فشرده‌سازی صوتی در نرم‌افزارهای کامپیوتری تحت عنوان رمزگذارهای صوتی(audio codecs) اجرا می‌شوند. نوعی الگوریتم‌های فشرده‌سازی صوتی عملکرد ضعیفی در برابر داده‌های صوتی دارند و به ندرت کاهش اندازه فایل به میزان کمتر از ۸۷٪ اندازه فایل اصلی می‌رسد و برای استفاده در زمان کنونی طراحی نشده‌اند. در نتیجه الگوریتم‌های بدون اتلاف و پراتلاف صوتی خاصی ایجاد شده‌اند. الگوریتم‌های پراتلاف ضریب تراکم بیشتری را فراهم می‌کنند و در وسایل صوتی اصلی مصرف‌کنندگان استفاده شده‌اند. همچون فشرده‌سازی عکس، در فشرده‌سازی صوتی هم از هر دو روش بدون اتلاف و پراتلاف استفاده می‌شود، اما پراتلاف برای مصارف روزانه رایج‌تر است. در هر دو روش فشرده‌سازی‌بدون اتلاف و پراتلاف با استفاده از روش‌هایی مثل کدگذاری، شناسایی الگو و محاسبه خطی برای کاهش مقدار اطلاعات استفاده شده برای توصیف داده‌ها افزونگی(redundancy) اطلاعات کاهش می‌یابد.

فشرده‌سازی بدون اتلاف صوت[ویرایش]

از زمانی که ذخیره‌ساز فایل(file storage)و پهنای‌باند ارتباطات (communications bandwidth)ارزانتر و در دسترس

بیشتر قرار گرفته‌اندمحبوبیت فرمت‌های بدون اتلاف مثلMonkey's Audio،FLAC،Shorten بسرعت افزایش یافته‌است و مردم برای ذخیره‌کردن دایمی فایل‌های صوتی خود آنها را انتخاب می‌کنند. کاربران اولیه فشرده‌سازی بدون اتلاف مهندسین صدا، علاقه‌مندان به موسیقی و مشتریان آنها بودند که در مقایسه با تغییرات برگشت‌ناپذیر تکنیک‌های فشرده‌سازی پراتلاف ترجیح می‌دادند یک کپی دقیق از فایل‌های صوتی خود داشته‌باشند و از روش‌های بدون اتلاف استفاده می‌کردند. نرخ‌های فشرده‌سازی برای فشرده‌سازی بدون‌اتلاف داده‌هاهم مشابه با آنهاست(نزدیک به ۵۰-۶۰٪ اندازه اصلی). فرمت‌های بدون‌اتلاف مثل Dolby TrueHD بوسیله فرمت‌های high definition DVD معرفی‌شده‌اند.

ذخیره‌کردن تمام داده‌های درون یک رشته صوتی و دست‌یافتن به یک فشرده‌سازی اساسی بسیار دشوار است. ابتدا اینکه، اکثریت وسیع ضبط کننده‌های صدا بسیار پیچیده هستند چون از دنیای واقعی ضبط می‌کنند. یکی از روش‌های کلیدی فشرده‌سازی پیداکردن الگو و تکرار است، داده‌های با بی‌نظمی بیشتر مثل صوت نمی‌توانند بخوبی فشرده شوند. در وضعیت مشابه، عکس‌ها با روش‌های بدون‌اتلاف هم نسبت به عکس‌های کامپیوتری تولید شده کمتر فشرده می‌شوند. اما بطور قابل توجه حتی صداهای کامپیوتری تولیدشده هم می‌توانند شامل شکل‌موج‌های(waveform) بسیار پیچیده باشند تا مورد استفاده بسیاری از الگوریتم‌های فشرده‌سازی قرار بگیرند. ماهیت شکل‌موج‌های صداکه معمولاًساده‌کردن آنها (لزوماً پراتلاف) بدون اطلاعات فرکانسی مکالمه که به وسیله گوش انسان قابل تشخیص هستند دشوار است لازم می‌باشد.

ودلیل دوم هم این است که ارزش‌های الگوهای صوتی به سرعت تغییر می‌کنند بنابراین الگوریتم‌های فشرده‌سازی عمومی برای صوت، و رشته‌های بایتی متوالی که معمولاً مورد استفاده قرار نمی‌گیرند خوب عمل نمی‌کند. به‌هرحال حلقه بافیلتر [-۱ ۱] (که اولین متفاوت را می‌گیرد)دقت می‌کند تا کمی طیف را سفید کند(>decorrelate یا یکنواخت کند)بدین وسیله به رمزگشای فشرده‌سازی بدون اتلاف اجازه می‌دهد تا این کار را انجام دهد. کدگشایی به وسیله کدگشا(decoder)سیگنال اصلی را برمی‌گرداند. رمزگذارهایی مثل >FLAC, Shorten وTTA از پیش‌بینی خطی برای تخمین طیف سیگنال استفاده می‌کنند. در کدکننده، معکوس تخمین‌زننده برای یکدست کردن سیگنال بوسیله حذف نقاط ماکزیمم طیفی استفاده می‌شود در حالی که  به هنگام بازکردن کد تخمین‌زننده برای ساخت مجدد سیگنال اصلی استفاده می‌شود.

کدکننده‌های صوتی بدون اتلاف مشکل کیفیتی ندارند بنابراین قابلیت‌های استفاده از آنها می‌تواند پیش‌بینی شود به وسیله:

· سرعت فشرده‌سازی و بازکردن آن

· درجه فشرده‌سازی

· نرم‌افزار و سخت‌افزار حمایت‌کننده

· نیرومندی و تصحیح خطا

فشرده‌سازی صوتی پراتلاف[ویرایش]

فشرده‌سازی صوتی پراتلاف در محدوده وسیعی از برنامه‌های کاربردی بشدت استفاده می‌شود. به عبارت دیگر در استفاده مستقیم(mp3 playerها یا کامپیوترها)، رشته‌های صوتی دیجیتالی فشرده‌شده استفاده شده در اکثر DVDهای تصویری، تلویزیون‌های دیجیتال، رسانه‌های موجود در اینترنت، ماهواره و کابل رادیو و به صورت تصاعدی در خبرگزاری‌های رادیویی زمینی. فشرده‌سازی پراتلاف با دور انداختن داده‌های کم اهمیت به نحوی به فشردگی خیلی بیشتری نسبت به فشرده‌سازی بدون اتلاف دست می‌یابد(داده‌ها به ۵تا۲۰ درصد رشته اصلی کاهش می‌یابند در مقایسه با۵۰ تا۶۰درصد در بدون اتلاف).

نوآوری فشرده‌سازی صوتی پراتلاف این است که برای شناخت روح صوت (psychoacoustic) استفاده شود برای شناسایی داده‌هایی که درون رشته صوتی وجود دارند ولی نمی‌توانند توسط سیستم شنوایی انسان درک شوند. فشرده سازی پراتلاف به وسیله شناسایی صداهایی که فکر می‌کند نامربوط درک شده، صداهایی که شنیدن آنها بسیار دشوار است افزونگی دریافتی را کاهش می‌دهد. نمونه‌هایی شامل فرکانس‌های بالا یا صداهایی که هم زمان با صداهای بلندتر رخ می‌دهند یا اصلاً کد نمی‌شوند یا با دقت پایین کد می‌شوند. در حالی که کاهش یا حذف این صداهای «غیرقابل شنیدن» ممکن است درصد کمتری از بیت‌های ذخیره شده در فشرده سازی پراتلاف را باعث شوند، ذخیره سازی واقعی از تکمیل پدیده شکل دهی پارازیت حاصل می‌شود.

کاهش تعداد بیتهای استفاده شده در کد یک سیگنال مقدار پارازیت درون سیگنال را افزایش می‌دهد. در فشرده سازی براساس شناخت روح صوت (psychoacoustic کلید واقعی «مخفی کردن» پارازیت تولید شده توسط بیت‌های ذخیره شده در نواحی غیر قابل شنیدن رشته صوتی است. این امر با استفاده کردن از تعداد بسیار کم بیت‌ها برای کد کردن فرکانس‌های بالای بیشتر سیگنال‌ها نه برای اینکه سیگنال کمی اطلاعات فرکانسی بالا دارد (هرچند که این امراغلب درست است) بلکه بیشتر به این دلیل که گوش انسان تنها می‌تواند سیگنالهای خیلی بلند درون منطقه رادرک کند صورت می‌گیرد. بنابراین پارازیتهای صوتی نازک تر «مخفی شده»و بسادگی شنیده نمی‌شوند.

اگر با کاهش افزونگی دریافتی، فشردگی کافی برای کاربرد خاصی بدست نیامد ممکن است نیاز به فشردگی پراتلاف بیشتری داشته باشیم و باتوجه به فایل صوتی اصلی هنوز هم ممکن است تفاوت قابل درکی ایجاد نشود. به عنوان مثال یک سخنرانی می‌تواند بسیار بیشتر از موسیقی فشرده شود. اکثر برنامه‌های فشرده سازی پراتلاف اجازه می‌دهند تا پارامترهای فشرده سازی برای رسیدن به یک نرخ مورد نظر ازداده‌ها منطبق شوند که به آن نرخ بیت می‌گویند. کاهش داده‌ها ممکن است بوسیله برخی از مدل‌ها بسته به اینکه چقدر نحوه درک صدا بوسیله گوش انسان مهم است با هدف کار آمدی وبهینگی کیفیت برای نرخ داده مورد نظر عمل می‌کنند (مدلهای مختلفی برای این آنالیزهای ادراکی استفاده می‌شوند که برخی ازآنها برای انواع مختلف صدا نسبت به بقیه مناسب تر هستند) حتی، با توجه به پهنای باند و حافظه لازم، استفاده از فشرده‌سازی پراتلاف ممکن است در یک کاهش کیفیت صدا که محدوده آن از صفرتا بسیار زیاد است دیده شود اما معمولاًکاهش کیفیت آشکارا شنیدنی برای شنونده قابل قبول نیست.

با توجه به این که داده‌ها در طول فشرده‌سازی پراتلاف از دست می‌روند و بوسیله بازگشایی قابل برگشت نیستند بعضی از مردم برای آرشیو کردن فایل‌ها در حافظه ممکن است ترجیح دهند که از فشرده‌سازی پراتلاف استفاده نکنند. بااین وجود، حتی ممکن است کسانی که از فشرده‌سازی پراتلاف استفاده می‌کنند (برای استفاده‌های صوتی قابل حمل) بخواهند که یک نسخه بدون اتلاف آرشیوی برای سایر کاربردها حفظ کنند. به عبارت دیگر، تکنولوژی فشرده‌سازی برای دست یافتن به حالتی از هنر فشرده‌سازی پراتلاف که نیازی به فشرده‌سازی بدون اتلاف نداشته باشد به پیشرفت خود ادامه می‌دهد، تا داده‌های صوتی اصلی توسط کد گذار پراتلاف جدید فشرده شوند. طبیعتاً در فشرده‌سازی پراتلاف (هم برای صوت و هم عکس) اگر داده‌ها باز شوند و مجدداً به صورت پراتلاف فشرده شوند کاهش کیفیت بیشتری حاصل می‌شود.

روش‌های کد کردن[ویرایش]

روش‌های دگرگونی دامنه[ویرایش]

برای تصمیم گیری درباره اطلاعاتی در سیگنال صوتی که نامفهوم دریافت شده‌اند اکثرالگوریتم‌های فشرده‌سازی پراتلاف از تغییر شکل برای تبدیل دامنه زمانی شکل موج‌های نمونه گرفته شده به دامنه دگرگونی استفاده می‌کنند مثال: moditied discrete cosine transform

روش‌های دامنه زمانی[ویرایش]

نوعی دیگری از فشرده‌سازهای پراتلاف مثل کد کردن پیشگویانه خطی (به انگلیسی: (linear predictive coding (lpc)

کاربردها[ویرایش]

دراثرطبیعت الگوریتم‌های پراتلاف کیفیت صداوقتی که فایل فشرده می‌شود ودوباره باز می‌شود از دست می‌رود واین امر باعث می‌شود که فشرده‌سازی پراتلاف برای ذخیره کردن نتایج مداخله کننده در کاربردهای حرفه‌ای مهندسی صدامثل تدوین صداوضبط چند رسانه‌ای مناسب نباشد ولی به هر حال این روش‌ها در بین کاربران بسیار مطرح هستند (خصوصاً mp۳) که یک مگابایت آن می‌تواند یک دقیقه موسیقی با کیفیت کافی ذخیره کند.

کد کردن سخنرانی[ویرایش]

کدکردن‌سخنرانی یکی‌ازانواع‌مهم فشرده‌سازی‌داده‌های صوتی است. مدل‌های ادراکی برای تخمین آنچه که گوش انسان می‌تواند به صورت معمول بشنود استفاده می‌شوند که قدری با روش استفاده شده برای موسیقی متفاوت است این امر با ترکیب دو روش زیر صورت می‌گیرد:

۱. تنها با کد کردن صداهایی که با صوت یک انسان می‌توانند ایجاد شوند.

۲. دورریختن داه‌های اضافی درون یک سیگنال-- تنها نگهداری صداهای کافی برای ساخت مجدد «مفهوم» در مقایسه با محدوده کامل فرکانسی قابل شنیدن برای انسان

منابع[ویرایش]

http://en.wikipedia.org/wiki/Audio_data_compression