Ses verisi sıkıştırma

Ses verisi sıkıştırması (genellikle belirsiz bir şekilde kısaca ses sıkıştırması olarak anılır), veri azaltma (" kayıplı " algoritma ) veya veri sıkıştırma (" kayıpsız " algoritmadır).

Ses verisi sıkıştırması , dijital ses verilerinin boyutunu etkin bir şekilde azaltmak için özel veri sıkıştırma türlerini tanımlar . Diğer özel veri sıkıştırma türlerinde (özellikle video ve görüntü sıkıştırma ) olduğu gibi, bir indirgeme etkisi elde etmek için karşılık gelen sinyallerin belirli özellikleri çeşitli şekillerde kullanılır.

Bu sıkıştırma türü , normalde bir ses sinyalinde daha sessiz veya daha alçak sesli geçişleri artırmak için kullanılan ve herhangi bir veri kaydetmeyen dinamik daraltma yöntemiyle ( dinamik sıkıştırma olarak da adlandırılır ) karıştırılmamalıdır (ayrıca bkz . Kompresör ) .

Kayıpsız ses verisi sıkıştırma

Kayıpsız ses veri sıkıştırma ya da daha kısa bir kayıpsız ses sıkıştırma olan kayıpsız sıkıştırma , ses verileri, böylece çıkış sinyalinin bir bitidentische oluşturulmasına olanak sağlar paketlenmiş verilerin üretilmesi.

Kayıpsız ses codec bileşenleri , ses verilerinin tipik veri yapısına özel olarak uyarlanmaları ve dolayısıyla Lempel - Ziv tabanlı Deflate / ZIP ve RAR algoritmaları gibi genel yöntemlerden daha iyi sıkıştırmaları bakımından genel veri sıkıştırma yöntemlerinden farklıdır . Ses CD'lerine özgü içerik (müzik, 16 bit / 44100 Hz) için günümüz yöntemleriyle elde edilebilecek sıkıştırma oranı genellikle yüzde 25 ila 70 arasındadır.

kullanmak

Yöntemler kayıt stüdyolarında, SACD ve DVD-Audio gibi daha yeni ses taşıyıcılarında ve örneğin nesil kayıplarını önlemek isteyen kalite bilincine sahip müzik dinleyicileri için özel müzik arşivlerinde giderek daha fazla kullanılmaktadır . Ek olarak, ses sektöründen gelen birçok veri sıkıştırma yöntemi, biyolojik veriler, tıbbi eğriler veya sismik veriler gibi diğer sinyaller için de ilgi çekicidir.

Sorun

Ses kayıtlarının çoğu gerçek dünyadan kaydedilmiş seslerdir; bu tür verilerin sıkıştırılması zordur. Fotoğrafların bilgisayar tarafından oluşturulan görüntüler kadar sıkıştırılamamasına benzer şekilde, bilgisayar tarafından oluşturulan ses dizileri de birçok sıkıştırma algoritması kullanılarak azaltılması zor olan çok karmaşık dalga formları içerebilir.

Ek olarak, ses örneklerinin değerleri çok hızlı değişir ve nadiren aynı bayt dizileri vardır, bu nedenle genel veri sıkıştırma algoritmaları iyi çalışmaz.

Daha ekonomik temsiller bulun

Ses dalgalarının PCM temsilinin doğasının , insan kulağında meydana gelenler gibi frekans dizilerine kaçınılmaz olarak kayıplı bir dönüşüm olmaksızın basitleştirilmesi genellikle zordur .

Ses verileri durumunda, şunları yapabilirsiniz:

(Stereo) kanallar arasındaki benzerlikler ve
Ardışık örnekler ( dekorelasyon yoluyla ) ve sonrasındaki bağımlılıklar
Artık sinyal örneklerinin entropisi

sömürülmek.

teknoloji

Kanal bağlantısı

Kanalları birleştirerek, kanallar arasındaki bağımlılıklardan yararlanılabilir. Mevcut veya yeni bir merkez kanala fark yoluyla bir kanal tanımlanarak, ortak içeriklerin tekrar tekrar tanımlanmasından kaçınılabilir.

Fark sinyalleri ya kayıpsız saklanabilir, nicemlenebilir ve buna göre kayıplı olarak kodlanabilir ya da örneğin parametrik açıklamalar için soyutlanmış olarak da saklanabilir.

tahmin etmek

Ardışık örnek değerleri arasındaki bağımlılıklardan yararlanmak için , ses eğrisinin seyrini tahmin etmeye çalışarak bir korelasyon gerçekleştirilir. Sonuç olarak, eğer tahmin iyiyse, buna uygun olarak zayıf olan (yani birkaç anlamlı basamağa sahip olan) bir artık/fark sinyali hesaplanabilir ve ayrıca bir entropi kodlama yöntemi kullanılarak sıkıştırılabilir. Bu amaçla, çoğu durumda, örnek değerleri, karmaşık, uyarlanabilir tahmin yöntemleri kullanılarak diğerlerinden tahmin edilir.

entropi kodlaması

İlişkili olmayan artık sinyalin entropi kodlaması, örnek değerleri için farklı oluşum olasılıkları ve benzerlikler kullanır. Örneğin pirinç kodları bunun için sıklıkla kullanılır .

Bir yöntem, kod çözme için, sinyal, kodlama için olduğu gibi aynı adımların tersinden geçiyorsa ve kodlama için hesaplama çabası, kod çözme için gereken hesaplama çabasına bağlıysa, simetriktir.

Prosedürel özellikler

Kayıpsız kodekler durumunda, tanım gereği, ses sinyalinin kalitesindeki farklılıklar göz ardı edilmelidir; prosedürel farklılıklar aşağıdaki özelliklerde yatmaktadır:

Sıkıştırma oranı
sıkıştırılmış verilerin doğrudan oynatılması
Bir ses akışında herhangi bir konuma atlama
Sıkıştırma ve açma için kaynak gereksinimleri
Yazılım ve donanım desteği
Meta verilerle uğraşırken esneklik
Lisans türü
Platformlar arası kullanılabilirlik
Çok kanallı sinyallerin desteklenmesi
Farklı çözünürlük desteği - geçici ( örnekleme frekansı ) veya ses derinliği ( örnekleme derinliği )
muhtemelen ek kayıplı ve hatta karma modlar (kayıplı + düzeltme dosyası)
Akış desteği
Hata toleransı / düzeltme mekanizmaları
Bir dosyanın eksiksiz olup olmadığını hızlı bir şekilde kontrol etmek için gömülü sağlama toplamları
Simetrik ve asimetrik kodlama seçenekleri (kod çözme hızının kodlama hızına bağımlılığı/bağımlılığı)
Kendiliğinden açılan dosyaların oluşturulmasını destekler
Tekrar kazanç standardı ile uyumluluk
Gömülü işaret sayfası desteği
orijinal formattaki başlık verilerinin olası depolanması

Kayıpsız ses formatları

Kayıpsız ses biçimleri şunlardır:

Uyarlanabilir Dönüşüm Akustik Kodlama - Gelişmiş Kayıpsız (ATRAC)
Apple Lossless , ayrıca Apple Lossless Encoding veya Apple Lossless Audio Codec (ALAC)
Ücretsiz Kayıpsız Ses Codec Bileşeni (FLAC)
Kayıpsız Ses (LA)
Meridyen Kayıpsız Paketleme (MLP)
Maymun Sesi (APE)
MPEG-4 Ses Kayıpsız Kodlama (ALS)
MPEG-1 Ses Katmanı 3 (mp3HD)
OptimFOG
kısalt
TAK Toms kayıpsız ses kompresörü
Gerçek Ses (TTA)
WavPack (WV / WVC)
Windows Media Ses Kayıpsız (WMA Kayıpsız)
Emagic ZAP

Kayıplı ses verisi sıkıştırma

Bir itibariyle kayıplı ses veri sıkıştırma , daha az hassas, daha az kayıplı ses sıkıştırma veya uygun bağlam içinde Kayıplı sıkıştırma veya İngiliz "kayıplı" (kayıplı), veri azaltma gerçekleştirmek reddetmek ve yaklaşık fakir ile genellikle az alakalı sinyal bileşenlerini kaydetmek hedeflenen yöntemlere atıfta kesin veya geri alınamaz şekilde.

μ-law ve A-law gibi basit yöntemlerle , PCM veri akışının yalnızca tek tek örnekleme noktaları, seviyeye bağlı olarak bir logaritmik karakteristik eğri kullanılarak nicelenir. ADPCM gibi yöntemler zaten ardışık örnekleme noktalarının bağıntılarını kullanır. Modern yöntemler çoğunlukla insan (iç) kulağının özelliklerini simüle eden ve yetersizliklerine göre maskelenmiş sinyal bileşenlerinin görüntü hassasiyetini azaltan psikoakustik modellerle bağlantılı olarak frekans dönüşümlerine dayanmaktadır. Özel işlemler için, ses üretecini simüle eden ve böylece alıcıda veya kod çözücüde ses sentezini mümkün kılan modeller de kullanılır, bu sayede daha sonra sentezleyiciyi kontrol etmek için parametrelerle büyük bir sinyal bölümü tanımlanabilir.

Kayıplı Sıkıştırma

psikoakustik

Modern yöntemlerin çoğu matematiksel hatayı azaltmaya değil, ton dizilerinin öznel insan algısını iyileştirmeye çalışır. İnsan kulağı, gelen bir tonun tüm bilgilerini analiz edemediğinden, dinleyicinin öznel algısını bozmadan bir ses dosyasını önemli ölçüde değiştirmek mümkündür. Örneğin, bir codec bileşeni, duyulabilir aralığın kenarında bulunan çok yüksek ve çok düşük frekans aralıklarında bazı ses bileşenlerini daha az hassasiyetle saklayabilir veya istisnai durumlarda bunları tamamen atabilir. Sessiz sesler, komşu frekansların yüksek sesleriyle örtüldükleri ("maskelendiği") için daha az doğrulukla yeniden üretilebilir. Başka bir kaplama türü, yüksek sesten hemen önce veya sonra gelen yumuşak bir sesin algılanamamasıdır (geçici maskeleme). Bu etkilerden sorumlu olan böyle bir kulak-beyin bağlantısı modeline genellikle psikoakustik model denir (ayrıca: " Psikoakustik Model ", " Psiko-model " veya " Psy-modeli "). İnsan özellikleri kulağı gibi frekans grup oluşumu , işitsel aralık sınırları, maskeleme etkileri ve sinyal işleme iç kulak burada kullanılmaktadır .

Psikoakustik modele göre çalışan kayıplı sıkıştırma algoritmalarının çoğu , kaydedilen dalga biçimini frekans dizilerine dönüştüren ve böylece kaynak materyalin yaklaşık temsillerini bulabilen değiştirilmiş ayrık kosinüs dönüşümü (MDCT) gibi basit dönüşümlere dayanır. İnsan algısına daha yakın olanın temsili olduğu için verimli bir şekilde nicelendirilebilir. Bazı modern algoritmalar dalgacıkları kullanır , ancak bu tür algoritmaların MDCT'ye dayalı olanlardan daha iyi çalışıp çalışmadığı henüz kesin değildir.

kalite

Kayıplı sıkıştırma yöntemleri, prensipleri nedeniyle sadece yaklaşık olarak benzer bir sinyalin yeniden oluşturulmasına izin verir. Şeffaflık birçok işlemle sağlanabilir, yani işitsel algıda (insanın) orijinalinden hiçbir farkının algılanamayacağı bir düzeyde benzerlik sağlanabilir. Sinyale eklenen sıkıştırma artefaktları, şeffaflık eşiğinin altında duyulabilir. Ölçeğin üst ucunda, orijinalinden hiçbir farkın görünmediği şeffaflık vardır. Kör işitme testlerinde belirlenebilir. Çoğu durumda, (henüz) şeffaf bir şekilde kodlanamayan (henüz) istisnai durum riskinin az çok yüksek olduğu, şeffaflığın mümkün olduğu bit hızı miktarında kabaca bir eşik değeri gösterilir. Bu risk genellikle, bit hızı daha da artırılırsa azalır ve diğer şeylerin yanı sıra ilgili yöntemin mimarisine bağlıdır. Burada, daha modern yöntemler, genellikle sorunlu alanlarda uzmanlaşmak için daha iyi mekanizmalarla ortaya çıkabilir. Sıkıştırma işleminin şeffaflık eşiğinin altında, sıkıştırma yapaylıkları, düşük kaliteli cihazların oynatmaya neden olduğu rahatsızlıklar tarafından belirli bir dereceye kadar maskelenebilir. Algılanabilir sıkıştırma artefaktları durumunda, genellikle büyük ölçüde dinleyicinin öznel tercihlerine bağlı olduğundan, farklı yöntemlerin nesnel bir karşılaştırması çok daha zordur. Buradaki kriterler, örneğin, ses görüntüsünün doğallığı olabilir - örneğin, artefaktların gürültü gibi doğal olarak meydana gelen rahatsızlıklara benzeyip benzemediği. Kalite ölçeğinin alt ucunda, konuşma kodekleri genellikle, konuşma içeriğinin artık anlaşılabilir bir şekilde yeniden üretilemeyeceği anlaşılırlık eşiğini dikkate alır.

Sıkıştırma yapıları

Frekans dönüşümlerine dayalı sıkıştırma yöntemleri söz konusu olduğunda, tipik artefaktlar, örneğin cıvıldama artefaktlarına ("birdie artefaktı") veya karakteristik donuk, köpüren veya guruldayan sese ve önde gelen ekolara ( Keskin, yüksek enerjili ses olayları ( geçici olaylar) için İngilizce "yankı öncesi eserler" ).

nesil kaybı

Bir sıkıştırma işleminin kayıplı kısımları genellikle her çalıştırmada (daha fazla) kayıp ürettiğinden, örneğin bir dosyanın kod çevrimi sırasında sıkıştırılması, ardından sıkıştırılmasının açılması ve ardından yeniden sıkıştırılması durumunda, üretim kaybı olarak adlandırılan bir durum söz konusudur. Pratikte, bu çoğunlukla kayıp ses dosyalarından (ses CD'leri sıkıştırılmamış) bir ses CD'si yazıldığında ve materyal daha sonra okunup sıkıştırıldığında olur. Bu, kayıplı dosyaları profesyonel ses işleme alanlarındaki uygulamalar için uygun hale getirir ( "veri azaltma, ses imhasıdır" ). Bununla birlikte, bu tür dosyalar, ses malzemesinin karmaşıklığına bağlı olarak bir megabayt, yaklaşık 1:11'lik bir sıkıştırma oranına karşılık gelen, kabul edilebilir kalitede yaklaşık bir dakikalık müzik için yeterli olduğundan, son kullanıcılar arasında çok popülerdir.

İstisnalar, örneğin, daha sonra (belirli) kayıpsız bir sıkıştırma işlemi ile daha fazla sıkıştırma elde etmek için PCM verilerini işleyen, kayıplıWAV gibi kayıpsız işlemlerle kombinasyon için kayıplı ön filtrelerdir. Ön filtre tarafından üretilen veriler, elbette, kayıpsız sıkıştırma yöntemi kullanılarak, en azından daha fazla değiştirilmediği sürece, herhangi bir başka kayba maruz kalmadan, istendiği kadar sıklıkta sıkıştırılabilir ve sıkıştırılabilir.

Kalite değerlendirme

Aşağıdaki değerlendirmeler, hidrojenaudio.org'dan alınan çeşitli işitme testlerine dayanmaktadır. Bu forum, ilgili ve deneyimli kullanıcıların yanı sıra MP3 ( LAME kodlayıcı), Vorbis veya Nero-AAC gibi çeşitli ses sıkıştırma yöntemlerinin geliştiricileri tarafından ziyaret edilen bir platformu temsil etmektedir . Çok sayıda katılımcı test personeli, istatistiksel olarak güvenli kalite beyanları ile sonuçlanır.

MP3'ün geliştirilmesinden (1987 civarında) codec'in ilk kullanımına (1997-2000 civarında) ve dünyanın en yaygın kullanılan ses formatına (2003 civarından beri) kadar çıktı kalitesi istikrarlı bir şekilde iyileştirildi. Vorbis, WMA veya AAC gibi diğer formatlar da MP3'e bir alternatifi temsil etmek veya uzun vadede onun yerini almak için geliştirildi. Bu formatlar da sürekli olarak geliştirilmiştir.

~ 128 kbit / s bit hızına sahip bir MP3 dosyası 1997'de çok mütevazı geliyordu. Söz verilen CD benzeri kaliteye o zamanlar henüz ulaşılamadı. 2005 yılında, o zamanki işitme testleri ile onaylandığı gibi , ~ 128 kbit / s'de aynı format için LAME kodlayıcı zaten dinleyicilerin net çoğunluğu için şeffaf bir kalite sundu, yani. orijinal kayıttan ayırt edilemez.

Ağustos 2007'deki bir işitme testine göre, 96 kbit / s'de AAC formatı ile karşılaştırılabilir kalite elde edilebilir.

00'lerden 48 ve 64 kbit/s bit hızlarına sahip dinleme testleri, bu düşük bit hızlarında taşınabilir cihazlarda veya web radyosunda kullanıma uygun bir kaliteye ulaşılabileceğini göstermektedir.

Kaliteli bir kodlayıcı ve doğru formatla, 96 ila 128 kbit / s'de, kullanıcıların net çoğunluğunun CD'den ayırt edemediği bir kaliteye zaten ulaşılabilir.

Kayıplı ses formatları

Sıkıştırılmamış The Power of Thy Sword şarkısının spektral analizi, yaklaşık 21 kHz'e kadar tam bir bant genişliği gösterirken, ilgili dosyaların daha düşük spektrumları önemli ölçüde daha düşük bir bant genişliğine sahiptir, ancak bu, ses kalitesinin önemli ölçüde bozulduğu anlamına gelmez. (Analog kayıttan MiniDisk frekans spektrumları)

Örneklerde, bilindiği kadarıyla, sıkıştırılmış bir dosyanın artık çoğu insan tarafından orijinalinden ayırt edilemediği, yani şeffaf olduğu - iyi aksesuarlarla konsantre dinleme ve ilgili sıkıştırmanın gelişmiş bir kodeği ile - bit hızları da verilmiştir. şema; müziğin türüne göre değişir. Bununla birlikte, şeffaflığın herkes tarafından aynı bit hızında hissedilmediğini belirtmek gerekir. D/A dönüştürücülerin, amplifikatörlerin ve kutuların kalitesi burada önemli bir rol oynar. Kayıplı sıkıştırma genellikle stüdyo ekipmanında, sıradan insanlar için bile çok net bir şekilde duyulurken, profesyoneller için bile, kalitesiz kayıttan yürütme aygıtlarında orijinalinden ayırt edilemez. Bu nedenle bilgi, ortalama donanıma sahip ortalama dinleyici için bir referans değeridir. CD'lerin bit hızı 1411.2 kbit / s'dir (saniyede kilobit).

Çeşitli ses codec bileşenlerinin karşılaştırmaları için web bağlantılarına bakın .

AC-3 , Dolby Digital veya benzeri olarak da adlandırılır
AAC (MPEG-2, MPEG-4 ): 96-320 kbit/s
ATRAC ( MiniDisc ): 292 kbit/sn
ATRAC3 (MDLP modunda MiniDisc): 66–132 kbit / s
ATRAC3plus (Sony'den Hi-MD ve diğer taşınabilir ses cihazları için): 48–352 kbit / s
DTS
MP2 : MPEG-1 Katman 2 Ses Codec Bileşeni ( MPEG-1 , MPEG-2 ): 280-400 kbit/s
MP3 : MPEG-1 Layer 3 Audio Codec (MPEG-1, MPEG-2, LAME ): 180–250 kbit/s
mp3PRO
Musepack : 160–200 kbit/s (açık kaynak)
Ogg Vorbis : 160–220 kbit/s (açık kaynak)
başyapıt
WMA
LPEC
TwinVQ

Ayrıca bakınız

Kesintisiz oynatma
Ortalama Görüş Puanı (sıkıştırma yöntemlerinin ses kalitesinin değerlendirilmesi)
Spektral bant çoğaltma (Spektral Bant Çoğaltma, SBR)
Alt bant kodlama

Edebiyat

Roland Enders: Ev kayıt kılavuzu . 3. Baskı. Carstensen, Münih 2003, ISBN 3-910098-25-8 .
Thomas Görne: Ses mühendisliği . 1. baskı. Carl Hanser, Leipzig 2006, ISBN 3-446-40198-9 .
R. Beckmann: PA teknolojisi el kitabı, temel bileşen uygulaması . 2. Baskı. Elektor, Aachen 1990, ISBN 3-921608-66-X .
A. Lerch: Bit hızı azaltma . İçinde: Stefan Weinzierl (Ed.): Ses teknolojisi kılavuzu . 1. baskı. Springer, Berlin 2008, ISBN 978-3-540-34300-4 , s. 849-884 .

İnternet linkleri

Commons : ses verisi sıkıştırma - resim, video ve ses dosyalarının toplanması

Speek'te kayıpsız ses kodeklerini karşılaştırın (İngilizce)
Josef Pohm'dan kayıpsız ses kodeklerini karşılaştırın (İngilizce)

Bireysel kanıt

↑ http://wiki.hidrogenaudio.org/?title=lossyWAV
↑ Kamu, mülti sonuçları Testi Dinleme @ 128 kbps (Aralık 2005) ( Memento 5 Haziran 2008 tarihinden itibaren de Internet Archive )
↑ ^a^b Public, Multiformat Listening Test'in Sonuçları @ 48 kbps (Kasım 2006) ( Memento , 5 Haziran 2008, İnternet Arşivi ), www.listening-tests.info, Kasım 2006 (İngilizce).
↑ Kamu, mülti sonuçları Testi Dinleme @ 64 kbps (2007 Temmuz) ( Memento 5 Haziran 2008 tarihinden itibaren de Internet Archive )

[1] ttp://wiki.hidrogenaudio.org/?title=lossyWAV

[2] Kamu, mülti sonuçları Testi Dinleme @ 128 kbps (Aralık 2005) ( Memento 5 Haziran 2008 tarihinden itibaren de Internet Archive )

[mf-48-1-3] Public, Multiformat Listening Test'in Sonuçları @ 48 kbps (Kasım 2006) ( Memento , 5 Haziran 2008, İnternet Arşivi ), www.listening-tests.info, Kasım 2006 (İngilizce).

[4] Kamu, mülti sonuçları Testi Dinleme @ 64 kbps (2007 Temmuz) ( Memento 5 Haziran 2008 tarihinden itibaren de Internet Archive )

Languages