380 likes | 487 Views
Mp3. Geschichte Verfahren Codecs (Vor- und Nachteile) Kodierverfahren (2 Arten) Kodieren (Maskierungen) Qualität/Verluste MP3: Legal oder Illegal. Geschichte.
E N D
Mp3 • Geschichte • Verfahren • Codecs (Vor- und Nachteile) • Kodierverfahren (2 Arten) • Kodieren (Maskierungen) • Qualität/Verluste • MP3: Legal oder Illegal
Geschichte • entwickelt 1985 von Gruppe von Studenten um Prof. Dr. Karlheinz Brandenburg am Fraunhofer-Institut (großteils) sowie an der Friedrich-Alexander-Universität Erlangen-Nürnberg in Zusammenarbeit mit AT&T Bell Labs und Thomson. • 1992 wurde es als Teil des MPEG-1-Standards festgeschrieben • Die Dateiendung .mp3 (als Abkürzung für ISO MPEG 1 Layer 3) wurde 1995 festgelegt. • Prof. Dr. Brandenburg wurde für die Entwicklung dieses Datenformates mehrfach ausgezeichnet.
Verfahren • Wie alle anderen Kompressionsformate für Musik nutzt MP3 sogenannte psychoakustisch Effekte der Wahrnehmung aus (z.B. zwei Töne erst ab einem gewissen Mindestunterschied der Tonhöhe (Frequenz) voneinander unterscheidbar oder dass man vor und nach sehr lauten Geräuschen für kurze Zeit leisere Geräusche schlechter oder gar nicht wahrnimmt. • Ursprungssignal nicht exakt abspeichern, sondern Signalanteile, die das menschliche Gehör wahrnehmen kann. Die Aufgabe des Kodierers ist es, das Signal so aufzuarbeiten, dass es weniger Speicherplatz benötigt, aber für das menschliche Gehör noch genauso klingt wie das Original. • Der Decoder erzeugt dann aus MP3 ein original klingendes Signal, das aber nicht mit dem Ursprungssignal identisch ist, da bei der Umwandlung in MP3 Informationen entfernt wurden.
Lossy Codecs Lossless Codecs Codecs für Audiokomprimierung
Lossy Codecs(verlustbehaftet = Datenreduktion) • Ausnutzung, dass menschl. Gehörs: • hohe und tiefe Frequenzen ab einer Grenze nicht mehr wahrnimmt • Frequenzen werden durch höhrere übertönt und nicht wahrgenommen • Bei hohen Lautstärken werden leise nicht erkannt • Ziel: Erreichen von Transparenz, d.h. kein hörbarer Unterschied zwischen kompr. und originaler Datei • Bekannte Formate: MP3, MPC, Ogg Vorbis und AAC
Vor- und NachteileLossy Codecs • Vorteile • breite Hard- und Software-Unterstützung • gute Qualität mit dem LAME-Encoder bei mittleren und hohen Bitraten • Nachteile • mäßige Qualität bei niedrigen Bitraten • das Encodieren mit LAME (derzeit effektivste) dauert sehr lange • viele immer noch verwendete schlechte Encoder (auch FhG-Encodern)
Lossless Codecs(verlustfrei = Datenkomprimierung) • Hier wird nur die Datei (ähnlich wie WinZip) mit bekannten Algorithmen ( z.B. Huffman-Kodierung) komprimiert und es kommt so zu keinem Qualitätsverlust • Es kann die vollkommen idente Datei wie die Originaldatei wieder hergestellt werden • Bekanntestes Format: FLAC
Vor- und NachteileLossless Codecs • Vorteile • keine Qualitätsverluste, weder hörbar noch messbar • sehr hohe Encodier- und Decodiergeschwindigkeit • freies und offenes Audioformat • plattformübergreifende Software-Unterstützung (Windows, Linux, Mac OS X) • Nachteile • Geringere Komprimierung ( auf ~60 %)
Kodierverfahren • Kodierung mit konstanter Datenrate (CDR) (und damit schwankender Qualität) • Kodierung mit schwankender Datenrate (VDR) (und damit konstanter Qualität) (MPEG Video) • Vorteile: • Qualitätseinbrüche werden vermieden, d.h. bei komplexerer Signalstruktur gute Qualität aber bei stillen Passagen höhere Datenrate als normalerweise notwendig • Die Qualitätsstufe ist vorgegeben!
Kodieren • mit der Fast Fourier Transformation (FFT) oder der Diskreten Kosinus Transformation (DCT) wird das Frequenzspektrum der Audiodaten bestimmt • Dabei wird einer Funktion f(t) ihre Fouriertransformierte zugeordnet,d.h. für das Zeit-Amplitudensignal das Frequenzspektrum berechnet = Fourieranalyse • Man zerlegt die Funktion in wellenartige Bestandteile (Kosinus, Sinus). Das Ergebnis der Transformation sind die Koeffizienten der Basisfunktionen, d. h. deren Anteil (Faktor) an der ursprünglichen Funktion
Fouriertransformation • Beispiel: f(t) = cos(2.t)
die Rücktransformation (Fouriersynthese) lautet in der Praxis wird das Signal abgetastet und man erhält ein zeitdiskretes Signal (nicht kont. wie im vorherigen Beispiel) und berechnet hier mit Hilfe der diskreten Fourieranalyse das Spektrum für die einzelnen Zeitintervalle (nicht mehr analytisch sondern numerisch FFT) Fouriertransformation
Maskierungen • Hörschwellenmaskierung • Frequenzmaskierung • temporale Maskierung
Abb 1.1 : Hörschwelle des Menschen Jedes Paket wird einer Hörschwellenmaskierung unterzogen, d.h. gewisse Frequenzen eines Geräusches können nur schlecht oder gar nicht wahrgenommen und deshalb gelöscht werden Hörschwellenmaskierung z.B. Ton mit f=16 kHz und L= 40 dB dieser Ton bzw. die Daten können gelöscht werden
Frequenzmaskierung • Nun wird das Audiosignal einer Frequenzmaskierung unterzogen, wobei hier Töne beseitigt werden, die durch andere übertönt werden. • Ein lautes Basssignal übertönt z.B. leise Töne aus den mittleren Frequenzbereichen; man sagt :“der Bass maskiert die Mitten!“
Ein Ton der eine Frequenz von 1 kHz und eine Lautstärke von 80 dB hat, übertönt z.B. einen Ton von 2 kHz/40 dB. Abb 1.2 : Frequenzmaskierung
Grund für Frequenzmaskierung • Schwingungen durch Schalldruck bringen Basilarmembran im Innenohr zur Schwingung und führen je nach Frequenz an versch. Stellen der Membran zu Resonanz. • Nerven sind über ganze Länge der Membran verteilt und so werden bei bestimmten Frequenzen bestimmte Nerven angeregt • Hohe Töne führen am Beginn der BM zu Resonanz und werden dann sofort abgedämpft. • Tiefere Töne müssen erst die Membran entlanglaufen und führen so auch am Anfang der BM zu Schwingungen • Die mittleren und hohen Frequenzen müssen also so laut sein, dass sie die tiefen Frequenzen „übertönen“
Temporale Maskierung • bei der temporalen Maskierung, spiegelt sich die Trägheit des menschlichen Ohrs wider. • das Gehör stellt sich auf laute und leise Tongeräusche ein und braucht so zwischen lautem und leisem Signal Erholungszeit • d.h. nach lautem Knall können für kurze Zeit keine leiseren Töne wahrgenommen werden
Stereoredundanz • Wird das Signal stereo übertragen, muss man dieses nicht 2 mal übertragen (z.B. Gesang), außer es sind z.B. Instrumente die nicht auf beiden Kanälen gleich übertragen werden. • Intensity Stereo (IS-Stereo) Es werden hier nur die Monodaten und Richtungsinformationen der Stereodaten gespeichert. Phaseninformationen gehen verloren. Es wird hier ein Summensignal gebildet und für jeden Kanal ein Skalierungsfaktor bestimmt. Verwendet man zur Datenreduktion also IS-Stereo, kann auch für Surround Sound kodiertes Material nicht mehr dekodiert werden, da die Phaseninformation fehlt.
Stereoredundanz • Mid-Side Stereo (MS-Stereo) es wird hier ein Mittelwert- (Middlesignal) und Differenzsignal gebildet und gespeichert (Diff. Signal hat weniger Speicher und wird als Side-Signal bezeichnet). • Vorteil: es geht keine Phaseninformation verloren, also können auch Surround Sound Signale komprimiert werden.
Koeffizientenquantisierung • Das durch die vorher durchgeführtenVerfahren erhaltene Frequenzspektrum wird nun noch quantisiert wobei sich hier ein Rauschen (Fehler) von rund 6dB pro weggelassenem Bit ergibt.
Hörbare Verluste • Die hörbaren Verluste hängen ab: • von der Qualität des Kodierers/Codecs • der Komplexität des Signals • von der Datenrate : 8 kBit/s bis zu 320 kBit/s (üblicherweise zwischen 128 und 256 kbit/s) (Audio-CD: ca. 1411 kbit/s) • von der verwendeten Audiotechnik (Verstärker, Verbindungskabel, Lautsprecher) • vom Gehör des Hörers : subjektiv und von Mensch zu Mensch sowie von Gehör zu Gehör untersch.; die meisten Personen können jedoch ab einer Bitrate von etwa 160 kBit/s keinen Unterschied mehr wahrnehmen ("CD-Qualität“ :Datenrate 128 kbit/s (mp3))
Analog – Digital • Analogsignal • Digitalsignal • Analog Digital • Nyquist Theorem • Störungen
Analogsignal • ist ein Signal, bei dem zw. 2 Extrema kontinuierlich jeder Wert angenommen werden kann. • Meistens elektr. Kontext aber auch mechan., hydr. und pneumatischer bekannt. • Das Signal nutzt Eigenschaften des Mediums aus (Spannung, Stromstärke, Frequenz, Ladung) • Nachteil analoger Signale:Fehleranfälligkeit auf Grund von zufälligen Variationen(kein System ist störungsfrei); tritt bei öfterem kopieren von Signalen und bei Verlängerung der Übertragungsstrecke auf Rauschen = Signalverlust
Digitalsignal • digitus = lat. für Finger (Binärsystem, Wert, Wort) • ist ein Takt vorgegeben, der die Größe der Änderung eines Wortes auf ein gewisses Zeitintervall einschränkt, so wird dies als zeitdiskretes Signal bezeichnet • man hat nun eine reelle Funktion, mit Definitionsbereich (D) im Rn (Zeit- aber auch Ortsabhängigkeit möglich) und Wertebereich (W) im Rm • Handelt es sich beim D nun um diskrete Werte diskretes Signal • Sind W und D nun endliche Mengen digitales Signal(Signal durch Bitfolgen mit {0,1}k darstellbar)
Analog Digital • hat man nun ein analoges Signal (z.B. Schallwelle), so wird diese mit Hilfe eines Mikrofons in eine Spannungsschwankung umgewandelt und mit Hilfe eines AD-Konverters in ein digitales Signal umgewandelt, um dieses nun am Computer zu bearbeiten • dies geschieht, indem man die Spannungen zu bestimmten Zeiten misst (Sampling) und Messwerte speichert (1 Wert = 1 Sample) • Qualität ist von der Samplingrate [Hz] und der Speicherqualität [Bit] (Quantisierung) abhängig
Quantisierung: Darstellung von Messwerten, in einem System wo nur diskrete Werte möglich sind • Man erhält also ein umso besseres Signal umso feiner das Raster in Abb 2.1 wird (PCM = Pulse Code Modulation) • dies erhält man durch eine höhere Samplingrate (Zeitachse) oder durch eine höhere Quantisierung (vertikale Achse)
Geschichtezum Nyquist Theorem • Harry Nyquist (1889 – 1976): geboren in Schweden, dann nach Amerika ausgewandert • Stellte fest, dass das analoge Signal mit der doppelten Signalfrequenz abgetastet werden muss, um aus dem entstandenen zeitdiskreten Signal das ursprüngliche, kontinuierliche Signal wieder herstellen zu können(= Nyquist-Shannon Abtasttheorem) • Shannon hatte das Theorem 1948 formuliert und bildete damit Grundlage zur Informationstheorie
Nyquist Theorem • hat man also bandbegrenztes Signal muss mit bestimmter Frequenz abgetastet werden • bei Basisbandsignal, d.h. 0 < f < fmax fabtast > 2 . fmax • bei Nicht-Basisbandsignal, d. h. fmin < f < fmax fabtast > 2 . (fmax – fmin) • man muss also vor dem Abtasten die Grenzfrequenz bestimmen (z.B. Fourieranalyse), um schließlich das Signal gut approximieren zu können • die Frequenz fN = fabtast / 2 wird als Nyquistfrequenz bezeichnet
Daten • da das Gehör bis zu 22 kHz Töne wahrnimmt muss mit 44 kHz abgetastet werden um Artefakte zu vermeiden (Standard: 44.1 kHz mit 16 bit) • d.h. es werden 44100 . 16 = 705600 bit ~ 86 kbyte Daten erzeugt (pro Sekunde) • bei Stereo doppelt soviel, egal ob ein Sinuston oder ein ganzes Orchester
Hat man Signal mit f> fabtast / 2 so kommt es zu Artefakten (=Alias Signale;= Störsignale). Aliasing wird der Effekt bei zu niedriger Samplingrate bezeichnet (Bsp. Kutsche) Die Linien geben die gesampelten Werte wieder und so wird aus dem Ursprungssignal (kont. Linie) ein niederfrequenteres Signal (gestrichelt) Störungen • Hat man Signal mit f> fabtast / 2 so kommt es zu Artefakten (=Alias Signale;= Störsignale). • Aliasing wird der Effekt bei zu niedriger Samplingrate bezeichnet (Bsp. Kutsche) • Hat man Signal mit f> fabtast / 2 so kommt es zu Artefakten (=Alias Signale;= Störsignale). • Aliasing wird der Effekt bei zu niedriger Samplingrate bezeichnet (Bsp. Kutsche) • Die Linien geben die gesampelten Werte wieder und so wird aus dem Ursprungssignal (kont. Linie) ein niederfrequenteres Signal (gestrichelt) • Die Linien geben die gesampelten Werte wieder und so wird aus dem Ursprungssignal (kont. Linie) ein niederfrequenteres Signal (gestrichelt)
Beispiel für Aliasing • es handelt sich hier um einen Ton, der linear von 100 Hz auf 8 kHz ansteigt • fabtast = 16 kHz und damit das doppelte der maximalen Frequenz • fabtast = 8 kHz und damit gleich der maximalen Frequenz • beim ersten Ton hört man wie erwartet das ansteigende Signal. Beim zweiten Ton ist ab der Mitte des Signals die Abtastfrequenz zu gering und deshalb erhalten wir ein Signal, das tiefer statt höher wird (siehe Abb 2.2)
Störungen • Man kann mit der richtigen Frequenz, aber auch mit einem Tiefpass-Filter Störungen vermeiden; d.h. ist eine bestimmte fabtast nicht gewollt/realisierbar, so kann man mit Hilfe des Filters gewisse Frequenzen wegschneiden und so Aliasing vermeiden. • Bearbeitung mit Filter führt zu Veränderung des Signals und soll verwendet werden, wenn Änderung nicht merkbar ist oder keine höhere Abtastrate gewählt werden kann
Mp3: legal oder illegal • Musikurheber haben persönlichkeitsbezogene und wirtschaftliche Rechte an ihren Stücken • eigene Rechte können an Firmen aus dem Bereich der Musikindustrie übertragen werden (Verwertung und Vervielfältigung) • Erfasst werden auch digitale Kopien • Bestimmte Verwertungsvorgänge im privaten Bereich von der urheberrechtlichen Zustimmungs- und Vergütungspflicht ausgenommen • Nutzung im privaten Bereich kann nicht kontrolliert werden (Grundsatz der Unverletzlichkeit der Wohnung)
Lösungen • Geräteabgabe • heute müssen Produzenten von Tonträgern (TT) und Abspielgeräten für jedes Gerät und leeren TT Abgaben an die Musikurheber bzw –industrie leisten • Seit 1971 ist System der privaten Vervielfältigung und Geräteabgabe akzeptiert
Digitale Kopien • Kopien können heute billiger und schneller erzeugt werden • bei Software existiert rechtl. Schutz: nur berechtigte dürfen Sicherheitskopie erstellen; digitale Kopien haben selben Gesetze wie 1971 beschlossen • ist der Besitz von MP3-Dateien illegal oder das private Kopieren? • Download von Musikdateien aus dem Netz zur rein privaten Nutzung ist legal • private Nutzer braucht keine Lizenz da § 53 UrhG eine gesetzliche Lizenz zur privaten Nutzung fremder Musikwerke beinhaltet
Muss die Vorlage für Kopie ein rechtmäßig erstelltes Original sein, also urheberrechtlich korrekt lizenziert sein? • Diebstahl geistigen Eigentums begeht derjenige, der unerlaubt ins Netz stellt, unerlaubt produziert und verbreitet • d.h. Mp3 und Raubkopien darf man besitzen • nur bei Software muss legales Original sein, 1 Kopie vom Käufer • für den privaten Gebrauch einzelne Kopien herzustellen ist erlaubt (3 bis 7 Stück), wobei diese Zahl von einem Gesetz für Papierkopien stammt • das weiterverschenken an Personen zu denen eine persönliche Beziehung besteht ist erlaubt • bei 50 Freunden darf jeder dem anderen eine Kopie der Kopie erstellen