## In-shoe dynamic pressure measuring

“The pedar system is an accurate and reliable pressure distribution measuring system for monitoring local loads between the foot and the shoe.”
www.novel.de

## Working with time and space in images: Chessboard Studies

I have been taking photographs for many years, and I wanted to see how I could develop this a little further. On a round-trip from Japan to Tanzania, as a participant in the 16th Ship for World Youth Programme organised by the Japanese government, I decided to work with my camera in the same way as I would think about improvising with a musical instrument. This was also inspired by David Crawford’s Stop Motion Studies where he is capturing the moment by projecting a series of still photos, shot right after each other, in a random sequence. The result is the combined qualities of a still image and some temporal information of the moment.

My approach was not to remove the images from the time, but rather to put time into a series of images. Not like a traditional video approach where everything is captured, but by forcing myself to adhere to a certain time interval. Technically, I used the option of my Nikon Coolpix 8800 camera allowing for taking 16 photos (aligned in a 4×4 matrix) at a fixed time interval. The challenge was to work with this feature, and the constraints given by it, and improvise an image much in the same way as I would do when improvising a short piece of music.

In the beginning, I focused on using this function to capture time by just keeping the camera in the same position. The camera was held steady while the waves of the ocean were passing by. Although the result is quite blurry and chaotic, the effect is a sense of movement in the image.

Moving on from this, I focused on a fixed object (piano) while imposing movement in the image. The idea was to resemble the feeling of playing the instrument, where a larger movement corresponds to larger gestures in the imagined “music”. Since the keys look the same all over the piano, the result does not give justice to the attempt of exposing the whole range of the piano.

Then I started exploring what could be called continuous image sequences, such as in the figure below depicting the deck on the ship Nippon Maru at sea. The actual movement was not continuous, though, since the camera was moved and stopped for every frame shot. However, this discontinuous recording technique gives the feeling of a “continuous” movement in the image. The image also extends the feeling and understanding of the space, since you can see 180 degrees of the view. Still, the image is quite “classic” in the way that it is a portrait of a person looking at the sea.

I then started to experiment with the idea of nonlinearity in both time and space. Below is a sequence from Yokohama harbour, which shows an example of this technique. Before shooting the sequence, I made a mental “route” of how I was going to move the camera, to move from the top of the tower in the first frame (upper left corner) to the sea level in the last frame (lower right corner), passing by several objects in between. Due to the intense light, the shutter of the camera was working very quickly, which also gave me very little time to move the camera during the shooting. The result is a rather chaotic mix, perhaps somewhat similar to how we perceive the world when we look around.

Testing the same technique in a “portrait” of a person, in the image below I set a high aperture value on the camera to force a shorter shutter speed even though the lighting conditions were good. Having a continuous camera movement between the frames would then result in a somewhat blurred image sequence of a person from different angles.

Yet another approach I tested, was to try and depict a person by a collage technique, such as shown below. This was done by keeping the camera steady for four frames and then move to another section of the body. This example was one of the first series shot, and due to too slow camera movement I did not manage to capture the new position before in the second column. Even though I later made shots that were “correct”, I still find this sequence more interesting, with the absurdity in the shift of the body in the left column.

The whole idea of doing these experiments was to try and work with time in an image, by forcing myself to work with a time constraint (the shutter speed of the camera). I shot around 1000 such sequences during two months, and over time I developed an extensive repertoire of different techniques. Not only did I get to a point where I felt like improvising music in the images, but these experiments also changed the way I am thinking about pictures.

## Datamaskinlyder og bruker – funksjon og påvirkning

Semesteroppgave musikkvitenskap storfag, Oktober 2000

## Sammendrag

Artikkelen starter med å gjøre rede for de forskjellige lydene som kommer fra en datamaskin. Hovedfokuset rettes deretter mot de systemvarestyrte audiolydene, videre kalt systemlyder. Tre forskjellige sett med systemlyder fra Microsoft analyseres med tanke på fysiske og musiske aspekter, før forfatteren forsøker å forklare hvorfor fremveksten av slike lyder har vært så stor de siste årene. Deretter presenteres tre fiktive personers forhold til systemlyder. Artikkelen konkluderes med at systemlyder i dagens form forhåpentligvis er en forbigående trend og at produsentene heller bør konsentrere seg om lydapplikasjoner hvor lydkommunikasjon står sentralt.

## Innledning

Datamaskiner lager lyder. Bevisst og ubevisst. Det begynte med små enkle pip og i dag får man avspilt de merkeligste melodier. Jeg vet ikke helt hvorfor, men det virker som det er en allmenn oppfatning blant produsentene at maskinener må kunne lydlegge seg. Hvis man ser på film er det enda verre, der lager selv moderne datamaskiner de merkeligste lyder. Kanskje har også fremtidsfilmene vært med på å bygge opp under folks ideer om at maskiner skal blinke, lage rare lyder og snakke.

Jeg har helt siden jeg begynte å interessere meg for datamaskiner undret meg over lydene fra maskinene. Sant nok husker jeg at det også var svært morsomt å ha forskjellige lyder knyttet til hendelser, men man blir fort lei. Med de nyeste versjonene av Windows har lydbildet rundt en datamaskin økt ytterligere. Nå kan man velge mellom forskjellige lydsett som skal representere forskjellige stemninger. Men dette er ikke et eget Windows-fenomen, fordi også Unix, Linux og Mac-verdenen har systemlyder. Etterhvert har vi lært oss å leve med det og de fleste synes vel det er naturlig at datamaskiner lager lyder. Egentlig er det ikke noen bedre grunn til at datamaskinen din piper og spiller søppelkasselyder enn at for eksempel kjøleskapet eller komfyren stort sett holder seg i ro.

Ettersom dette ser ut til å være en generell trend i dataverdenen, har jeg ønsket å se litt nærmere på temaet datamaskinlyder. Først og fremst gjelder det å definere hva vi kan kalle systemlyder, hva som er støy osv. Kilden for lydene samt motivet bak lydhendelsen er også viktig å kartlegge før vi kan gå inn på en analyse av lydene. Jeg har valgt å se på både de fysiske og de musikalske elementene rundt lydene og forsøkt å forstå hvordan de virker på brukeren. Hvilken funksjon har egentlig en froskelyd når man sitter og forsøker å skrive et brev, eller hvorfor skal absolutt en søppelbøtte høres ut som en søppelbøtte?

Jeg er generelt glad i gode lyder og har hatt en viss glede av systemlyder. De siste årene har jeg allikevel valgt å skru dem av fordi jeg i stor grad bruker datamaskinen til å arbeide med brukerstyrte lydhendelser: CD/DVD-avspilling, lydredigering, MIDI-notasjon osv. Når man allerede arbeider med lyd eller musikk på maskinen, kan små systemlyder være svært forvirrende og plagsomme. I arbeidet med denne oppgaven synte jeg det var interessant å undersøke hvordan andre reagerer på disse lydene og om noen i det hele tatt ønsker en slik mulighet. Jeg har derfor snakket med en rekke personer og om deres forhold til datamaskinlyder. Dette har på ingen måte vært ment som en grundig, statistisk analyse, men snarere et lite forsøk på å kartlegge forskjellige brukeres tanker og behov.

Gjennom hele oppgaven henviser jeg til lytteeksempler i lydfigurene. Numereringen henviser til sporene på den medfølgende CD-platen.  Jeg har valgt å ta med en rekke lydeksempler, fordi jeg tror dette er viktig i forståelsen av temaet datamaskinlyder. Ettersom jeg selv arbeider hovedsakelig på en Windows-plattform, vil hovedvekten av eksemplene være fra lydsettene fra Windows, men jeg vil også komme med noen eksempler fra andre plattformer.

## Datamaskinlyder – en sammensatt affære

Det totale lydbildet som en datamaskin tilfører et rom, er sammensatt av en rekke forskjellige lydelementer. Alle lydene kan deles inn i grupper avhengig av lydkilden og motivet bak lydhendelsen. Hvis vi først tar for oss lydkilden, så kan vi gruppere disse i tre hovedkategorier:

• PC-speaker (maskinvarestyrte lyder)
• Lydkort (systemvarestyrte lyder)

Maskinlyderer de lydene som kommer fra selve maskinen: viftestøy, harddisk-aktivitet, printer og CD-spiller. I tillegg kommer de høyfrekvente signalene fra skjermen og suset fra høyttalerne. Disse lydene er stort sett alle konstante når maskinen er på, og i det totale lydbildet kaller vi disse for bakgrunnsstøy. Mange brukere klager over denne støyen fra maskinene, men produsentene har ikke gjort særlig store fremskritt de siste årene. Allikevel er ingen av disse lydene på langt nær så intense og fremtredende i lydbildet som lyden av mus og tastatur. Grunnen til at de fleste likevel henger seg opp i bakgrunnsstøyen er fordi tastaturlydene sammenfaller med en fysisk aktivitet fra brukeren. Det har blitt slik at man forventer en lyd, en tilbakemelding, når man trykker ned en av tastene. I Lydfigur 1 har jeg samlet en del standard maskinlyder som man møter ved datamaskinen: På-knapp, viftesus, diskettstasjon, harddiskstøy, CD-spiller, museklikking, tastaturskriving, utskrift og avslutning. Det er lett å kjenne igjen disse lydene og tenke på en datamaskin. Når vi isolerer lydene fra maskinen er det også enklere å legge merke til hvor mye bakgrunnsstøy vi egentlig påføres.

De maskinvarestyrte lydene genereres derimot fra den interne PC-speakeren på maskinens hovedkort. Dette er en primitiv bølgegenerator, som lager en ren sinusbølge, med en bestemt tone. De første datamaskinene hadde ikke noe annet lydkort og da ble denne lydkilden også brukt til å spille av melodier. Dette hørtes aldri bra ut. Det var faktisk først et godt stykke inn på 1990-tallet at de fleste PCer ble levert med et eget lydkort. Det er interessant å legge merke til at alle maskiner fremdeles har en intern PC-speaker, og at den fremdeles brukes ved oppstart og når maskinen har låst seg. Fordi det ikke kreves noe eget program for å kunne spille av lyd over PC-speakeren, kaller vi det for maskinvarestyrte lydhendelser. Lydfigur 2 er et eksempel på hvordan en slik lyd høres ut.

De lydene som kommer fra maskinens lydkort har jeg valgt å kalle systemvarestyrte lyder. Et program i datamaskinen sender signaler til maskinens lydkort, som deretter omformer det digitale signalet til analogt og sender det til enten hodetelefoner eller eksterne høyttalere. Det er viktig å huske på at det kan lages to forskjellige typer lyder på et lydkort: MIDI og Audio. MIDI-lyd er definisjoner av lydhendelser som spilles av gjennom den innebyggete synthesizeren eller wavelets-chipen som sitter på lydkortet. Resultatet er derfor helt avhengig av lydkortets kvalitet. Audiolyd er derimot en direkte avspilling av et lydopptak, på samme måte som fra for eksempel en CD-plate. Det er altså systemvarestyrt audiolyd som best ivaretar den opprinnelige lyddesignerens lydidé, og det er denne lydgruppen jeg skal drøfte videre i oppgaven.

En systemvarestyrt audiolyd blir sendt av et program til lydkortet. Men forut for denne maskinaktiviteten ligger det en kommando, sendt fra brukeren enten aktivt eller passivt. Vi skiller her mellom

• Brukerstyrte lydhendelser: Så som avspilling av en CD-plate som man setter i maskinen, MP3- eller RealAudio-filer eller lyd til en video eller multimediapresentasjon. Her gjør brukeren et aktivt valg for å sette igang en lydhendelse, på samme måte som hvis man skrur på radioen. I disse tilfellene forventer faktisk brukeren at det skal komme lyd.
• Programstyrte lydhendelser: Dette er lyder som maskinen selv avspiller som en reaksjon på brukerens aktivitet eller som et varselsignal. For eksempel kommer det ofte en lyd sammen med en melding om at man må huske å lagre et dokument, en annen lyd når man tømmer søppelkassen, eller et kjenningssignal når det kommer ny mail. Lydene styres av forskjellige programmer som brukeren kan satt igang aktivt eller passivt.

Resten av denne oppgaven vil dreie seg om disse programstyrte audiolydhendelsene. For enkelhets skyld vil jeg fra nå av referere til disse som systemlyder, eventuelt bare lyder. Jeg tar utgangspunkt i at leseren kjenner til grunnleggende begreper innen digital lydbehandling, men det skal være mulig å følge argumentene uansett.

Vi har sett på hvordan forskjellige datamaskinlyder blir til, og hva som utløser en lydreaksjon. Det er interessant å se at de retningslinjene jeg har trukket over, stemmer godt med de fleste plattformene. Etter å ha sjekket forskjellige systemer både gamle og nye, har jeg kommet til at absolutt alle har både maskinlyder, maskin- og systemvarestyrte lyder: Atari, Amiga, Dos, OS/2, Unix, Linux, BeOS, Windows og Mac.

Apple og MacOs var en av de første produsentene til å tilby et grafisk brukergrensesnitt, samt tilby lydredigering ved hjelp av datamaskiner. Helt fra starten har det også vært naturlig med lydvarsling. De fleste kjenner vel til den etterhvert ganske plagsomme froskelyden som til stadighet dukker opp på Mac-maskiner. Til forskjell fra de andre plattformene har Mac i all hovedsak satset på å bruke bare en lyd, som brukes til alle varselmeldinger og beskjeder. I kontrollpanelet ligger det noen forskjellige lyder man kan velge mellom eller det er mulig å spille inn sin egen lyd ved hjelp av mikrofon.

Unix/Linux og Windows har også operert med systemlyder i lang tid, men det er først de siste årene dette virkelig har blitt mye. Dette henger nok nøye sammen med oppblomstringen av et større marked for hjemmemaskiner. Produsentene lager nå ferdige pakker, kalt themes, som inneholder skjermbakgrunn, farver og en hel familie av sammenhørende systemlyder. Microsoft har til og med solgt disse separat gjennom sine Plus-pakker. På samme måte som for Unix og Linux, argumenteres det med at dette skal kunne gi brukeren en variert og unik arbeidsplass.

For å gi leseren en forståelse av hvordan systemlyder kan høres ut, har jeg i Tabell 1 samlet noen lydsett fra forskjellige plattformer. Hver av lydfigurene representerer et helt sett, hvor de forskjellige systemlydene ligger adskilt med 1 sekunds mellomrom.

LydfigurPlattformSettKvalitet
Lydfigur 3 MS Windows Standard 22 kHz, 16-bit, stereo
Lydfigur 4 MS Windows Jungle 22 kHz, 16-bit, stereo
Lydfigur 5 MS Windows Utopia 22 kHz, 16-bit, mono
Lydfigur 6 Unix/Linux KDE 22 kHz, 16-bit, mono
Lydfigur 7 Linux Enlighentment 22 kHz, 16-bit, mono
Lydfigur 8 Atari/Linux Ganymede 11 kHz, 8-bit, mono
Tabell 1: Oversikt over lydsett fra forskjellige plattformer

## Teknisk analyse av lydene

Det er en rekke tekniske problemer knyttet til bruk av systemlyder på datamaskiner. Det største er at digital lyd krever svært mye lagringsplass. Alternativet er å komprimere filene, men dette krever igjen prosessorkraft som vil gjøre systemet tregere. Både produsent og bruker er opptatt av at operativsystemet skal ta liten plass og kreve små ressurser, slik at mesteparten av maskinkreftene kan brukes til brukerens nytteprogrammer. Dette lar seg vanskelig forene med et ønske om å ha høykvalitets systemlyder som spilles av umiddelbart sammen med en skjermhendelse. Produsentene har derfor valgt å kutte i kvaliteten og lengden på systemlydene.

For noen år siden ble alle systemlyder konsekvent lagret med 8-bit oppløsning, 11 kHz samplingsfrekvens og mono-signal. Etterhvert som maskinene har blitt kraftigere har de fleste gått over til å bruke 16-bit, 22 kHz og ofte stereo. Lyden lagret på en vanlig CD-plate er derimot på 16-bit, 44,1 kHz, stereo, men vi må huske på at dette er en gammel oppfinnelse og på langt nær ideell fra et musikkteknologisk ståsted. Med DVD-Audio som nå begynner å komme på markedet kan vi få lyd med 24-bit, 192 kHz. og seks kanaler. Kvaliteten på systemlydene ligger med zndre ord langt etter det som idag er realiteten innen høykvalitets lyd.

Dette leder oss over til et viktig spørsmål: legger man egentlig merke til dette? De fleste mennesker vil nok ikke tenke over at denne lyden ikke har så høy oppløsning, men det gir seg helt klart utslag i lytteropplevelsen. Det er stor forskjell på 22 kHz og 44,1 kHz, og de fleste vil oppleve en tydelig forringelse i kvalitet. Dette gir seg blant annet utslag i oppløsningen og dybden i lyden. Det hørbare frekvensomfanget kan være maksimalt halvparten av samplingsfrekvensen, og det betyr at for en lyd med 22 kHz vil man ikke kunne høre lyder over 11 kHz(Jensenius, 1999). Siden mennesket kan høre lyder opp til 20 kHz vil man derfor miste en rekke overtoner hvis frekvensområdet innsnevres. Det har senere vist seg at selv lyder man ikke kan høre er med på å forme lydbildet og i tillegg vil alle transienter avtegnes tydeligere når samplingsfrekvensen heves (Ruud, 2000: 87). I tillegg til at systemlydene er av en begrenset kvalitet, er også ofte avspillingsmediet relativt dårlig. De fleste datamaskiner spiller av lyd gjennom små datahøyttalere. Disse har også et sterkt avgrenset frekvensomfang og dårlig dynamikk.

For å kompensere for et tynt frekvensomfang, må lyddesignerne mikse lyden spesielt tilpasset for datahøyttalere. Figur 1 viser tidsdomenet til høyrekanalen av åpningslyden i Windows. Legg spesielt merke til hvordan et stort tidsområde av lyden ligger på et maksimalt utslag, og at det ser ut som mange av toppene kuttes. Dette kan kalles en form for over-normalisering, og det ser ut som lyden har blitt normalisert etter en maksverdi som ligger et stykke lavere enn de høyeste verdiene. Kombinert med en voldsom bruk av fading inn og ut, gjør dette at lyden høres ut som den blir kraftigere enn den er før den synker tilbake. På små datahøyttalere er det ganske virkningsfullt, mens når man spiller det på et ordentlig anlegg så hører man hvor presset lyden høres ut. Legg også merke til de lyse tonene i lyden og hvordan det er bevegelse i toppen. Dette er kanskje for å kompensere for hele spekteret av overtoner som ikke finnes, og gjør at lytteren opplever et spekter med lyd både i topp og bunn.

En annen interessant ting er å legge merke til hvor mye kompressor det er brukt på lydene. En kompresjon “trykker” amplituden i signalet sammen, ved å forsterke de svake signalene og dempe de sterke. Igjen er dette med på å skape mer liv i små høyttalere, og man sikrer at alle små detaljer faktisk blir hørbare. Bruk av kompressor er svært vanlig i digital lydbehandling, og brukes mye på vokalopptak for å skape et jevnere lydbilde. Det spesielle med alle systemlydene er at det er brukt så mye kompresjon. Dette er spesielt tydelig i Lydfigur 10 og Figur 2. Legg merke til hvordan bakgrunnssuset i jungelen trekkes så voldsomt frem i lydbildet. Vi ser dette visuelt ved at bakgrunssnivået i lydbildet dekker godt over halvparten av det totale utslaget. Legg også merke til hvordan de lyse insektene høres metalliske ut, fordi det mangler en rekke overtoner.

I tillegg til oppløsningen og kvaliteten, er det lengden på lydene som er avgjørende for å spare harddiskplass. Når man hører på de forskjellige settene legger man fort merke til at hver enkelt lyd ofte bare varer i ett sekund, maksimalt to. Figur 3 viser alle lydene i et sett, adskilt med ett sekunds stillhet. Her ser vi tydelig hvordan innfyllingslydene er små og korte, mens det er noe lengre lydertil oppstart og avslutning. Legg også merke til at alle innfyllingslydene har et lydnivå som er omtrent halvparten av den kraftige introen og outroen. Dette passer godt til lydenes formål, ettersom innfyllingslydene må være korte, ikke for kraftige og spille umiddelbart mens brukeren arbeider. Derimot mener produsentene utvilsomt at brukeren har godt av å vente noen sekunder ekstra ved oppstart og avslutning, ettersom disse lydene er lengre og krever mer ressurser. Sett fra et musikkestetisk synspunkt er det selvfølgelig uheldig at alle lydene kuttes så brått. Selv om en lydhendelse er kort, kreves det atskillig mer tid til blant annet gjenklang for at lyden skal virke naturlig. Nå blir alle lydene fadet ut svært raskt. Ikke bare er dette med på å fjerne noe av realismen, men det avkorter også gleden over en fin lyd.

## Datamaskinlyder fra et musisk perspektiv

En fysisk synsvinkel oppklarer mange problemer, men sier lite om innholdet i lydene og hvilken effekt de har på oss. Hva minner lydene oss om? Hvordan er de bygget opp? Hvorfor er de samlet i forskjellige sett? Hva slags tonalt plan ligger de på? Hvorfor er de knyttet opp mot en bestemt handling. Siden alle produsenter bruker lyder, må det jo ligge en klar bevisst tankegang bak. Det har vært forsket mye rundt kognisjon og persepsjon, og hvordan lyder er med på å påvirke menneskene

I boken Det musiske menneske beskriver Jon Roar Bjørkvold hvordan lyd og musikk er et viktig verktøy i menneskets tilnærming til verden. Etter studier av forskjellige barnekulturer beskriver han hvordan allerede små barn knytter lyd og musikk til handlinger og kommunikasjon. Begrepet sikia introduseres som en beskrivelse for helhetssansningen. Denne inkluderer blant annet bevegelse, syn, følelse og hørsel og utløser helhetsbegrepet ngoma hos mennesket (Bjørkvold, 1999: 61-64). Tanken med å knytte lyder til spesifikke hendelser i en datamaskin følger altså naturlig fra menneskets tradisjon for læring og forståelse. Dette er interessant å tenke på når vi nå skal se litt nærmere på noen av systemlydene.

Innenfor filmverdenen er det vanlig å dele lydbruk i inn i tre kategorier: tale, musikk og lydeffekter, hvor lydeffektene videre kan deles inn i Foley-effekter og spesialeffekter . Foley-effektene dekker menneskelige ikke-vokale lyder som for eksempel fotskritt og klapping, mens spesialeffektene er for eksempel pistolskudd og søppelkasselyder (Moorer 1982: 599). Fra dette kan vi slå fast at de aller fleste systemlydene passer inn under kategorien spesialeffekter. Kun ett av settene presentert i Tabell 1, bruker gjennomgående tale. For de litt lengre åpnings- og avslutningslydene er bruken av melodier og musikk vanlig. Tabell 2 viser noen utvalgte lyder fra tre forskjellige lydsett satt opp i forhold til hvilken hendelse de skal følge.

Hendelse Standard Jungle Utopia
Åpningslyd Lydfigur 12 Lydfigur 13 Lydfigur 14
Maksimere program Lydfigur 15 Lydfigur 16 Lydfigur 17
Minimere program Lydfigur 18 Lydfigur 19 Lydfigur 20
Varselsignal Lydfigur 21 Lydfigur 22 Lydfigur 23
Søppelkasselyd Lydfigur 24 Lydfigur 25 Lydfigur 26
Avslutningslyd Lydfigur 27 Lydfigur 28 Lydfigur 29

Tabell 2: Oversikt over hendelsesspesifikke lyder.

La oss starte med åpningslyden, eller som man sier i satslæren: introen. Musikkstudenter lærer at en intro skal angi tempo og toneart, vise stemningen og den skal være spennende. Hvis vi ser på de tre åpningslydene fra Tabell 2, kan vi ihvertfall fastslå at alle fører oss inn i en stemning og de er også ganske spennende. Jungle-lyden er en ren lydeffekt, mens introene til Standard og Utopia er tonale (C-dur). Legg også merke til tersstablingen i Utopia-lyden (tonene c-e-g-a-c). Til å vare i bare fem sekunder, har lyddesignerne klart å putte inn en rekke forskjellige elementer, og dette er nok med på å gjøre introene fengende. I tillegg er lydene ganske hyggelige og snille, noe som burde blidgjøre brukeren som skal arbeide med maskinen. Med litt godvilje kan altså alle disse åpningslydene bli godkjent som en klassisk intro.

Hvis vi ser på lydene for å starte eller maksimere et program så følger alle tre et ganske likt mønster. De er korte, mikset lavere enn åpningslyden og i tillegg har de en tonal bevegelse oppover. Tilsvarende virker det som lydene for å minimere et program starter på en lavere tone og har en tonal beveger nedover. Dette er ikke like tydelig for alle, men det ligger nok allikevel en bevisst tanke bak dette. Bjørkvold (1999: 80) påpeker hvordan barnets tegning også går opp og ned med lydene som barnet lager. En tonal bevegelse oppover vil derfor automatisk forsterke det visuelle vi opplever på skjermen, et program som åpner seg. Tilsvarende vil den nedadgående lyden være med på å forsterke følelsen av at programmet lukkes og dette til bakken. Dette er effektive virkemidler og noe komponister og musikere til alle tider har visst å verdsette.

Varselsignalet bør helst bryte med de andre lydene, og det gjør det også ganske tydelig i disse eksemplene. Lyden i Standard-settet er en kort treklang med G som grunntone. Lyden er noe forvrengt og selv om den ikke er så fryktelig dissonerende, høres den allikevel markant og tydelig. Jungle-lyden høres litt ut som et brøl fra et neshorn og bærer også bud om at ikke alt er like rolig og fredelig i skogen. Utopia-settet har en kort, mørk og pulserende G. Også fra de andre settene jeg har hørt på viser det seg at varsel-lyden er dypere, har et hardere attack og er kortere enn mange av de andre lydene. Dette er også helt i tråd med standardene i klassisk musikk, hvor mørke toner og dissonerende intervaller (spesielt tritonus) skaper en mer dyster stemning.

Visualiseringen er enda mer tydelig når det gjelder søppelkasselyden. I Standard-settet hører vi lyden av papir som krølles sammen (i Windows 95 var det til og med lyden av at papiret ble kastet i en søppelkasse). I Jungle-settet hører vi at noe blir kastet i vannet, mens lyden i Utopia er en tonalt fallende skalabevegelse. Igjen er disse lydene med på å underbygge et klassisk programmusikalsk verk.

For å avslutte den lille konserten, kan vi lytte til de forskjellige avslutningslydene, outroen. Her er det interessant å høre hvordan Standard-lyden er en tonal kadens til F-dur. Jungle-lyden bærer preg av at det er blitt kveld, det tordner litt og bakgrunnslyden av yrende smådyr har avtatt. Jeg synes ikke at Utopia-lyden i samme grad klarer å gi følelsen av at noe er slutt, men elementer av barnelatter kan være med på å vri tankene ut av vinduet og mot resten av verden. Legg merke til at også Utopia-lyden havner på F-planet i avslutsningslyden.

Når vi ser på settene som helhet, er det svært interessant å se at både Standard-settet og Utopia starter i C, ligger på G på varselsignalet og havner på en F i avslutningen. Hvorfor har man valgt å gjøre det slik? Hvorfor kan ikke arbeidsøkten slutte i samme toneart som den begynte? Det er ihvertfall tydelig at dette er godt gjennomtenkt fra Microsoft sin side. Av de seks Microsoft-lydsettene jeg har tilgang til, er det ingen som begynner og slutter på samme tonale plan, og over halvparten slutter i F. At åpnings- og avslutningslydene er på forskjellig tonalt plan er faktisk ganske likt for sett fra andre produsenter også. Kanskje mener lyddesignerne det er viktig at man har en annen tonal følelse når man begynner enn når man avslutter. Her ligger det åpenbart mange spennende musikkpsykologiske spørsmål.

Det er nærliggende å trekke en parallell mellom systemlydene og en klassisk komposisjon. Finner vi ikke både intro og outro, eksposisjoner, gjennomspill og lydmalende elementer, kadenser og modulasjoner? Kan vi si at brukeren er med på fremføringen av et musikkstykke ved en økt foran maskinen? Det er ihvertfall tydelige elementer av en form for hypertekstualitet? Hypertekst er et begrep som beskriver hvordan tilsynelatende separate tekstblokker kan kobles sammen ved hjelp av pekere, akkurat slik Internett fungerer. Petter Dyndahl har vært opptatt av om man på samme måte kan snakke om en form for musikalsk hypertekstualitet.

“Musikkens strukturelle plan konstitueres interrelasjonelt av samtidige lag eller sjikt, ikke av suksessive gester og fraseringer. […] I vertikal musikk dominerer ikkelinearitet. På den måten er det den musikken som bryter mest radikalt med den vestlige tradisjonen. […] Hvis vi betrakter de teknikkene som brukes i kreeringen av techno, ser vi at hovedmaterialet ofte er basert på sampling av enhver tenkelig lydkilde i tid og rom, og at dette mikses på forskjellige måter i den utøvende formidlingen. […] Ved å betrakte denne aktiviteten i det metaforiske skinnet fra hypertekst, får vi øye på en skrivbar, ikkelineær virksomhet som på en fundamental måte er intertekstuell.” (Dyndahl, 1998: 75-76)

Selv om noen timer foran datamaskinen kanskje ikke oppleves på samme måte som å høre på en plate med techno-musikk, så ser vi helt tydelig at det er likhetstrekk med bruken av systemlyder. De er jo også korte samplinger som spilles, avhengig av brukerens valg. Forskjellen er at det foregår over lengre tid og at brukeren bare passivt avspiller lydene, de kommer som reaksjoner på brukerens aktivitet, og ofte uventet. Uansett kan vi si at systemlydene er en del av brukerens helhetsopplevelse, ngoma, ved datamaskinen.

## Hvilken funksjon har systemlydene?

Dette leder oss over på en interessant problemstilling: Hvorfor ønsker man i det hele tatt lyder? Har de egentlig noen funksjon? Har det noe med å ufarliggjøre datamaskinen? Få maskinen til å virke mer virkelighetstro? Et ønske om en mer human og tiltrekkende maskin? Er det bare for gøy? En rekke spørsmål og det er ikke lett å gi noe svar. Jeg har forgjeves forsøkt å finne artikler eller bøker som tar opp disse problemene, og produsentene selv har ikke lyst til å uttale seg om lydsettene.

Systemlydene på de første datamaskinene var ment som varseltoner og beskjeder om pålogging og lignende hendelser. Da hadde lydene en praktisk betydning for brukeren i forhold til datamaskinen. Etter å ha skrudd på datamaskinen visste man at boot-prosessen var igang når maskinen hadde gitt fra seg et pip. Tilsvarende kunne man få et lite signal når maskinen var ferdig med for eksempel en beregning. Noe av dette har vi også i dag. Slik jeg nevnte innledningsvis, har også dagens maskiner en innebygget PC-speaker som lager et par lyder. Dette er altså hjelpelyder som har en praktisk funksjon, de er ment for å lette brukerens arbeid med maskinen.

Den moderne maskins forskjellige lydsett kan kanskje ikke sies å ha den samme praktiske betydningen. Selv om man til en viss grad kan hevde at noen av disse har en rent praktisk betydning, er ikke dette god nok forklaring til å tilby fem forskjellige søppelkasselyder. Jeg tror mye av tanken bak forskjellige lydunivers ligger i å ufarliggjøre maskinen. Ved å bruke kjente eller mer eksotiske lyder blir maskinen levendegjort på en helt ny måte. Datamaskinen har gått fra å være en regnemaskin til å bli et multimedie-verktøy for hele familien. Det grafiske brukergrensesnittet har stått sentralt i arbeidet med å tilrettelegge datamaskinbruk for alle. Først med MacOS og senere Windows kunne brukerne orientere seg på et skrivebord og åpne vinduer og mapper . Det sentrale har vært å bruke familiære bilder på de forskjellige dataverktøyene. Brukeren skal tenkte i virkeligheten og utføre på maskinen. Da skjønner vi også hvorfor det har vært viktig å kunne ha lyder som forsterket denne opplevelsen. Søppelkasselyder, krøllet papir og stigende og synkende lyder er med på å gjenskape en kunstig arbeidsplass. Det virtuelle skrivebordet og gjenkjennelige lyder har lært folk at datamaskinen er for alle.

Etterhvert som flere og flere har fått maskiner, og den generelle data-skrekken har sluppet taket hos de fleste, har produsentene sett hvordan selve dataopplevelsen kan styrkes. Fra å være et praktisk verktøy og deretter en ufarliggjører går systemlydene over i en opplevelsessfære. Som tidligere nevnt produseres det i dag en mengde themes. Hvis man for eksempel velger å bruke Microsofts Jungle Theme, vil skrivebordsbakgrunnen fylles av et eksotisk dyr og alle farver på menyer og knapper vil justeres etter bildet. Istedenfor den vanlige pilen vil et helt nytt sett med kursorer dukke opp. For å komplementere stemningen er også alle lydeffektene basert på typiske jungellyder. Det er her altså snakk om å få en totalopplevelse. Den kjedelige hverdagen skal byttes ut med en spennende reise. Mange av de vanligste themesene til Windows og Linux baserer seg på nettopp dette, reiser, verdensrommet og eksotiske kulturer.

Som et siste punkt, tror jeg produsentene ønsker å få folk til å velge themes avhengig av identitet. Tanken er at forskjellige menneskegrupper vil velge forskjellige oppsett avhengig av smak og erfaring. Man kan få en datamaskinverden omkranset av jungel, Star Wars, hippie-tiden eller rett og et slett et vanlig skrivebord: “hvis meg ditt maskinoppsett og jeg skal si deg hvem du er”. Microsoft har varslet at dette skal kunne utvikles enda lenger de nærmeste årene ved at man skal kunne lagre alle sine personlige innstillinger på nettet. Da kan alle de personlige opplysningene bli hentet opp fra hvilken som helst maskin man logger inn på i hele verden. Dokumenter, bakgrunn og lyder vil kunne følge brukeren rundt omkring i verden og passe på at man beholder sin identitet og tilhørighet.

## Påvirkning på brukeren

Alt dette høres vel og bra ut, men fungerer det egentlig slik? Hvordan oppfatter vanlige brukere disse mulighetene? Er det effektivt? Er det underholdende? I arbeidet med denne oppgaven har jeg snakket med både unge og gamle mennesker, i forskjellig livssituasjon og med forskjellige behov. Jeg har spurt dem om hvordan de arbeider med datamaskinen og i hvilken grad de bruker systemlyder. Gjennomgående har svarene vært at de fleste irriterer seg over datamaskinlydene og mange har også sørget for å skru de av. Jeg har sammenfattet svarene jeg har fått og presenterer disse ved hjelp av tre fiktive personer, som jeg tror er representative.

Lars, 20 år, informatikkstudent
Lars er god på data og bruker mye tid ved maskinen sin. Han kjører både Linux og Windows og har en rekke forskjellige themes til begge systemene. Tidligere syntes han det var morsomt å kunne veksle mellom forskjellige skjerm- og lydoppsett, og vise det til venner. Etterhvert har han blitt lei og sier at han blir sliten av at det hele tiden kommer forstyrrende lyder. Dessuten spiller han stort sett MP3-filer hele tiden og lydene ville ha kommet i bakgrunnen og hatt liten praktisk effekt. Han har nå skrudd av alle systemlydene på maskinen, men har satt på et maskinvarepip hver gang det kommer ny mail.

Monica, 40 år, salgssjef

Kåre, 80 år, pensjonist
Kåre har nylig kjøpt en bærbar datamaskin med internettoppkobling. Han ønsker å skrive brev og artikler samt sende e-post til sine barnebarn. Maskinen kom ferdig innstallert med Windows 98 og Kåre har ikke forandret noe på oppsettet. Det er derfor de vanlige systemlydene til Windows som til stadighet dukker opp. Kåre sier at han egentlig ikke tenker noe særlig over dette, han trodde det var slik maskinen var. Lydene plager ham egentlig ikke så mye for han hører litt dårlig. Ikke vet han hvordan han skal fjerne dem, så han lar det bare være. Han har blitt forklart hvordan han kan surfe på nettet, høre MP3-filer og spille av DVDer på maskinen, men bryr seg ikke så mye om dette. Dataen er i utgangspunktet en skrivemaskin.

Jeg vil tro at disse tre eksempelpersonene er svært representative for de fleste datamaskinbrukere. En gruppe mennesker er bevisst lydene, har til en viss grad brukt og eksperimentert med dem, men har valgt å koble dem av. En annen gruppe har ikke tenkt noe særlig over lydene og lever passivt sammen med dem. Den siste gruppen er de eneste brukerne som har et bevisst forhold til systemlydene. Dette er gjerne i jobbsammenheng og lydhendelsene brukes aktivt som en effektivt verktøy. For disse menneskene er imidlertid det musikalske aspektet ved selve lyden svært lite viktig. Hovedpoenget er at det kommer en lyd til riktig tid. Ingen av de nærmere 15 menneskene jeg har snakket med sier at de liker eller har bruk for alle de forskjellige lydsettene. Det er nærliggende å undre seg over hvorfor produsentene faktisk lager alle disse lydsettene?

## Veien videre

Det er en rekke gode argumenter for å bruke systemlyder på en datamaskin. Det kan være praktisk og effektiviserende, levendegjørende, opplevelsesfullt og identitetsskapende. Det passer inn i tanken om helhetssansing, opplevelse, og en musikalsk hverdag. Allikevel kan jeg ikke fri meg fra følelsen av å rett og slett bli plaget når  maskinen for tiende gang sier “plong” eller spiller fanfarer. Det er morsomt å høre på jungel-lyder en gang iblant, men irritasjonen ligger ikke langt under overflaten. Jeg tror noe av hovedpoenget med en datamaskin forsvinner hvis man overgir seg helt til effektenes verden. For meg og de fleste andre brukere er datamaskinen et arbeidsverktøy, som i tillegg kan underholde. Når man arbeider en god del med lydbehandling og musikkskriving på maskinen blir det desto mer forstyrrende at det dukker opp tilfeldige lydelementer. Når disse lydene i tillegg er korte og høres anstrengt ut over anlegget, så forsvinner også det musikkestetiske elementet. Det som i utgangspunktet skulle være til glede og hjelp har blitt til et spillende mareritt og auditiv voldtekt. Enda verre blir det når flere maskiner er i samme rom. Jeg husker enda med gru hva slags intenst lydbilde nærmere femti datamaskiner klarte å lage på en datalab. Da er det ikke bare plagsomt, men det går på arbeidsmiljøet og helsen løs.

Det er ikke tvil om at fremtidens datamaskiner også kommer til å lage lyd, men jeg tror at brukerne snart er lei av muligheten til å forandre skjermbakgrunn og forskjellige lyder hele tiden. Forhåpentligvis vil markedet vende seg mot mer praktisk anvendbare systemer. Stemmegjenkjenning og stemmestyrte kommandoer har vært tilgjengelig i lang tid, men det er først med dagens raske maskiner og programmer at dette virkelig kan bli utviklet til praktisk og rask databruk. Et annet spennende felt er hvordan stadig flere forskjellige former for medier samles i datamaskinen, blant annet lyd og bilde. Med fremveksten av mindre og kraftigere lommemaskiner, vil dette være med på å forandre hverdagen. Da blir ikke målet først og fremst at maskinene skal lage lyder, men at de skal oppfatte lydene rundt seg og reagere på stemmestyrte kommandoer. Det hele handler om at menneskene tar kontrollen, ikke motsatt.

## Litteraturliste

• Bjørkvold, Jon Roar (1999): Det musiske menneske, Oslo: Freidig forlag
• Dyndahl, Petter (1998): IT-relatert musikkundervisning mellom moderne utopi og postmoderne ironi. Artikkel i (Red.) Dyndahl, Petter (1998): IT og musikk i allmennlærerutdanningen. Rapport 2, Høgskolen i Hedmark
• Hammer, Øyvind (1997): Digital lydbehandling, Oslo: NOTAM
• Jensenius, Alexander Refsum (1999): Digitalisering av pianolyd: Noen problemområder, med vekt på fysisk signal og menneskelig oppfatning, Semesteroppgave i grunnfag Musikkvitenskap, Universitetet i Oslo
• Jensenius, Alexander Refsum (2000): MP3: Friend of the Youth or Enemy of the Sound? A discussion of different sound formats and problems with sound compression, Semesteroppgave i mellomfag Musikkvitenskap, Universitetet i Oslo
• Moorer, James A. (1982): The Lucasfilm Audio Signal Processor. Artikkel i (Red.) Roads, Curtis (1989): The Music Machine, Selected Readings from Computer Music Journal, Cambridge, Massachussets: The MIT Press
• Ruud, Even (1997): Musikk og identitet, Oslo: Kunnskapsforlaget
• Ruud, Øyvind (2000): Den nye verden: DVD audio, Artikkel i Lyd og Bilde nr. 10/00
• Vistnes, Arnt Inge og Bugge, Lars (1993): FYS 115 øvelse 12 Digitalisering av lyd, Labintroduksjon Fysisk institutt, Oslo

## MP3: Friend of the Youth or Enemy of the Sound? A discussion of different sound formats and problems with sound compression

Term paper in “Musikkvitenskap mellomfag” spring 2000

## Abstract

The paper starts with presenting some of the concepts behind digital audio compression, before describing some of the most popular sound formats available today: the different standards in the MPEG-family, RealAudio, ATRAC, MS Audio, SACD and DVD Audio. The author argues that there are lots of positive aspects of sound compression, but perhaps this overwhelming popularity will limit the development of new and better standards, like Super Audio CD or DVD Audio.

## 1. Introduction

The last years have shown a growing amount of various multimedia standards and applications, like MP3, MPEG, MD, DVD, DAB, AC-3 and RealAudio. Similar for all of them is the dependency on sound compression during digital transfer, and they have all been applied to a wide range of applications (Brandenburg and MPEG-2 FAQ):

• Broadcasting: Digital Audio Broadcasting (DAB, ADR, Worldspace Radio, Cable Radio, Internet Radio), cable and satellite TV (DVB, USSB, DirecTV, EchoStar)
• Storage: Digital Video (DVB, Video CD, DVD), Digital Compact Cassette (DCC), Solid State Storage Audio, Portable music devices (MP3-players)
• Multimedia: Computer based Multimedia (e.g. Java, Flash, games, consumer programs), multimedia on the Internet
• Telecommunication: ISDN transmission, contribution links, distribution links

All the big companies behind the different standards claim that their product provides the best HI-FI quality at the lowest bit rate. But how do these standards actually work and which one is better for what use?

I will start off by briefly describing some concepts of digital audio compression, and how insight into psychoacoustics can help produce transparent sound compression. I assume the reader to have basic knowledge of digital signal processing, and will therefore not define standard concepts. Then I present some of the most popular sound formats, both those intended mainly for Internet usage and those giving high quality sound. Finally, I will discuss how the enormous popularity of standards using sound compression might result in unconsciousness about sound quality, and how this can limit the development of better standards. It is then interesting to pose the question: is MP3 the friend of the youth or the enemy of the sound quality?

## 2. Principles of Digital Audio Compression

With analog systems the different possibilities of audio quality was basically limited to choosing between stereo or mono, and the quality of the tape. Unlike the virtually “infinite” quality of analog systems, digital signals are dependent on the conflicting interests of high sampling rates versus small storing space. When Sony/Philips introduced the CD in 1980, they settled at a standard of 44,1 kHz and 16 bit. This confirms with the concept “Nyman frequency” telling us that the sampling frequency has to be minimum twice the highest frequency in the signal to avoid distortion (Jensenius, 1999). Since the human ear is capable of hearing sounds up to 20 kHz, the CD-medium should be able to present all frequencies audible to the human ear.

The audio on a CD is stored in a format called Pulse Code Modulation (PCM), where each sample is represented as an independent code (Pan, 1993). This requires a huge amount of samples to reproduce a good signal. We can easily calculate the amount of storage space necessary to save one minute of CD-quality sound, when we know that there are 44 100 samples every second, and that there are eight bits per byte:

44 100 samples/s * 2 channels * 2 bytes/sample * 60 s/min = 10 MB/min

If we were to have such audio files on the Internet, it would take up to an hour just to download one minute of high quality music, using a conventional modem. Clearly, it was necessary to develop systems to compress the sound while keeping up a high sound quality.

### 2.1 Lossless Coding

An ideal coding scheme allows for reconstruction of the original signal. One method of perceiving this is by dividing the signal up into 4 categories: irrelevant, redundant, relevant, and not redundant. The scheme will then remove either the amount of irrelevant or redundant information or both. This type of encoder can give a compression ratio of 1:2 up to 1:3,5, dependent on the signal, and still be able to fully reconstruct the original sound (Erne, 1998: 152). Different encoders use both linear prediction and a transformation with entropy encoding (for example Huffmann). The linear predictor minimises the variance of the difference in signals between samples. Then the entropy coder allocates codewords to the different samples (ib.), so that they can be reproduced in the correct order.

### 2.2 Psychoacoustics

During the years scientists have discovered a range of disabilities in the human ear. These prove extremely useful when compressing sound, as the whole idea of psychoacoustic models is to determine what parts of a sound are acoustically irrelevant.

An interesting result is that the sensitivity of the ear varies with frequency. The ear is most sensitive to frequencies in the neighbourhood of 4 kHz. Thus some sound pressure levels that can be detected at 4 kHz will not be heard at other frequencies. This also means that two tones of equal power but different frequency will probably not sound equally loud. Equi-loudness curves showing this effect is graphed in Figure 1a. The dashed curve indicates the minimum level at which the ear can detect a tone at a given frequency (Tsutsui, 1992). Filters based on this concept are used in most coding algorithms.

Another important concept is that of auditory noise masking. A perceptual weakness of the ear occurs whenever the presence of a strong audio signal makes a spectral neighbourhood of weaker audio signals imperceptible (Pan, 1993: 6). For a certain period of time only the strongest tonal signal may necessarily be presented, because the weaker signals will not be audible anyway. Look at the examples of simultaneous masking and temporal masking in Figure 1b and 1c. From these we can conclude that simultaneous masking is more effective when the frequency of the masked signal is equal to or higher than that of the masker. As well, forward masking can be effective for a longer time after the masker has stopped than the backwards masking. Both these concepts greatly help to compress the sound signal.

The concept of dividing the spectrum into critical bands, is explained by the ear’s tendency to analyse the audible frequency range using a set of subbands. These subbands can be thought of as the frequency scale used by the ear. The frequencies within a critical band are similar in terms of the ear’s perception, and will therefore be processed separately from sound in the other critical bands. As we see from Table 1, the critical bands are much wider for higher frequencies than for lower. This means that the ear receives more information from the low frequencies than from the higher (Tsutsui, 1992), and this should be thought of when deciding what parts to compress the most in a signal.

There are several other topics of psychoacoustics that are used in sound compression algorithms, but those mentioned above are the most popular and the ones giving the best signal reduction. It is also important to remember that these concepts are based on the perception of people with “average ears”, and that some people, especially children, may be able to hear sounds in the regions being cut off.

## 3. Different Sound Formats

There are lots of different sound formats available, some made for use on the Internet and others as pure high quality standards. I will go through some of the most widely spread formats and also some of the new rising standards that probably will dominate in the future.

### 3.1 MPEG-1

The Moving Pictures Experts Group (MPEG) was set up as a group under the International Organisation for Standardisation (ISO) in the end of the 1980s. It was meant to provide standards in sound and video compression, and how the two should be linked together. The audio part of MPEG-1 is described in three different layers of increasing complexity and performance. Layer I offering a compression ratio of 1:4, Layer II of 1:6 to 1:8 and finally the advanced Layer III of 1:10 to 1:12. These layers are hierarchically compatible, such that Layer III decoders can play all three layers, while Layer II decoders can play Layer I and Layer II bit streams. In the standardisation, MPEG has specified the bit stream format and the decoder for each layer, but not the encoder. This was done both to give some more freedom to the implementers, but also because some of the big companies taking part in the standard did not want to reveal their business concepts. Nevertheless, the MPEG-group has submitted some publicly available C source for explanation purposes.

An overview of the MPEG-1 audio encoding is shown in Figure 2. All three layers are built upon the same standard specification of perceptual noise shaping, using the same analysis filterbank. To ensure compatibility, all the compressed packets have the same structure with a header explaining the compression being used, followed by the sound signal. This proves practical because every sequence of audio frames can be used separately as they provide all the necessary information to decode it. Unfortunately, this also increases the file size, something the groupes behind competing standards have been criticising. Another common and important feature is the ability to insert program related information into the coded packets, such that items could be linked in for example multimedia applications (Fraunhofer, FAQ Layer 3).

The three layers all have different applications, depending on the bit rate and compression ratio wanted. For example, Layer I was the audio standard in the Digital Compact Cassette (DCC) launched by Philips. Undoubtedly, the most popular of these have been Layer III, but then often called MP3. The name MP3 was invented when making file extensions on the Windows platform. Since the typical extension consists of three letters, “MPEG-1 Layer III” became MP3. This name has resulted in a lot of confusion, and lots of people mix up the different MPEG-standards and the corresponding layers. Note that there does not exist any MPEG-3 specification! As for the compression ratio, Table 2 shows some of the different qualities Layer III can deliver. The popular “MP3-music” on the Internet is most often coded with a bit rate of 128 kbit/s.

Enhancements of Layer III over Layer I and Layer II include nonuniform quantization, the usage of a bit reservoir, Huffmann entropy coding and noise allocation instead of bit allocation. These are all powerful tools, requiring much better encoders than the other layers. This is no problem today, as even the cheapest computer easily manages to process such files.

## 3.2 MPEG-2

MPEG-2 BC became an official standard in 1995. Carrying the tag BC (Backward Compatible), it was never intended to replace the schemes presented in MPEG-1 but rather supply new features. It supports sampling frequencies from 16 kHz to 22,05 kHz and 24 kHz at bit rates from 32 to 256 kbit/s for Layer I, and from 8 to 160 kbit/s for Layer II and Layer III. For the coding process this only implies some more tables included to the MPEG-1 audio encoder.

Another important feature is the addition of multichannel sound. MPEG-1 only supports mono and stereo signals, but for coding movies it was necessary to design support for 5.1 surround sound. This includes five full bandwidth channels and one “low frequent enhancement” (LFE) channel operating from 8 kHz to 100 kHz (MPEG-2 FAQ). Because of the backwards compatibility it was necessary to present a solution where all six channels could be mixed down to a stereo signal. If we call the two stereo channels L and R, adding a matrix system to the sound solves this:

L: left signal + (a · centre signal) + (b · left surround signal)
R: right signal + (a · centre signal) + (b · right surround signal)

where a and b represent a specific codec. Hence a full stereo picture can be reproduced in the decoder. But this system was greatly criticised, among others by Roger Dressler the technical manager of Dolby Laboratories. He argued that MPEG-II surround sound was not fitted as a new consumer format, and that it was limited by the backward compatibility (Braathen, 96). Therefore MPEG started working on a new standard. This was originally thought to be MPEG-3, but since the video part of the new standard could easily be implemented in MPEG-2, the audio part was named MPEG-2 AAC. Issued in 1997 (MPEG-2 FAQ), this new standard features the Advanced Audio Coding (AAC), a totally different way of representing the sound than PCM. AAC defines a coding standard for 1 to 48 channels with sampling rates of 8 to 96 kHz, and three different profiles of various complexity (MPEG FAQ). Instead of the filter bank used by former standards, AAC uses a Modified Discrete Cosine Transform (MDCT). Using the concept of Temporal Noise Shaping, this shapes the distribution of quantization noise in time by prediction in the frequency domain (MPEG-2 FAQ). Together with an increased window length of 2048 instead of 1152 lines per transformation, this gives a compression approximately 30 % more efficient than that of MPEG-2 BC (Fraunhofer, AAC FAQ).

A big advantage of MPEG-2 AAC is that it was never designed to be backward compatible. This solved the MPEG-2 BC limitation problems when processing surround sound. As well, MPEG changed the highly criticised transport syntax, leaving to the encoding process to decide whether to send a separate header with all audio frames or not (MPEG-2 FAQ). The result is that AAC provides a much better compression ratio relative to former standards, and is appropriate in all situations in which backward compatibility is not required or can be accomplished with simulcast. Formal listening tests have shown that MPEG-2 AAC provides slightly better audio quality at 320 kbit/s than MPEG-2 BC can provide at 640 kbit/s (ib.). It is expected that more and more services will turn towards AAC as the sound compression system. With time it will probably be the successor of Layer III (MP3), featuring the same quality at 70% of the size at a rate of 128 kbit/s.

### 3.3 RealAudio G2

RealAudio 1.0 was introduced in 1995 as an Internet standard developed to offer fast downloads over conventional modems. Thus a lossless or transparent compression was wide ahead of the scope of the standard. The newest version in the standard is called RealAudio G2, featuring up to 80% better download times than its predecessors. This has made it the most popular tool for live broadcasting on the web.

One major improvement is the handling of data loss while streaming. The available bandwidth on the web may vary, and earlier this often resulted in “empty spaces” in the sound being played. The RealAudio G2 codec has been designed so that the data packets are built up by parts of neighbouring frames, overlapping each other so that one package may contain parts of several seconds of music. The result is that if some packets are “lost”, the possible gap will be filled in by an interpolation scheme. Even if several packets are lost, the engine will manage to produce a quite good result (RealNetworks). This works out in much the same way as interlaced GIF-pictures.

The RealAudio G2 codec is optimised for Internet speeds of 16 to 32 kbit/s, but with support for rates from 6 to 96 kbit/s. This has made it popular because it allows a wide range of bit rates, as well as the ability to constantly change bit rate while streaming. Due to its great success, RealNetworks has expanded the scope offering not only sound transfer, but also video and different multimedia platforms such as VRML and Flash. They also work on a descriptive tool to describe the content of the media being played, a “light version” of MPEG-7 as will be explained later. A problem with the RealNetworks products is the lack of public source and the great limitations in the free coding tools. The consumer market could easily turn down an expensive system, and even the big companies would rather think about using free and easily available tools as AAC or MS Audio instead (Weekly, 1999).

### 3.4 Microsoft Audio v4.0

As for everything else, Microsoft also wants to be in the game, and they have made their own standard called Microsoft Audio v4. They have been very strict on not publishing any information about how this standard is implemented, but they have revealed that it is not based on filterbanks. David Weekly has made an extensive test of MS Audio compared to RealAudio and MP3. He is quite impressed and argues that it may be as good as MPEG in the near-to high quality range. On the negative side is the fact that it only runs on computers with Microsoft platforms (Weekly, 1999).

### 3.5 Minidisc/ATRAC

Sony launched the Minidisc in 1992, but it was not until 1996 that the consumer market got interested. It was never meant to compete with the CD but rather to be a replacement of the cassette tape as an easy-to-use, recordable and portable device. The term Minidisc only refers to the medium, the square disc, while the coding system is called ATRAC (Adaptive Transform Acoustic Coding for Minidisc). Based on psychoacoustic principles, the coder divides the input signal into three subbands and then makes transformations into the frequency domain using a variable block length. The transform coefficients are grouped into nonuniform bands according to the human auditory system, and then quantized on the basis of dynamics and masking characteristics (Tsutsui, 1992). While keeping the original signal of 16 bit and 44,1 kHz, the final coded signal is compressed by approximately a ratio of 1:5. The last years this system has become very popular, especially some of the ultra portable players featuring long playback times and good recording possibilities.

### 3.6 MPEG-4

With this new standard MPEG wants to provide a universal framework integrating tools, profiles and levels. It does not only integrate bit stream syntax and compression algorithms, but offers a framework for synthesis, rendering, transport and integration of audio and video (Erne, 1998: 155).

The audio part is mainly based upon the standards outlined in MPEG-2 AAC. Perceptual Noise Substitution (PNS) is among the new tools, and it works to save transmission bandwidth for noise-like signals. Instead of coding these signals, the total noise-power together with a “noise-flag” is transmitted. In the decoder the noise is re-synthesised during the decoding process (ib.). Another important feature is the scalability, giving the encoder the possibility to adjust the bit rate according to the complexity of the signal (Thom 1999).

Interesting for many developers is the ability to synthesise sound based on structured descriptions. MPEG-4 does not standardise a synthesis method, but only the description of the synthesis, meaning that any known or unknown sound synthesis method can be described (MPEG-4 FAQ). Lots of sounds and music are already made through synthesis methods, and by using MPEG-4 the final audio conversion can be left for the end computer. A parallel to graphics is the ability to make vector-based pictures and animations.

Text To Speech Interfaces (TTSI) have been around since the advent of personal computers, but MPEG-4 will standardise a decoder capable of producing intelligible synthetic speech at bit rates from 200 bits/s to 1,2 kbit/s. It will be possible to apply information such as pitch contour, phoneme duration, language, dialect, age, gender and speech rate. According to reports, the sound sounds quite real and reliable and the system has enormous capabilities. One advantage is the sound synchronisation in animations. The lips of a person talking in an animation could easily be synchronised to her lips, so that they will correspond no matter which language or speed she is talking.

An MPEG-4 frame can be built up by totally separated elements. This means that everything from all visual elements in a video picture to every single instrument in the sound can be controlled individually. Just imagine that you have a five-channel recording of a quintet playing Beethoven. Then you can just turn off one of the instruments and play that part yourself. Or if you watch a movie, you may be able to choose which language every single actor should speak, or wear, or even do. The concept of hypertextuality really gets to its power, with almost unlimited possibilities.

### 3.7 MPEG-7

While the former MPEG standards are designated to represent the information itself, MPEG-7 will represent the information about the information. The standard will not involve any sound compression in itself. Neither is the standard implemented in any available applications as the working group has yet to publish something more than the Working draft of December1999. Basically, MPEG-7 is meant for describing the content of media, and officially it is called ”Multimedia Content Description Interface”. What is sure is that the standard will be built up by involving three different parts: Descriptors, Descriptor Schemes and a Description Definition Language (MPEG-7 FAQ). It evolves from a serious problem of today’s Internet; the lack of a logical description of media files. For example, MPEG-7 will allow people to hum some lines of a melody into a microphone connected to their computer, and then a list of matching sound files will be listed. Another example is if you are interested in music played by a specific instrument. Then you can search for sounds with similar sound characteristics. MPEG-7 also opens for Automatic Speech Recognition (ASR) so that you can make a search by just forming a phrase like: “Find me the part where Romeo says ‘It is the East and Juliet is the sun’” (MPEG-7 FAQ). All these examples show the highly relevant connection to MPEG-4, as MPEG-7 provides the tools for accessing all the content defined within an MPEG-4 frame.

### 3.8 DVD Audio

Some of the sound compressing systems are presented above, but there are also some formats striving to only give the best possible audio quality. One of them being DVD Audio, presented by the DVD Forum. Everything was ready for a launch on the mass market by the end of 1999, but with the cracking of the code system of DVD video, it has been postponed while working on a better security system.

A DVD Audio disc looks similar to a normal CD, but it is capable of delivering much better sound quality during the 74 minutes. It allows six different sampling rates: 44,1, 88,2, 176,4, 48, 96 and 192 kHz, with a resolution of either 16, 20 or 24 bit. While the two best samplingrates can only be applied to a stereo signal, the others can be used for 5.1 surround sound. Even though a DVD Audio disc has a storage capacity of up to 5 GB, the original signal takes even more space. To account for this, DVD Audio uses a type of lossless packing called Meridian Lossless Packing (MLP) applied to the PCM bit stream (Braathen, 1999).

Some of the biggest music production firms like Warner and Universal have announced their support for DVD Audio. They have also secured that they will include a layer with the sound compressed in Dolby AC-3 as this will only take up about 5% of the space on the disc. Then at least all the DVD video players being sold will be able to play the new discs with a limited quality. However, it seems unlikely that the discs will be compatible with normal CD-players all over the world.

## 3.9 SACD

A concurrent to DVD Audio is the Super Audio CD launched by Philips and Sony. Here the two firms have left the old PCM system and started out with a system called Direct Stream Digital (DSD). This means a totally different way of thinking about the encoder/decoder, using 1 bit converters through the whole process. Such converters have been used in consumer electronics for a while, but then it has been necessary to translate the PCM signal before using the 1 bit chips. As shown in Figure 3, the bit stream of the SACD system is recorded directly to the disc, without converting to PCM (Ruud, 2000). This requires a sampling rate of more than 2800 kHz, to ensure good quality. With a technique of noise shaping, the final signal will have a bandwidth of more than 100 kHz with a dynamic range of 120 dB. Since this technique is much more efficient than PCM, it will allow for up to 6 independent, full bandwidth channels with lossless packing (Braathen 1999).

An advantage of SACD is that the discs play with full quality in normal DVD players being sold today. As well, the discs are usually made of two transparent SACD layers and one core layer that can be read by normal CD players. This means that the SACD should ideally be compatible with all CD players around the world.

It is argued that the SACD is an attempt from Philips/Sony to get hold of a new patent, as the CD patent is running old these days. This surely would involve a lot in annual income for these companies, as the standard is not publicly available. Another argument is that it will be expensive to convert all studio and recording equipment to the new 1 bit technology. While lots of independent organisations and companies want the DVD Audio to become the new standard, it seems like we are going to get a public fight. Because as it is today, some SACD discs have just started to reach the market, while DVD Audio is still striving with their security system. What is sure is that both systems prove clearly superior to normal CDs, or as the test panel in a HI-FI magazine is saying: “CD-players costing six-digit numbers sounds comic when listening to what cheap players can do with 24/96 recordings” (Ruud, 1999).

## 4. Discussion

Through the Internet, millions of people have the possibility to download music in fairly high quality to their computer. While young people convert their CD collection to MP3s and put on the net, the music companies are furious because they can do nothing but watch potential income pass back and forth on the web. Music licensing has become a big problem, as it is possible to make perfect digital copies, compress them and share them with the whole world. Still my concern is more on the sound quality side.

No doubt, there are lots of advantages of compressed music. If you have music files on your computer, the different decoder programs have advanced functions for creating playlists, presenting additional information about the song or performer or output visual presentations of the spectrum. Normal PCs often have hard disks of up to 20 GB. If filled up, this will give more than 300 hours of continuous music, without even worrying about changing a CD. Portable MP3-players let you copy files from your computer to a small device, and some companies have even launched MP3-players in conventional rack format. The minidisc has also become extremely popular, and especially the possibility to obtain good, digital recordings.

It is difficult to measure sound quality for compressed files. Old quality terms like signal-to-noise ratio are useless when for example a sound is stripped for certain frequencies. The only way to measure the quality has been through expensive listening tests. There have been carried out lots of big tests the last years, and most of them use a method called “triple stimulus, hidden reference”. Shortly, it applies a listening sequence ABC, where A is the original, and one of B and C is the original and the other being the coded sound. The listener has to evaluate both B and C using a scale from 1.0 to 5.0, where 5.0 means transparent sound quality. This method gives quite precise and statistically satisfactory results. The results are different, but many tests conclude that there are only minor differences between the original sound and the one compressed to for example an MP3 128 kbit/s signal.

However, these tests are carried out in professional studios under controlled conditions and using expensive studio monitors. The general MP3-listener is sitting with her computer playing sound through her mediocre PC sound card with a pair of standard PC-speakers. This involves a serious degrading of the final output sound quality. Firstly, there is the problem of the encoder. Lots of free, publicly available encoders let you produce your own files. But to ensure that the coding process is fast, most of them often skip some of the processes specified in the different standards. This is mostly a problem with encoders making MPEG files, since this standard is open. When it comes to the decoding, many of the most popular decoders, for example WinAmp, have obvious bugs, resulting in for example some specific frequencies being cut off, or unwanted masking effects.

Another problem is the hardware. All normal PC sound cards are capable of making sound, but they were never intended to play back high quality audio. The D/A chips on even the cheapest, standalone CD-player will most certainly outperform the chips placed on most sound cards. As well, the interior of a PC is not the ideal place for processing high quality audio, with lots of background noise from different devices like CD-ROM, hard drive, and especially the fan. The final, output sound may not only be encoded and decoded wrongly, but also distorted by noise and disturbances. Even if the speakers are of high quality, it cannot save a sound lacking stereo perspective, depth and overtones.

It is not my intention to withdraw people’s happiness of playing MP3-files on their computer, but rather make aware of some problems connected with compressing sound. The problem is not the different formats, because they are excellent for their use. But I think the whole society gets a problem when for example the biggest newspapers in Norway encourage people to convert the whole CD collection to MP3s. People will not only be used to an unnecessary degraded quality, but they may also limit the development of new and better standards. It is a fact that consumer interests often set the standard for future developments, and it is not guaranteed that the best alternative wins. An example of this was the battle between Beta and VHS on the home video scene. We could easily get a situation, where the advent of different sound compression systems, result in a glorification for smaller and more compressed sound files. That will be a serious loss for the high quality sound.

On the other side, some people have been arguing that the CD-medium lacks some of the richness and quality of the old LP. Hopefully that debate will finally come to an end with the introduction of SACD and DVD Audio. Both are capable of delivering a stunning sound quality of more than 24 bit and 96 kHz. This will hopefully thrill more than the music enthusiasts: “The music was not loud during the presentation, but gosh what a spacious playback: The music lived in the room as a breath of the summer winds, softly, light and tender. It played extraordinary easy, there were absolutely no sharp edges from the digital process.” (Ruud, 2000). Even though we might get a battle between these new “super standards”, tomorrows technology will probably be more than capable of playing both formats, as well as conventional DVD movies and CDs. The battle of the best sound is greatly dependent on the consumers, and hopefully they will claim their right for better quality.

## 5. Conclusion

I have presented some of the various sound formats, intended both for use on the Internet and as a high quality medium. Certainly, sound compression for storage and transfer on the web is a great possibility offering loads of new and exciting features. Still, I think it should not be forgotten that the whole concept of sound compression is to remove something from the signal. Even though this might not seem to be audible by the human ear, it could have other effects degrading the total experience. A sound is more than just the tone you hear, it is a wave you can feel on your skin, just as the deepest bass tones. The removing of initially inaudible overtones may alter the overall richness and depth of the sound image in a room. It all melts down to the fact that acoustics is one of the oldest and still most difficult sciences. The conclusion of my topic question may be: yes, sound compression may be the friend of the youth and the whole society, but it is also the enemy of the sound! Therefore we should never take any chances, and rather be sure to choose the better quality if available. So take some time to put that old CD in your player and be confident that you get the best possible sound.

## Bibliography

• Brandenburg, Karlheinz (1999): Mp3 and AAC explained, Proceedings of the AES 17th International Conference on High Quality Audio Coding, Florence, Italy
• Braathen, Espen (1996): Den allsidige platen kommer!, article in Audio Video 1/96, http://home.sol.no/~espen-b/dvd/format.html
• Braathen, Espen (1999): Standardene for superlyd er klare!, http://home.sol.no/~espen-b/dvd/audio/index.html
• Casajús–Quirós, Francisco (1998): Digital Signal Processors for Real–Time Audio Processing, Proceedings of ’98 Digital Audio Effects Workshop, Barcelona, Spain
• ISO/IEC 11172 (1993): MPEG-1 Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1,5 Mbit/s, International standard, http://drogo.cselt.stet.it/mpeg/standards/mpeg-1/mpeg-1.htm
• ISO/IEC DIS 13818 (1996): MPEG-2 Generic coding of moving pictures and associated audio information, http://drogo.cselt.stet.it/mpeg/standards/mpeg-2/mpeg-2.htm
• Erne, Marckus (1998): Digital Audio Compression Algorithms, Proceedings – 98 Digital Audio Effects Workshop, Barcelona 1998
• DVDNett: Neste generasjon CD: DVD Audio eller Super Audio CD?
• Fraunhofer Institut: Basics about MPEG Perceptual Audio Coding, http://www.iis.fhg.de/amm/techinf/basics.html
• Fraunhofer Institut: MPEG Audio Layer-3, http://www.iis.fhg.de/amm/techinf/layer3/index.html
• Fraunhofer Institut: MPEG-2 AAC, http://www.iis.fhg.de/amm/techinf/aac/index.html
• Fraunhofer Institut (1998): Frequently Asked Questions about MPEG Audio Layer-3, Version 3.0, March 1998, http://www.iis.fhg.de/amm/techinf/layer3/layer3faq/index.html
• Gayton, Cynthia (1999): Music Licensing Legal Developments for the Independent Label, http://ourworld.compuserve.com/homepages/Cynthia_Gayton
• Hacker, S. (2000): Mp3: The Definitive Guide
• Jensenius, Alexander Refsum (1999): Digitalisering av pianolyd, noen problemområder med vekt på fysisk signal og menneskelig oppfatning, term paper University of Oslo
• Koenen, Rob ed. (1999): Overview of the MPEG-4 Standard, http://drogo.cselt.stet.it/mpeg/standards/mpeg-4/mpeg-4.htm
• Martinez, Jose ed. (1999): Overview of the MPEG-7 Standard, http://drogo.cselt.stet.it/mpeg/standards/mpeg-7/mpeg-7.htm
• Meares, David, Watanabe, Kaoru and Scheirer, Eric (1998): Report on MPEG-2 AAC Stereo Verification Tests
• MPEG Audio FAQ: MPEG-1: Coded Storage of Sampled Sound Waves, http://www.tnt.uni-hannover.de/project/mpeg/audio/faq/mpeg1.html
• MPEG Audio FAQ: MPEG-2: Coded Transmission/Storage of Sampled Sound Waves, http://www.tnt.uni-hannover.de/project/mpeg/audio/faq/mpeg2.html
• MPEG Audio FAQ: MPEG-4 Audio: coding of natural and synthetic sound, http://www.tnt.uni-hannover.de/project/mpeg/audio/faq/mpeg4.html
• MPEG Audio FAQ: MPEG-7: Description of meta-information on sound, http://www.tnt.uni-hannover.de/project/mpeg/audio/faq/mpeg7.html
• MPEG (1998): MPEG-7 Context and Objectives, http://www.darmstadt.gmd.de/mobile/MPEG7/Documents/N2460.html
• Pan, Davis Yen (1993): Digital Audio Compression, article in Digital Technical Journal Vol. 5 No. 2, spring 1993
• Pan, Davis Yen (1995): A Tutorial on MPEG/Audio Compression. Article in IEEE Multimedia Journal Vol. 2, No. 7, 1995, pp. 60-74
• Russ, Martin (1996): Sound Synthesis and Sampling
• Ruud, Øyvind (2000): Den digitale lydfronten, article in Lyd & Bilde 4/2000
• Ruud, Øyvind (1999): Er CD-spilleren på vei ut?, article in Lyd & Bilde 11/1999
• Scheirer, Eric (1998): AudioBIFS: The MPEG–4 Standard for Effects Processing, Proceedings – 98 Digital Audio Effects Workshop, Barcelona 1998
• Serra, Xavier and Peeters, Geoffrey (1999): Audio Descriptors and Descriptor Schemes in the Context of MPEG–7, Proceedings of the 1999 International Computer Music Conference
• Signès, Julien (1999): Binary Format For Scene (BIFS): Combining MPEG-4 media to build rich multimedia services
• Thom, D., Purnhagen, H., Pfeiffer, S. (1999): MPEG Audio FAQ, Official FAQ from the International Organisation for Standardisation (ISO), http://www.tnt.uni-hannover.de/project/mpeg/audio/faq/
• Tsutsui, Kyoya and others (1992): ATRAC: Adaptive Transform Acoustic Coding for Minidisc, 93rd Audio Engineering Society Convention in San Francisco, 1992
• Väänänen, Riitta and Huopaniemi, Jyri (1999): Virtual Acoustics Rendering in MPEG–4 Multimedia Standard, Proceedings of the 1999 International Computer Music Conference
• Watkinson, John (1999): MPEG–2
• Weekly, David (1999): MSAudio vs MP3 vs RealAudio, http://www.mp3now.com/html/msaudiovsmp3.html
• White, Paul: Recording and Production Techniques for the recording musician
• Wright, Matthew (1999): Cross–Coding SDIF into MPEG–4 Structured Audio, Proceedings of the 1999 International Computer Music Conference