Datamaskinlyder og bruker – funksjon og påvirkning

Semesteroppgave musikkvitenskap storfag, Oktober 2000

Sammendrag

Artikkelen starter med å gjøre rede for de forskjellige lydene som kommer fra en datamaskin. Hovedfokuset rettes deretter mot de systemvarestyrte audiolydene, videre kalt systemlyder. Tre forskjellige sett med systemlyder fra Microsoft analyseres med tanke på fysiske og musiske aspekter, før forfatteren forsøker å forklare hvorfor fremveksten av slike lyder har vært så stor de siste årene. Deretter presenteres tre fiktive personers forhold til systemlyder. Artikkelen konkluderes med at systemlyder i dagens form forhåpentligvis er en forbigående trend og at produsentene heller bør konsentrere seg om lydapplikasjoner hvor lydkommunikasjon står sentralt.

Innledning

Datamaskiner lager lyder. Bevisst og ubevisst. Det begynte med små enkle pip og i dag får man avspilt de merkeligste melodier. Jeg vet ikke helt hvorfor, men det virker som det er en allmenn oppfatning blant produsentene at maskinener må kunne lydlegge seg. Hvis man ser på film er det enda verre, der lager selv moderne datamaskiner de merkeligste lyder. Kanskje har også fremtidsfilmene vært med på å bygge opp under folks ideer om at maskiner skal blinke, lage rare lyder og snakke.

Jeg har helt siden jeg begynte å interessere meg for datamaskiner undret meg over lydene fra maskinene. Sant nok husker jeg at det også var svært morsomt å ha forskjellige lyder knyttet til hendelser, men man blir fort lei. Med de nyeste versjonene av Windows har lydbildet rundt en datamaskin økt ytterligere. Nå kan man velge mellom forskjellige lydsett som skal representere forskjellige stemninger. Men dette er ikke et eget Windows-fenomen, fordi også Unix, Linux og Mac-verdenen har systemlyder. Etterhvert har vi lært oss å leve med det og de fleste synes vel det er naturlig at datamaskiner lager lyder. Egentlig er det ikke noen bedre grunn til at datamaskinen din piper og spiller søppelkasselyder enn at for eksempel kjøleskapet eller komfyren stort sett holder seg i ro.

Ettersom dette ser ut til å være en generell trend i dataverdenen, har jeg ønsket å se litt nærmere på temaet datamaskinlyder. Først og fremst gjelder det å definere hva vi kan kalle systemlyder, hva som er støy osv. Kilden for lydene samt motivet bak lydhendelsen er også viktig å kartlegge før vi kan gå inn på en analyse av lydene. Jeg har valgt å se på både de fysiske og de musikalske elementene rundt lydene og forsøkt å forstå hvordan de virker på brukeren. Hvilken funksjon har egentlig en froskelyd når man sitter og forsøker å skrive et brev, eller hvorfor skal absolutt en søppelbøtte høres ut som en søppelbøtte?

Jeg er generelt glad i gode lyder og har hatt en viss glede av systemlyder. De siste årene har jeg allikevel valgt å skru dem av fordi jeg i stor grad bruker datamaskinen til å arbeide med brukerstyrte lydhendelser: CD/DVD-avspilling, lydredigering, MIDI-notasjon osv. Når man allerede arbeider med lyd eller musikk på maskinen, kan små systemlyder være svært forvirrende og plagsomme. I arbeidet med denne oppgaven synte jeg det var interessant å undersøke hvordan andre reagerer på disse lydene og om noen i det hele tatt ønsker en slik mulighet. Jeg har derfor snakket med en rekke personer og om deres forhold til datamaskinlyder. Dette har på ingen måte vært ment som en grundig, statistisk analyse, men snarere et lite forsøk på å kartlegge forskjellige brukeres tanker og behov.

Gjennom hele oppgaven henviser jeg til lytteeksempler i lydfigurene. Numereringen henviser til sporene på den medfølgende CD-platen.  Jeg har valgt å ta med en rekke lydeksempler, fordi jeg tror dette er viktig i forståelsen av temaet datamaskinlyder. Ettersom jeg selv arbeider hovedsakelig på en Windows-plattform, vil hovedvekten av eksemplene være fra lydsettene fra Windows, men jeg vil også komme med noen eksempler fra andre plattformer.

Datamaskinlyder – en sammensatt affære

Det totale lydbildet som en datamaskin tilfører et rom, er sammensatt av en rekke forskjellige lydelementer. Alle lydene kan deles inn i grupper avhengig av lydkilden og motivet bak lydhendelsen. Hvis vi først tar for oss lydkilden, så kan vi gruppere disse i tre hovedkategorier:

  • Maskinlyder
  • PC-speaker (maskinvarestyrte lyder)
  • Lydkort (systemvarestyrte lyder)

Maskinlyderer de lydene som kommer fra selve maskinen: viftestøy, harddisk-aktivitet, printer og CD-spiller. I tillegg kommer de høyfrekvente signalene fra skjermen og suset fra høyttalerne. Disse lydene er stort sett alle konstante når maskinen er på, og i det totale lydbildet kaller vi disse for bakgrunnsstøy. Mange brukere klager over denne støyen fra maskinene, men produsentene har ikke gjort særlig store fremskritt de siste årene. Allikevel er ingen av disse lydene på langt nær så intense og fremtredende i lydbildet som lyden av mus og tastatur. Grunnen til at de fleste likevel henger seg opp i bakgrunnsstøyen er fordi tastaturlydene sammenfaller med en fysisk aktivitet fra brukeren. Det har blitt slik at man forventer en lyd, en tilbakemelding, når man trykker ned en av tastene. I Lydfigur 1 har jeg samlet en del standard maskinlyder som man møter ved datamaskinen: På-knapp, viftesus, diskettstasjon, harddiskstøy, CD-spiller, museklikking, tastaturskriving, utskrift og avslutning. Det er lett å kjenne igjen disse lydene og tenke på en datamaskin. Når vi isolerer lydene fra maskinen er det også enklere å legge merke til hvor mye bakgrunnsstøy vi egentlig påføres.

De maskinvarestyrte lydene genereres derimot fra den interne PC-speakeren på maskinens hovedkort. Dette er en primitiv bølgegenerator, som lager en ren sinusbølge, med en bestemt tone. De første datamaskinene hadde ikke noe annet lydkort og da ble denne lydkilden også brukt til å spille av melodier. Dette hørtes aldri bra ut. Det var faktisk først et godt stykke inn på 1990-tallet at de fleste PCer ble levert med et eget lydkort. Det er interessant å legge merke til at alle maskiner fremdeles har en intern PC-speaker, og at den fremdeles brukes ved oppstart og når maskinen har låst seg. Fordi det ikke kreves noe eget program for å kunne spille av lyd over PC-speakeren, kaller vi det for maskinvarestyrte lydhendelser. Lydfigur 2 er et eksempel på hvordan en slik lyd høres ut.

De lydene som kommer fra maskinens lydkort har jeg valgt å kalle systemvarestyrte lyder. Et program i datamaskinen sender signaler til maskinens lydkort, som deretter omformer det digitale signalet til analogt og sender det til enten hodetelefoner eller eksterne høyttalere. Det er viktig å huske på at det kan lages to forskjellige typer lyder på et lydkort: MIDI og Audio. MIDI-lyd er definisjoner av lydhendelser som spilles av gjennom den innebyggete synthesizeren eller wavelets-chipen som sitter på lydkortet. Resultatet er derfor helt avhengig av lydkortets kvalitet. Audiolyd er derimot en direkte avspilling av et lydopptak, på samme måte som fra for eksempel en CD-plate. Det er altså systemvarestyrt audiolyd som best ivaretar den opprinnelige lyddesignerens lydidé, og det er denne lydgruppen jeg skal drøfte videre i oppgaven.

En systemvarestyrt audiolyd blir sendt av et program til lydkortet. Men forut for denne maskinaktiviteten ligger det en kommando, sendt fra brukeren enten aktivt eller passivt. Vi skiller her mellom

  • Brukerstyrte lydhendelser: Så som avspilling av en CD-plate som man setter i maskinen, MP3- eller RealAudio-filer eller lyd til en video eller multimediapresentasjon. Her gjør brukeren et aktivt valg for å sette igang en lydhendelse, på samme måte som hvis man skrur på radioen. I disse tilfellene forventer faktisk brukeren at det skal komme lyd.
  • Programstyrte lydhendelser: Dette er lyder som maskinen selv avspiller som en reaksjon på brukerens aktivitet eller som et varselsignal. For eksempel kommer det ofte en lyd sammen med en melding om at man må huske å lagre et dokument, en annen lyd når man tømmer søppelkassen, eller et kjenningssignal når det kommer ny mail. Lydene styres av forskjellige programmer som brukeren kan satt igang aktivt eller passivt.

Resten av denne oppgaven vil dreie seg om disse programstyrte audiolydhendelsene. For enkelhets skyld vil jeg fra nå av referere til disse som systemlyder, eventuelt bare lyder. Jeg tar utgangspunkt i at leseren kjenner til grunnleggende begreper innen digital lydbehandling, men det skal være mulig å følge argumentene uansett.

Vi har sett på hvordan forskjellige datamaskinlyder blir til, og hva som utløser en lydreaksjon. Det er interessant å se at de retningslinjene jeg har trukket over, stemmer godt med de fleste plattformene. Etter å ha sjekket forskjellige systemer både gamle og nye, har jeg kommet til at absolutt alle har både maskinlyder, maskin- og systemvarestyrte lyder: Atari, Amiga, Dos, OS/2, Unix, Linux, BeOS, Windows og Mac.

Apple og MacOs var en av de første produsentene til å tilby et grafisk brukergrensesnitt, samt tilby lydredigering ved hjelp av datamaskiner. Helt fra starten har det også vært naturlig med lydvarsling. De fleste kjenner vel til den etterhvert ganske plagsomme froskelyden som til stadighet dukker opp på Mac-maskiner. Til forskjell fra de andre plattformene har Mac i all hovedsak satset på å bruke bare en lyd, som brukes til alle varselmeldinger og beskjeder. I kontrollpanelet ligger det noen forskjellige lyder man kan velge mellom eller det er mulig å spille inn sin egen lyd ved hjelp av mikrofon.

Unix/Linux og Windows har også operert med systemlyder i lang tid, men det er først de siste årene dette virkelig har blitt mye. Dette henger nok nøye sammen med oppblomstringen av et større marked for hjemmemaskiner. Produsentene lager nå ferdige pakker, kalt themes, som inneholder skjermbakgrunn, farver og en hel familie av sammenhørende systemlyder. Microsoft har til og med solgt disse separat gjennom sine Plus-pakker. På samme måte som for Unix og Linux, argumenteres det med at dette skal kunne gi brukeren en variert og unik arbeidsplass.

For å gi leseren en forståelse av hvordan systemlyder kan høres ut, har jeg i Tabell 1 samlet noen lydsett fra forskjellige plattformer. Hver av lydfigurene representerer et helt sett, hvor de forskjellige systemlydene ligger adskilt med 1 sekunds mellomrom.

LydfigurPlattformSettKvalitet
Lydfigur 3 MS Windows Standard 22 kHz, 16-bit, stereo
Lydfigur 4 MS Windows Jungle 22 kHz, 16-bit, stereo
Lydfigur 5 MS Windows Utopia 22 kHz, 16-bit, mono
Lydfigur 6 Unix/Linux KDE 22 kHz, 16-bit, mono
Lydfigur 7 Linux Enlighentment 22 kHz, 16-bit, mono
Lydfigur 8 Atari/Linux Ganymede 11 kHz, 8-bit, mono
Tabell 1: Oversikt over lydsett fra forskjellige plattformer

Teknisk analyse av lydene

Det er en rekke tekniske problemer knyttet til bruk av systemlyder på datamaskiner. Det største er at digital lyd krever svært mye lagringsplass. Alternativet er å komprimere filene, men dette krever igjen prosessorkraft som vil gjøre systemet tregere. Både produsent og bruker er opptatt av at operativsystemet skal ta liten plass og kreve små ressurser, slik at mesteparten av maskinkreftene kan brukes til brukerens nytteprogrammer. Dette lar seg vanskelig forene med et ønske om å ha høykvalitets systemlyder som spilles av umiddelbart sammen med en skjermhendelse. Produsentene har derfor valgt å kutte i kvaliteten og lengden på systemlydene.

For noen år siden ble alle systemlyder konsekvent lagret med 8-bit oppløsning, 11 kHz samplingsfrekvens og mono-signal. Etterhvert som maskinene har blitt kraftigere har de fleste gått over til å bruke 16-bit, 22 kHz og ofte stereo. Lyden lagret på en vanlig CD-plate er derimot på 16-bit, 44,1 kHz, stereo, men vi må huske på at dette er en gammel oppfinnelse og på langt nær ideell fra et musikkteknologisk ståsted. Med DVD-Audio som nå begynner å komme på markedet kan vi få lyd med 24-bit, 192 kHz. og seks kanaler. Kvaliteten på systemlydene ligger med zndre ord langt etter det som idag er realiteten innen høykvalitets lyd.

Dette leder oss over til et viktig spørsmål: legger man egentlig merke til dette? De fleste mennesker vil nok ikke tenke over at denne lyden ikke har så høy oppløsning, men det gir seg helt klart utslag i lytteropplevelsen. Det er stor forskjell på 22 kHz og 44,1 kHz, og de fleste vil oppleve en tydelig forringelse i kvalitet. Dette gir seg blant annet utslag i oppløsningen og dybden i lyden. Det hørbare frekvensomfanget kan være maksimalt halvparten av samplingsfrekvensen, og det betyr at for en lyd med 22 kHz vil man ikke kunne høre lyder over 11 kHz(Jensenius, 1999). Siden mennesket kan høre lyder opp til 20 kHz vil man derfor miste en rekke overtoner hvis frekvensområdet innsnevres. Det har senere vist seg at selv lyder man ikke kan høre er med på å forme lydbildet og i tillegg vil alle transienter avtegnes tydeligere når samplingsfrekvensen heves (Ruud, 2000: 87). I tillegg til at systemlydene er av en begrenset kvalitet, er også ofte avspillingsmediet relativt dårlig. De fleste datamaskiner spiller av lyd gjennom små datahøyttalere. Disse har også et sterkt avgrenset frekvensomfang og dårlig dynamikk.

For å kompensere for et tynt frekvensomfang, må lyddesignerne mikse lyden spesielt tilpasset for datahøyttalere. Figur 1 viser tidsdomenet til høyrekanalen av åpningslyden i Windows. Legg spesielt merke til hvordan et stort tidsområde av lyden ligger på et maksimalt utslag, og at det ser ut som mange av toppene kuttes. Dette kan kalles en form for over-normalisering, og det ser ut som lyden har blitt normalisert etter en maksverdi som ligger et stykke lavere enn de høyeste verdiene. Kombinert med en voldsom bruk av fading inn og ut, gjør dette at lyden høres ut som den blir kraftigere enn den er før den synker tilbake. På små datahøyttalere er det ganske virkningsfullt, mens når man spiller det på et ordentlig anlegg så hører man hvor presset lyden høres ut. Legg også merke til de lyse tonene i lyden og hvordan det er bevegelse i toppen. Dette er kanskje for å kompensere for hele spekteret av overtoner som ikke finnes, og gjør at lytteren opplever et spekter med lyd både i topp og bunn.

Figur 1: Tid-amplitude representasjon av høyrekanalen av lyden “Windows-start” fra Standard-settet. Hør på lyden i Lydfigur 9.

En annen interessant ting er å legge merke til hvor mye kompressor det er brukt på lydene. En kompresjon “trykker” amplituden i signalet sammen, ved å forsterke de svake signalene og dempe de sterke. Igjen er dette med på å skape mer liv i små høyttalere, og man sikrer at alle små detaljer faktisk blir hørbare. Bruk av kompressor er svært vanlig i digital lydbehandling, og brukes mye på vokalopptak for å skape et jevnere lydbilde. Det spesielle med alle systemlydene er at det er brukt så mye kompresjon. Dette er spesielt tydelig i Lydfigur 10 og Figur 2. Legg merke til hvordan bakgrunnssuset i jungelen trekkes så voldsomt frem i lydbildet. Vi ser dette visuelt ved at bakgrunssnivået i lydbildet dekker godt over halvparten av det totale utslaget. Legg også merke til hvordan de lyse insektene høres metalliske ut, fordi det mangler en rekke overtoner.

Figur 2: Tid-amplitude representasjon av høyrekanalen av lyden “Windows-start” fra Jungle-settet. Hør på lyden i Lydfigur 10.

I tillegg til oppløsningen og kvaliteten, er det lengden på lydene som er avgjørende for å spare harddiskplass. Når man hører på de forskjellige settene legger man fort merke til at hver enkelt lyd ofte bare varer i ett sekund, maksimalt to. Figur 3 viser alle lydene i et sett, adskilt med ett sekunds stillhet. Her ser vi tydelig hvordan innfyllingslydene er små og korte, mens det er noe lengre lydertil oppstart og avslutning. Legg også merke til at alle innfyllingslydene har et lydnivå som er omtrent halvparten av den kraftige introen og outroen. Dette passer godt til lydenes formål, ettersom innfyllingslydene må være korte, ikke for kraftige og spille umiddelbart mens brukeren arbeider. Derimot mener produsentene utvilsomt at brukeren har godt av å vente noen sekunder ekstra ved oppstart og avslutning, ettersom disse lydene er lengre og krever mer ressurser. Sett fra et musikkestetisk synspunkt er det selvfølgelig uheldig at alle lydene kuttes så brått. Selv om en lydhendelse er kort, kreves det atskillig mer tid til blant annet gjenklang for at lyden skal virke naturlig. Nå blir alle lydene fadet ut svært raskt. Ikke bare er dette med på å fjerne noe av realismen, men det avkorter også gleden over en fin lyd.

Figur 3: Tid-amplitude representasjon av høyrekanalen av hele lydsettet “Windows-standard”. Hør på lydene i Lydfigur 11.

Datamaskinlyder fra et musisk perspektiv

En fysisk synsvinkel oppklarer mange problemer, men sier lite om innholdet i lydene og hvilken effekt de har på oss. Hva minner lydene oss om? Hvordan er de bygget opp? Hvorfor er de samlet i forskjellige sett? Hva slags tonalt plan ligger de på? Hvorfor er de knyttet opp mot en bestemt handling. Siden alle produsenter bruker lyder, må det jo ligge en klar bevisst tankegang bak. Det har vært forsket mye rundt kognisjon og persepsjon, og hvordan lyder er med på å påvirke menneskene

I boken Det musiske menneske beskriver Jon Roar Bjørkvold hvordan lyd og musikk er et viktig verktøy i menneskets tilnærming til verden. Etter studier av forskjellige barnekulturer beskriver han hvordan allerede små barn knytter lyd og musikk til handlinger og kommunikasjon. Begrepet sikia introduseres som en beskrivelse for helhetssansningen. Denne inkluderer blant annet bevegelse, syn, følelse og hørsel og utløser helhetsbegrepet ngoma hos mennesket (Bjørkvold, 1999: 61-64). Tanken med å knytte lyder til spesifikke hendelser i en datamaskin følger altså naturlig fra menneskets tradisjon for læring og forståelse. Dette er interessant å tenke på når vi nå skal se litt nærmere på noen av systemlydene.

Innenfor filmverdenen er det vanlig å dele lydbruk i inn i tre kategorier: tale, musikk og lydeffekter, hvor lydeffektene videre kan deles inn i Foley-effekter og spesialeffekter . Foley-effektene dekker menneskelige ikke-vokale lyder som for eksempel fotskritt og klapping, mens spesialeffektene er for eksempel pistolskudd og søppelkasselyder (Moorer 1982: 599). Fra dette kan vi slå fast at de aller fleste systemlydene passer inn under kategorien spesialeffekter. Kun ett av settene presentert i Tabell 1, bruker gjennomgående tale. For de litt lengre åpnings- og avslutningslydene er bruken av melodier og musikk vanlig. Tabell 2 viser noen utvalgte lyder fra tre forskjellige lydsett satt opp i forhold til hvilken hendelse de skal følge.

Hendelse Standard Jungle Utopia
Åpningslyd Lydfigur 12 Lydfigur 13 Lydfigur 14
Maksimere program Lydfigur 15 Lydfigur 16 Lydfigur 17
Minimere program Lydfigur 18 Lydfigur 19 Lydfigur 20
Varselsignal Lydfigur 21 Lydfigur 22 Lydfigur 23
Søppelkasselyd Lydfigur 24 Lydfigur 25 Lydfigur 26
Avslutningslyd Lydfigur 27 Lydfigur 28 Lydfigur 29

Tabell 2: Oversikt over hendelsesspesifikke lyder.

La oss starte med åpningslyden, eller som man sier i satslæren: introen. Musikkstudenter lærer at en intro skal angi tempo og toneart, vise stemningen og den skal være spennende. Hvis vi ser på de tre åpningslydene fra Tabell 2, kan vi ihvertfall fastslå at alle fører oss inn i en stemning og de er også ganske spennende. Jungle-lyden er en ren lydeffekt, mens introene til Standard og Utopia er tonale (C-dur). Legg også merke til tersstablingen i Utopia-lyden (tonene c-e-g-a-c). Til å vare i bare fem sekunder, har lyddesignerne klart å putte inn en rekke forskjellige elementer, og dette er nok med på å gjøre introene fengende. I tillegg er lydene ganske hyggelige og snille, noe som burde blidgjøre brukeren som skal arbeide med maskinen. Med litt godvilje kan altså alle disse åpningslydene bli godkjent som en klassisk intro.

Hvis vi ser på lydene for å starte eller maksimere et program så følger alle tre et ganske likt mønster. De er korte, mikset lavere enn åpningslyden og i tillegg har de en tonal bevegelse oppover. Tilsvarende virker det som lydene for å minimere et program starter på en lavere tone og har en tonal beveger nedover. Dette er ikke like tydelig for alle, men det ligger nok allikevel en bevisst tanke bak dette. Bjørkvold (1999: 80) påpeker hvordan barnets tegning også går opp og ned med lydene som barnet lager. En tonal bevegelse oppover vil derfor automatisk forsterke det visuelle vi opplever på skjermen, et program som åpner seg. Tilsvarende vil den nedadgående lyden være med på å forsterke følelsen av at programmet lukkes og dette til bakken. Dette er effektive virkemidler og noe komponister og musikere til alle tider har visst å verdsette.

Varselsignalet bør helst bryte med de andre lydene, og det gjør det også ganske tydelig i disse eksemplene. Lyden i Standard-settet er en kort treklang med G som grunntone. Lyden er noe forvrengt og selv om den ikke er så fryktelig dissonerende, høres den allikevel markant og tydelig. Jungle-lyden høres litt ut som et brøl fra et neshorn og bærer også bud om at ikke alt er like rolig og fredelig i skogen. Utopia-settet har en kort, mørk og pulserende G. Også fra de andre settene jeg har hørt på viser det seg at varsel-lyden er dypere, har et hardere attack og er kortere enn mange av de andre lydene. Dette er også helt i tråd med standardene i klassisk musikk, hvor mørke toner og dissonerende intervaller (spesielt tritonus) skaper en mer dyster stemning.

Visualiseringen er enda mer tydelig når det gjelder søppelkasselyden. I Standard-settet hører vi lyden av papir som krølles sammen (i Windows 95 var det til og med lyden av at papiret ble kastet i en søppelkasse). I Jungle-settet hører vi at noe blir kastet i vannet, mens lyden i Utopia er en tonalt fallende skalabevegelse. Igjen er disse lydene med på å underbygge et klassisk programmusikalsk verk.

For å avslutte den lille konserten, kan vi lytte til de forskjellige avslutningslydene, outroen. Her er det interessant å høre hvordan Standard-lyden er en tonal kadens til F-dur. Jungle-lyden bærer preg av at det er blitt kveld, det tordner litt og bakgrunnslyden av yrende smådyr har avtatt. Jeg synes ikke at Utopia-lyden i samme grad klarer å gi følelsen av at noe er slutt, men elementer av barnelatter kan være med på å vri tankene ut av vinduet og mot resten av verden. Legg merke til at også Utopia-lyden havner på F-planet i avslutsningslyden.

Når vi ser på settene som helhet, er det svært interessant å se at både Standard-settet og Utopia starter i C, ligger på G på varselsignalet og havner på en F i avslutningen. Hvorfor har man valgt å gjøre det slik? Hvorfor kan ikke arbeidsøkten slutte i samme toneart som den begynte? Det er ihvertfall tydelig at dette er godt gjennomtenkt fra Microsoft sin side. Av de seks Microsoft-lydsettene jeg har tilgang til, er det ingen som begynner og slutter på samme tonale plan, og over halvparten slutter i F. At åpnings- og avslutningslydene er på forskjellig tonalt plan er faktisk ganske likt for sett fra andre produsenter også. Kanskje mener lyddesignerne det er viktig at man har en annen tonal følelse når man begynner enn når man avslutter. Her ligger det åpenbart mange spennende musikkpsykologiske spørsmål.

Det er nærliggende å trekke en parallell mellom systemlydene og en klassisk komposisjon. Finner vi ikke både intro og outro, eksposisjoner, gjennomspill og lydmalende elementer, kadenser og modulasjoner? Kan vi si at brukeren er med på fremføringen av et musikkstykke ved en økt foran maskinen? Det er ihvertfall tydelige elementer av en form for hypertekstualitet? Hypertekst er et begrep som beskriver hvordan tilsynelatende separate tekstblokker kan kobles sammen ved hjelp av pekere, akkurat slik Internett fungerer. Petter Dyndahl har vært opptatt av om man på samme måte kan snakke om en form for musikalsk hypertekstualitet.

“Musikkens strukturelle plan konstitueres interrelasjonelt av samtidige lag eller sjikt, ikke av suksessive gester og fraseringer. […] I vertikal musikk dominerer ikkelinearitet. På den måten er det den musikken som bryter mest radikalt med den vestlige tradisjonen. […] Hvis vi betrakter de teknikkene som brukes i kreeringen av techno, ser vi at hovedmaterialet ofte er basert på sampling av enhver tenkelig lydkilde i tid og rom, og at dette mikses på forskjellige måter i den utøvende formidlingen. […] Ved å betrakte denne aktiviteten i det metaforiske skinnet fra hypertekst, får vi øye på en skrivbar, ikkelineær virksomhet som på en fundamental måte er intertekstuell.” (Dyndahl, 1998: 75-76)

Selv om noen timer foran datamaskinen kanskje ikke oppleves på samme måte som å høre på en plate med techno-musikk, så ser vi helt tydelig at det er likhetstrekk med bruken av systemlyder. De er jo også korte samplinger som spilles, avhengig av brukerens valg. Forskjellen er at det foregår over lengre tid og at brukeren bare passivt avspiller lydene, de kommer som reaksjoner på brukerens aktivitet, og ofte uventet. Uansett kan vi si at systemlydene er en del av brukerens helhetsopplevelse, ngoma, ved datamaskinen.

Hvilken funksjon har systemlydene?

Dette leder oss over på en interessant problemstilling: Hvorfor ønsker man i det hele tatt lyder? Har de egentlig noen funksjon? Har det noe med å ufarliggjøre datamaskinen? Få maskinen til å virke mer virkelighetstro? Et ønske om en mer human og tiltrekkende maskin? Er det bare for gøy? En rekke spørsmål og det er ikke lett å gi noe svar. Jeg har forgjeves forsøkt å finne artikler eller bøker som tar opp disse problemene, og produsentene selv har ikke lyst til å uttale seg om lydsettene.

Systemlydene på de første datamaskinene var ment som varseltoner og beskjeder om pålogging og lignende hendelser. Da hadde lydene en praktisk betydning for brukeren i forhold til datamaskinen. Etter å ha skrudd på datamaskinen visste man at boot-prosessen var igang når maskinen hadde gitt fra seg et pip. Tilsvarende kunne man få et lite signal når maskinen var ferdig med for eksempel en beregning. Noe av dette har vi også i dag. Slik jeg nevnte innledningsvis, har også dagens maskiner en innebygget PC-speaker som lager et par lyder. Dette er altså hjelpelyder som har en praktisk funksjon, de er ment for å lette brukerens arbeid med maskinen.

Den moderne maskins forskjellige lydsett kan kanskje ikke sies å ha den samme praktiske betydningen. Selv om man til en viss grad kan hevde at noen av disse har en rent praktisk betydning, er ikke dette god nok forklaring til å tilby fem forskjellige søppelkasselyder. Jeg tror mye av tanken bak forskjellige lydunivers ligger i å ufarliggjøre maskinen. Ved å bruke kjente eller mer eksotiske lyder blir maskinen levendegjort på en helt ny måte. Datamaskinen har gått fra å være en regnemaskin til å bli et multimedie-verktøy for hele familien. Det grafiske brukergrensesnittet har stått sentralt i arbeidet med å tilrettelegge datamaskinbruk for alle. Først med MacOS og senere Windows kunne brukerne orientere seg på et skrivebord og åpne vinduer og mapper . Det sentrale har vært å bruke familiære bilder på de forskjellige dataverktøyene. Brukeren skal tenkte i virkeligheten og utføre på maskinen. Da skjønner vi også hvorfor det har vært viktig å kunne ha lyder som forsterket denne opplevelsen. Søppelkasselyder, krøllet papir og stigende og synkende lyder er med på å gjenskape en kunstig arbeidsplass. Det virtuelle skrivebordet og gjenkjennelige lyder har lært folk at datamaskinen er for alle.

Etterhvert som flere og flere har fått maskiner, og den generelle data-skrekken har sluppet taket hos de fleste, har produsentene sett hvordan selve dataopplevelsen kan styrkes. Fra å være et praktisk verktøy og deretter en ufarliggjører går systemlydene over i en opplevelsessfære. Som tidligere nevnt produseres det i dag en mengde themes. Hvis man for eksempel velger å bruke Microsofts Jungle Theme, vil skrivebordsbakgrunnen fylles av et eksotisk dyr og alle farver på menyer og knapper vil justeres etter bildet. Istedenfor den vanlige pilen vil et helt nytt sett med kursorer dukke opp. For å komplementere stemningen er også alle lydeffektene basert på typiske jungellyder. Det er her altså snakk om å få en totalopplevelse. Den kjedelige hverdagen skal byttes ut med en spennende reise. Mange av de vanligste themesene til Windows og Linux baserer seg på nettopp dette, reiser, verdensrommet og eksotiske kulturer.

Som et siste punkt, tror jeg produsentene ønsker å få folk til å velge themes avhengig av identitet. Tanken er at forskjellige menneskegrupper vil velge forskjellige oppsett avhengig av smak og erfaring. Man kan få en datamaskinverden omkranset av jungel, Star Wars, hippie-tiden eller rett og et slett et vanlig skrivebord: “hvis meg ditt maskinoppsett og jeg skal si deg hvem du er”. Microsoft har varslet at dette skal kunne utvikles enda lenger de nærmeste årene ved at man skal kunne lagre alle sine personlige innstillinger på nettet. Da kan alle de personlige opplysningene bli hentet opp fra hvilken som helst maskin man logger inn på i hele verden. Dokumenter, bakgrunn og lyder vil kunne følge brukeren rundt omkring i verden og passe på at man beholder sin identitet og tilhørighet.

Påvirkning på brukeren

Alt dette høres vel og bra ut, men fungerer det egentlig slik? Hvordan oppfatter vanlige brukere disse mulighetene? Er det effektivt? Er det underholdende? I arbeidet med denne oppgaven har jeg snakket med både unge og gamle mennesker, i forskjellig livssituasjon og med forskjellige behov. Jeg har spurt dem om hvordan de arbeider med datamaskinen og i hvilken grad de bruker systemlyder. Gjennomgående har svarene vært at de fleste irriterer seg over datamaskinlydene og mange har også sørget for å skru de av. Jeg har sammenfattet svarene jeg har fått og presenterer disse ved hjelp av tre fiktive personer, som jeg tror er representative.

Lars, 20 år, informatikkstudent
Lars er god på data og bruker mye tid ved maskinen sin. Han kjører både Linux og Windows og har en rekke forskjellige themes til begge systemene. Tidligere syntes han det var morsomt å kunne veksle mellom forskjellige skjerm- og lydoppsett, og vise det til venner. Etterhvert har han blitt lei og sier at han blir sliten av at det hele tiden kommer forstyrrende lyder. Dessuten spiller han stort sett MP3-filer hele tiden og lydene ville ha kommet i bakgrunnen og hatt liten praktisk effekt. Han har nå skrudd av alle systemlydene på maskinen, men har satt på et maskinvarepip hver gang det kommer ny mail.

Monica, 40 år, salgssjef
Monica bruker flere forskjellige datamaskiner på jobben og har gått på kurs for å lære mer effektiv bruk av disse maskinene. Der fikk hun vite at det kunne være lurt å bruke lydene aktivt for å få mer ut av datamaskinen. Hun har skrudd på en spesiell “brevduelyd” som varsler når det kommer inn e-post. I tillegg er hun glad for at det kommer en kraftig fanfare når hun glemmer å lagre dokumenter før hun skal slå av maskinen. Mange av arbeidsoppgavene er basert på kjente rutiner og like innslag på maskinen og det kan være lett å gjøre en slurvefeil når arbeidet skal gå raskt. Da er det greit at det kommer en kraftig varsellyd som minner om at ikke alt er fylt ut riktig. Alle betalingskassene i butikken har også hver sin datamaskin tilknyttet håndscanner. Ekspeditøren holder strekkoden på et produkt opp til laseren og koden leses inn og lagres i maskinen. Når produktet er gjenkjent gir maskinen fra seg et kraftig “pip” og ekspeditøren vet at hun kan gå videre til neste vare. Dette sparer mye tid og unødvendige bevegelser ved å slippe å se på skjermen hele tiden. Monica er derfor godt fornøyd med at datamaskinene kan lage lyder, men bryr seg mindre om hvordan lydene høres ut. Hun synes det er hyggelig å høre brevduen når det kommer e-post, men det er ikke av noen spesiell betydning.

Kåre, 80 år, pensjonist
Kåre har nylig kjøpt en bærbar datamaskin med internettoppkobling. Han ønsker å skrive brev og artikler samt sende e-post til sine barnebarn. Maskinen kom ferdig innstallert med Windows 98 og Kåre har ikke forandret noe på oppsettet. Det er derfor de vanlige systemlydene til Windows som til stadighet dukker opp. Kåre sier at han egentlig ikke tenker noe særlig over dette, han trodde det var slik maskinen var. Lydene plager ham egentlig ikke så mye for han hører litt dårlig. Ikke vet han hvordan han skal fjerne dem, så han lar det bare være. Han har blitt forklart hvordan han kan surfe på nettet, høre MP3-filer og spille av DVDer på maskinen, men bryr seg ikke så mye om dette. Dataen er i utgangspunktet en skrivemaskin.

Jeg vil tro at disse tre eksempelpersonene er svært representative for de fleste datamaskinbrukere. En gruppe mennesker er bevisst lydene, har til en viss grad brukt og eksperimentert med dem, men har valgt å koble dem av. En annen gruppe har ikke tenkt noe særlig over lydene og lever passivt sammen med dem. Den siste gruppen er de eneste brukerne som har et bevisst forhold til systemlydene. Dette er gjerne i jobbsammenheng og lydhendelsene brukes aktivt som en effektivt verktøy. For disse menneskene er imidlertid det musikalske aspektet ved selve lyden svært lite viktig. Hovedpoenget er at det kommer en lyd til riktig tid. Ingen av de nærmere 15 menneskene jeg har snakket med sier at de liker eller har bruk for alle de forskjellige lydsettene. Det er nærliggende å undre seg over hvorfor produsentene faktisk lager alle disse lydsettene?

Veien videre

Det er en rekke gode argumenter for å bruke systemlyder på en datamaskin. Det kan være praktisk og effektiviserende, levendegjørende, opplevelsesfullt og identitetsskapende. Det passer inn i tanken om helhetssansing, opplevelse, og en musikalsk hverdag. Allikevel kan jeg ikke fri meg fra følelsen av å rett og slett bli plaget når  maskinen for tiende gang sier “plong” eller spiller fanfarer. Det er morsomt å høre på jungel-lyder en gang iblant, men irritasjonen ligger ikke langt under overflaten. Jeg tror noe av hovedpoenget med en datamaskin forsvinner hvis man overgir seg helt til effektenes verden. For meg og de fleste andre brukere er datamaskinen et arbeidsverktøy, som i tillegg kan underholde. Når man arbeider en god del med lydbehandling og musikkskriving på maskinen blir det desto mer forstyrrende at det dukker opp tilfeldige lydelementer. Når disse lydene i tillegg er korte og høres anstrengt ut over anlegget, så forsvinner også det musikkestetiske elementet. Det som i utgangspunktet skulle være til glede og hjelp har blitt til et spillende mareritt og auditiv voldtekt. Enda verre blir det når flere maskiner er i samme rom. Jeg husker enda med gru hva slags intenst lydbilde nærmere femti datamaskiner klarte å lage på en datalab. Da er det ikke bare plagsomt, men det går på arbeidsmiljøet og helsen løs.

Det er ikke tvil om at fremtidens datamaskiner også kommer til å lage lyd, men jeg tror at brukerne snart er lei av muligheten til å forandre skjermbakgrunn og forskjellige lyder hele tiden. Forhåpentligvis vil markedet vende seg mot mer praktisk anvendbare systemer. Stemmegjenkjenning og stemmestyrte kommandoer har vært tilgjengelig i lang tid, men det er først med dagens raske maskiner og programmer at dette virkelig kan bli utviklet til praktisk og rask databruk. Et annet spennende felt er hvordan stadig flere forskjellige former for medier samles i datamaskinen, blant annet lyd og bilde. Med fremveksten av mindre og kraftigere lommemaskiner, vil dette være med på å forandre hverdagen. Da blir ikke målet først og fremst at maskinene skal lage lyder, men at de skal oppfatte lydene rundt seg og reagere på stemmestyrte kommandoer. Det hele handler om at menneskene tar kontrollen, ikke motsatt.

Litteraturliste

  • Bjørkvold, Jon Roar (1999): Det musiske menneske, Oslo: Freidig forlag
  • Dyndahl, Petter (1998): IT-relatert musikkundervisning mellom moderne utopi og postmoderne ironi. Artikkel i (Red.) Dyndahl, Petter (1998): IT og musikk i allmennlærerutdanningen. Rapport 2, Høgskolen i Hedmark
  • Hammer, Øyvind (1997): Digital lydbehandling, Oslo: NOTAM
  • Jensenius, Alexander Refsum (1999): Digitalisering av pianolyd: Noen problemområder, med vekt på fysisk signal og menneskelig oppfatning, Semesteroppgave i grunnfag Musikkvitenskap, Universitetet i Oslo
  • Jensenius, Alexander Refsum (2000): MP3: Friend of the Youth or Enemy of the Sound? A discussion of different sound formats and problems with sound compression, Semesteroppgave i mellomfag Musikkvitenskap, Universitetet i Oslo
  • Moorer, James A. (1982): The Lucasfilm Audio Signal Processor. Artikkel i (Red.) Roads, Curtis (1989): The Music Machine, Selected Readings from Computer Music Journal, Cambridge, Massachussets: The MIT Press
  • Ruud, Even (1997): Musikk og identitet, Oslo: Kunnskapsforlaget
  • Ruud, Øyvind (2000): Den nye verden: DVD audio, Artikkel i Lyd og Bilde nr. 10/00
  • Vistnes, Arnt Inge og Bugge, Lars (1993): FYS 115 øvelse 12 Digitalisering av lyd, Labintroduksjon Fysisk institutt, Oslo

MP3: Friend of the Youth or Enemy of the Sound? A discussion of different sound formats and problems with sound compression

Term paper in “Musikkvitenskap mellomfag” spring 2000

Abstract

The paper starts with presenting some of the concepts behind digital audio compression, before describing some of the most popular sound formats available today: the different standards in the MPEG-family, RealAudio, ATRAC, MS Audio, SACD and DVD Audio. The author argues that there are lots of positive aspects of sound compression, but perhaps this overwhelming popularity will limit the development of new and better standards, like Super Audio CD or DVD Audio.

1. Introduction

The last years have shown a growing amount of various multimedia standards and applications, like MP3, MPEG, MD, DVD, DAB, AC-3 and RealAudio. Similar for all of them is the dependency on sound compression during digital transfer, and they have all been applied to a wide range of applications (Brandenburg and MPEG-2 FAQ):

  • Broadcasting: Digital Audio Broadcasting (DAB, ADR, Worldspace Radio, Cable Radio, Internet Radio), cable and satellite TV (DVB, USSB, DirecTV, EchoStar)
  • Storage: Digital Video (DVB, Video CD, DVD), Digital Compact Cassette (DCC), Solid State Storage Audio, Portable music devices (MP3-players)
  • Multimedia: Computer based Multimedia (e.g. Java, Flash, games, consumer programs), multimedia on the Internet
  • Telecommunication: ISDN transmission, contribution links, distribution links

All the big companies behind the different standards claim that their product provides the best HI-FI quality at the lowest bit rate. But how do these standards actually work and which one is better for what use?

I will start off by briefly describing some concepts of digital audio compression, and how insight into psychoacoustics can help produce transparent sound compression. I assume the reader to have basic knowledge of digital signal processing, and will therefore not define standard concepts. Then I present some of the most popular sound formats, both those intended mainly for Internet usage and those giving high quality sound. Finally, I will discuss how the enormous popularity of standards using sound compression might result in unconsciousness about sound quality, and how this can limit the development of better standards. It is then interesting to pose the question: is MP3 the friend of the youth or the enemy of the sound quality?

2. Principles of Digital Audio Compression

With analog systems the different possibilities of audio quality was basically limited to choosing between stereo or mono, and the quality of the tape. Unlike the virtually “infinite” quality of analog systems, digital signals are dependent on the conflicting interests of high sampling rates versus small storing space. When Sony/Philips introduced the CD in 1980, they settled at a standard of 44,1 kHz and 16 bit. This confirms with the concept “Nyman frequency” telling us that the sampling frequency has to be minimum twice the highest frequency in the signal to avoid distortion (Jensenius, 1999). Since the human ear is capable of hearing sounds up to 20 kHz, the CD-medium should be able to present all frequencies audible to the human ear.

The audio on a CD is stored in a format called Pulse Code Modulation (PCM), where each sample is represented as an independent code (Pan, 1993). This requires a huge amount of samples to reproduce a good signal. We can easily calculate the amount of storage space necessary to save one minute of CD-quality sound, when we know that there are 44 100 samples every second, and that there are eight bits per byte:

44 100 samples/s * 2 channels * 2 bytes/sample * 60 s/min = 10 MB/min

If we were to have such audio files on the Internet, it would take up to an hour just to download one minute of high quality music, using a conventional modem. Clearly, it was necessary to develop systems to compress the sound while keeping up a high sound quality.

2.1 Lossless Coding

An ideal coding scheme allows for reconstruction of the original signal. One method of perceiving this is by dividing the signal up into 4 categories: irrelevant, redundant, relevant, and not redundant. The scheme will then remove either the amount of irrelevant or redundant information or both. This type of encoder can give a compression ratio of 1:2 up to 1:3,5, dependent on the signal, and still be able to fully reconstruct the original sound (Erne, 1998: 152). Different encoders use both linear prediction and a transformation with entropy encoding (for example Huffmann). The linear predictor minimises the variance of the difference in signals between samples. Then the entropy coder allocates codewords to the different samples (ib.), so that they can be reproduced in the correct order.

2.2 Psychoacoustics

During the years scientists have discovered a range of disabilities in the human ear. These prove extremely useful when compressing sound, as the whole idea of psychoacoustic models is to determine what parts of a sound are acoustically irrelevant.

An interesting result is that the sensitivity of the ear varies with frequency. The ear is most sensitive to frequencies in the neighbourhood of 4 kHz. Thus some sound pressure levels that can be detected at 4 kHz will not be heard at other frequencies. This also means that two tones of equal power but different frequency will probably not sound equally loud. Equi-loudness curves showing this effect is graphed in Figure 1a. The dashed curve indicates the minimum level at which the ear can detect a tone at a given frequency (Tsutsui, 1992). Filters based on this concept are used in most coding algorithms.

Another important concept is that of auditory noise masking. A perceptual weakness of the ear occurs whenever the presence of a strong audio signal makes a spectral neighbourhood of weaker audio signals imperceptible (Pan, 1993: 6). For a certain period of time only the strongest tonal signal may necessarily be presented, because the weaker signals will not be audible anyway. Look at the examples of simultaneous masking and temporal masking in Figure 1b and 1c. From these we can conclude that simultaneous masking is more effective when the frequency of the masked signal is equal to or higher than that of the masker. As well, forward masking can be effective for a longer time after the masker has stopped than the backwards masking. Both these concepts greatly help to compress the sound signal.

Figure 1: a) Equi-loudness curves b) Simultaneous masking curve c) Example of Temporal mask-ing (Tsutsui 1992)


The concept of dividing the spectrum into critical bands, is explained by the ear’s tendency to analyse the audible frequency range using a set of subbands. These subbands can be thought of as the frequency scale used by the ear. The frequencies within a critical band are similar in terms of the ear’s perception, and will therefore be processed separately from sound in the other critical bands. As we see from Table 1, the critical bands are much wider for higher frequencies than for lower. This means that the ear receives more information from the low frequencies than from the higher (Tsutsui, 1992), and this should be thought of when deciding what parts to compress the most in a signal.

Critical BandFrequency (Hz)Critical BandFrequency (Hz)
LowHighWidthLowHighWidth
001001001320002320320
11002001001423202700380
22003001001527003150450
33004001001631503700550
44005101101737004400700
55406301201844005300900
663077014019530064001100
777092015020640077001300
8920108016021770095001800
910801270190229500120002500
10127014802102312000155003500
11148017202402415500220506550
1217202000280    
Table 1: Critical bands (Tsutsui, 1992)

There are several other topics of psychoacoustics that are used in sound compression algorithms, but those mentioned above are the most popular and the ones giving the best signal reduction. It is also important to remember that these concepts are based on the perception of people with “average ears”, and that some people, especially children, may be able to hear sounds in the regions being cut off.

3. Different Sound Formats

There are lots of different sound formats available, some made for use on the Internet and others as pure high quality standards. I will go through some of the most widely spread formats and also some of the new rising standards that probably will dominate in the future.

3.1 MPEG-1

The Moving Pictures Experts Group (MPEG) was set up as a group under the International Organisation for Standardisation (ISO) in the end of the 1980s. It was meant to provide standards in sound and video compression, and how the two should be linked together. The audio part of MPEG-1 is described in three different layers of increasing complexity and performance. Layer I offering a compression ratio of 1:4, Layer II of 1:6 to 1:8 and finally the advanced Layer III of 1:10 to 1:12. These layers are hierarchically compatible, such that Layer III decoders can play all three layers, while Layer II decoders can play Layer I and Layer II bit streams. In the standardisation, MPEG has specified the bit stream format and the decoder for each layer, but not the encoder. This was done both to give some more freedom to the implementers, but also because some of the big companies taking part in the standard did not want to reveal their business concepts. Nevertheless, the MPEG-group has submitted some publicly available C source for explanation purposes.

An overview of the MPEG-1 audio encoding is shown in Figure 2. All three layers are built upon the same standard specification of perceptual noise shaping, using the same analysis filterbank. To ensure compatibility, all the compressed packets have the same structure with a header explaining the compression being used, followed by the sound signal. This proves practical because every sequence of audio frames can be used separately as they provide all the necessary information to decode it. Unfortunately, this also increases the file size, something the groupes behind competing standards have been criticising. Another common and important feature is the ability to insert program related information into the coded packets, such that items could be linked in for example multimedia applications (Fraunhofer, FAQ Layer 3).

Figure 2: Model of MPEG-1 audio encoding (MPEG Audio FAQ).


The three layers all have different applications, depending on the bit rate and compression ratio wanted. For example, Layer I was the audio standard in the Digital Compact Cassette (DCC) launched by Philips. Undoubtedly, the most popular of these have been Layer III, but then often called MP3. The name MP3 was invented when making file extensions on the Windows platform. Since the typical extension consists of three letters, “MPEG-1 Layer III” became MP3. This name has resulted in a lot of confusion, and lots of people mix up the different MPEG-standards and the corresponding layers. Note that there does not exist any MPEG-3 specification! As for the compression ratio, Table 2 shows some of the different qualities Layer III can deliver. The popular “MP3-music” on the Internet is most often coded with a bit rate of 128 kbit/s.

Enhancements of Layer III over Layer I and Layer II include nonuniform quantization, the usage of a bit reservoir, Huffmann entropy coding and noise allocation instead of bit allocation. These are all powerful tools, requiring much better encoders than the other layers. This is no problem today, as even the cheapest computer easily manages to process such files.

QualityBandwidthModeBit rateComp. ratio
Telephone2,5 kHzMono8 kbit/s1:96
Shortwave2,5 kHzMono16 kbit/s1:48
AM radio7,5 kHzMono32 kbit/s1:24
FM radio11 kHzStereo56-64 kbit/s1:24-26
Near-CD15 kHzStereo96 kbit/s1:16
CD>15 kHzStereo112-128 kbit/s1:12-14
Table 2: Typical performance data of MPEG-1 Layer III (Fraunhofer, Layer 3):

3.2 MPEG-2

MPEG-2 BC became an official standard in 1995. Carrying the tag BC (Backward Compatible), it was never intended to replace the schemes presented in MPEG-1 but rather supply new features. It supports sampling frequencies from 16 kHz to 22,05 kHz and 24 kHz at bit rates from 32 to 256 kbit/s for Layer I, and from 8 to 160 kbit/s for Layer II and Layer III. For the coding process this only implies some more tables included to the MPEG-1 audio encoder.

Another important feature is the addition of multichannel sound. MPEG-1 only supports mono and stereo signals, but for coding movies it was necessary to design support for 5.1 surround sound. This includes five full bandwidth channels and one “low frequent enhancement” (LFE) channel operating from 8 kHz to 100 kHz (MPEG-2 FAQ). Because of the backwards compatibility it was necessary to present a solution where all six channels could be mixed down to a stereo signal. If we call the two stereo channels L and R, adding a matrix system to the sound solves this:

L: left signal + (a · centre signal) + (b · left surround signal)
R: right signal + (a · centre signal) + (b · right surround signal)

where a and b represent a specific codec. Hence a full stereo picture can be reproduced in the decoder. But this system was greatly criticised, among others by Roger Dressler the technical manager of Dolby Laboratories. He argued that MPEG-II surround sound was not fitted as a new consumer format, and that it was limited by the backward compatibility (Braathen, 96). Therefore MPEG started working on a new standard. This was originally thought to be MPEG-3, but since the video part of the new standard could easily be implemented in MPEG-2, the audio part was named MPEG-2 AAC. Issued in 1997 (MPEG-2 FAQ), this new standard features the Advanced Audio Coding (AAC), a totally different way of representing the sound than PCM. AAC defines a coding standard for 1 to 48 channels with sampling rates of 8 to 96 kHz, and three different profiles of various complexity (MPEG FAQ). Instead of the filter bank used by former standards, AAC uses a Modified Discrete Cosine Transform (MDCT). Using the concept of Temporal Noise Shaping, this shapes the distribution of quantization noise in time by prediction in the frequency domain (MPEG-2 FAQ). Together with an increased window length of 2048 instead of 1152 lines per transformation, this gives a compression approximately 30 % more efficient than that of MPEG-2 BC (Fraunhofer, AAC FAQ).

A big advantage of MPEG-2 AAC is that it was never designed to be backward compatible. This solved the MPEG-2 BC limitation problems when processing surround sound. As well, MPEG changed the highly criticised transport syntax, leaving to the encoding process to decide whether to send a separate header with all audio frames or not (MPEG-2 FAQ). The result is that AAC provides a much better compression ratio relative to former standards, and is appropriate in all situations in which backward compatibility is not required or can be accomplished with simulcast. Formal listening tests have shown that MPEG-2 AAC provides slightly better audio quality at 320 kbit/s than MPEG-2 BC can provide at 640 kbit/s (ib.). It is expected that more and more services will turn towards AAC as the sound compression system. With time it will probably be the successor of Layer III (MP3), featuring the same quality at 70% of the size at a rate of 128 kbit/s.

3.3 RealAudio G2

RealAudio 1.0 was introduced in 1995 as an Internet standard developed to offer fast downloads over conventional modems. Thus a lossless or transparent compression was wide ahead of the scope of the standard. The newest version in the standard is called RealAudio G2, featuring up to 80% better download times than its predecessors. This has made it the most popular tool for live broadcasting on the web.

One major improvement is the handling of data loss while streaming. The available bandwidth on the web may vary, and earlier this often resulted in “empty spaces” in the sound being played. The RealAudio G2 codec has been designed so that the data packets are built up by parts of neighbouring frames, overlapping each other so that one package may contain parts of several seconds of music. The result is that if some packets are “lost”, the possible gap will be filled in by an interpolation scheme. Even if several packets are lost, the engine will manage to produce a quite good result (RealNetworks). This works out in much the same way as interlaced GIF-pictures.

The RealAudio G2 codec is optimised for Internet speeds of 16 to 32 kbit/s, but with support for rates from 6 to 96 kbit/s. This has made it popular because it allows a wide range of bit rates, as well as the ability to constantly change bit rate while streaming. Due to its great success, RealNetworks has expanded the scope offering not only sound transfer, but also video and different multimedia platforms such as VRML and Flash. They also work on a descriptive tool to describe the content of the media being played, a “light version” of MPEG-7 as will be explained later. A problem with the RealNetworks products is the lack of public source and the great limitations in the free coding tools. The consumer market could easily turn down an expensive system, and even the big companies would rather think about using free and easily available tools as AAC or MS Audio instead (Weekly, 1999).

3.4 Microsoft Audio v4.0

As for everything else, Microsoft also wants to be in the game, and they have made their own standard called Microsoft Audio v4. They have been very strict on not publishing any information about how this standard is implemented, but they have revealed that it is not based on filterbanks. David Weekly has made an extensive test of MS Audio compared to RealAudio and MP3. He is quite impressed and argues that it may be as good as MPEG in the near-to high quality range. On the negative side is the fact that it only runs on computers with Microsoft platforms (Weekly, 1999).

3.5 Minidisc/ATRAC

Sony launched the Minidisc in 1992, but it was not until 1996 that the consumer market got interested. It was never meant to compete with the CD but rather to be a replacement of the cassette tape as an easy-to-use, recordable and portable device. The term Minidisc only refers to the medium, the square disc, while the coding system is called ATRAC (Adaptive Transform Acoustic Coding for Minidisc). Based on psychoacoustic principles, the coder divides the input signal into three subbands and then makes transformations into the frequency domain using a variable block length. The transform coefficients are grouped into nonuniform bands according to the human auditory system, and then quantized on the basis of dynamics and masking characteristics (Tsutsui, 1992). While keeping the original signal of 16 bit and 44,1 kHz, the final coded signal is compressed by approximately a ratio of 1:5. The last years this system has become very popular, especially some of the ultra portable players featuring long playback times and good recording possibilities.

3.6 MPEG-4

With this new standard MPEG wants to provide a universal framework integrating tools, profiles and levels. It does not only integrate bit stream syntax and compression algorithms, but offers a framework for synthesis, rendering, transport and integration of audio and video (Erne, 1998: 155).

The audio part is mainly based upon the standards outlined in MPEG-2 AAC. Perceptual Noise Substitution (PNS) is among the new tools, and it works to save transmission bandwidth for noise-like signals. Instead of coding these signals, the total noise-power together with a “noise-flag” is transmitted. In the decoder the noise is re-synthesised during the decoding process (ib.). Another important feature is the scalability, giving the encoder the possibility to adjust the bit rate according to the complexity of the signal (Thom 1999).

Interesting for many developers is the ability to synthesise sound based on structured descriptions. MPEG-4 does not standardise a synthesis method, but only the description of the synthesis, meaning that any known or unknown sound synthesis method can be described (MPEG-4 FAQ). Lots of sounds and music are already made through synthesis methods, and by using MPEG-4 the final audio conversion can be left for the end computer. A parallel to graphics is the ability to make vector-based pictures and animations.

Text To Speech Interfaces (TTSI) have been around since the advent of personal computers, but MPEG-4 will standardise a decoder capable of producing intelligible synthetic speech at bit rates from 200 bits/s to 1,2 kbit/s. It will be possible to apply information such as pitch contour, phoneme duration, language, dialect, age, gender and speech rate. According to reports, the sound sounds quite real and reliable and the system has enormous capabilities. One advantage is the sound synchronisation in animations. The lips of a person talking in an animation could easily be synchronised to her lips, so that they will correspond no matter which language or speed she is talking.

An MPEG-4 frame can be built up by totally separated elements. This means that everything from all visual elements in a video picture to every single instrument in the sound can be controlled individually. Just imagine that you have a five-channel recording of a quintet playing Beethoven. Then you can just turn off one of the instruments and play that part yourself. Or if you watch a movie, you may be able to choose which language every single actor should speak, or wear, or even do. The concept of hypertextuality really gets to its power, with almost unlimited possibilities.

3.7 MPEG-7

While the former MPEG standards are designated to represent the information itself, MPEG-7 will represent the information about the information. The standard will not involve any sound compression in itself. Neither is the standard implemented in any available applications as the working group has yet to publish something more than the Working draft of December1999. Basically, MPEG-7 is meant for describing the content of media, and officially it is called ”Multimedia Content Description Interface”. What is sure is that the standard will be built up by involving three different parts: Descriptors, Descriptor Schemes and a Description Definition Language (MPEG-7 FAQ). It evolves from a serious problem of today’s Internet; the lack of a logical description of media files. For example, MPEG-7 will allow people to hum some lines of a melody into a microphone connected to their computer, and then a list of matching sound files will be listed. Another example is if you are interested in music played by a specific instrument. Then you can search for sounds with similar sound characteristics. MPEG-7 also opens for Automatic Speech Recognition (ASR) so that you can make a search by just forming a phrase like: “Find me the part where Romeo says ‘It is the East and Juliet is the sun’” (MPEG-7 FAQ). All these examples show the highly relevant connection to MPEG-4, as MPEG-7 provides the tools for accessing all the content defined within an MPEG-4 frame.

3.8 DVD Audio

Some of the sound compressing systems are presented above, but there are also some formats striving to only give the best possible audio quality. One of them being DVD Audio, presented by the DVD Forum. Everything was ready for a launch on the mass market by the end of 1999, but with the cracking of the code system of DVD video, it has been postponed while working on a better security system.

A DVD Audio disc looks similar to a normal CD, but it is capable of delivering much better sound quality during the 74 minutes. It allows six different sampling rates: 44,1, 88,2, 176,4, 48, 96 and 192 kHz, with a resolution of either 16, 20 or 24 bit. While the two best samplingrates can only be applied to a stereo signal, the others can be used for 5.1 surround sound. Even though a DVD Audio disc has a storage capacity of up to 5 GB, the original signal takes even more space. To account for this, DVD Audio uses a type of lossless packing called Meridian Lossless Packing (MLP) applied to the PCM bit stream (Braathen, 1999).

Some of the biggest music production firms like Warner and Universal have announced their support for DVD Audio. They have also secured that they will include a layer with the sound compressed in Dolby AC-3 as this will only take up about 5% of the space on the disc. Then at least all the DVD video players being sold will be able to play the new discs with a limited quality. However, it seems unlikely that the discs will be compatible with normal CD-players all over the world.

Figure 3: The conversion process for conventional PCM signals (top) and with the new DSD (bottom). Notice how this shortens the compression process (Braathen 1999).


3.9 SACD

A concurrent to DVD Audio is the Super Audio CD launched by Philips and Sony. Here the two firms have left the old PCM system and started out with a system called Direct Stream Digital (DSD). This means a totally different way of thinking about the encoder/decoder, using 1 bit converters through the whole process. Such converters have been used in consumer electronics for a while, but then it has been necessary to translate the PCM signal before using the 1 bit chips. As shown in Figure 3, the bit stream of the SACD system is recorded directly to the disc, without converting to PCM (Ruud, 2000). This requires a sampling rate of more than 2800 kHz, to ensure good quality. With a technique of noise shaping, the final signal will have a bandwidth of more than 100 kHz with a dynamic range of 120 dB. Since this technique is much more efficient than PCM, it will allow for up to 6 independent, full bandwidth channels with lossless packing (Braathen 1999).

An advantage of SACD is that the discs play with full quality in normal DVD players being sold today. As well, the discs are usually made of two transparent SACD layers and one core layer that can be read by normal CD players. This means that the SACD should ideally be compatible with all CD players around the world.

It is argued that the SACD is an attempt from Philips/Sony to get hold of a new patent, as the CD patent is running old these days. This surely would involve a lot in annual income for these companies, as the standard is not publicly available. Another argument is that it will be expensive to convert all studio and recording equipment to the new 1 bit technology. While lots of independent organisations and companies want the DVD Audio to become the new standard, it seems like we are going to get a public fight. Because as it is today, some SACD discs have just started to reach the market, while DVD Audio is still striving with their security system. What is sure is that both systems prove clearly superior to normal CDs, or as the test panel in a HI-FI magazine is saying: “CD-players costing six-digit numbers sounds comic when listening to what cheap players can do with 24/96 recordings” (Ruud, 1999).

4. Discussion

Through the Internet, millions of people have the possibility to download music in fairly high quality to their computer. While young people convert their CD collection to MP3s and put on the net, the music companies are furious because they can do nothing but watch potential income pass back and forth on the web. Music licensing has become a big problem, as it is possible to make perfect digital copies, compress them and share them with the whole world. Still my concern is more on the sound quality side.

No doubt, there are lots of advantages of compressed music. If you have music files on your computer, the different decoder programs have advanced functions for creating playlists, presenting additional information about the song or performer or output visual presentations of the spectrum. Normal PCs often have hard disks of up to 20 GB. If filled up, this will give more than 300 hours of continuous music, without even worrying about changing a CD. Portable MP3-players let you copy files from your computer to a small device, and some companies have even launched MP3-players in conventional rack format. The minidisc has also become extremely popular, and especially the possibility to obtain good, digital recordings.

It is difficult to measure sound quality for compressed files. Old quality terms like signal-to-noise ratio are useless when for example a sound is stripped for certain frequencies. The only way to measure the quality has been through expensive listening tests. There have been carried out lots of big tests the last years, and most of them use a method called “triple stimulus, hidden reference”. Shortly, it applies a listening sequence ABC, where A is the original, and one of B and C is the original and the other being the coded sound. The listener has to evaluate both B and C using a scale from 1.0 to 5.0, where 5.0 means transparent sound quality. This method gives quite precise and statistically satisfactory results. The results are different, but many tests conclude that there are only minor differences between the original sound and the one compressed to for example an MP3 128 kbit/s signal.

However, these tests are carried out in professional studios under controlled conditions and using expensive studio monitors. The general MP3-listener is sitting with her computer playing sound through her mediocre PC sound card with a pair of standard PC-speakers. This involves a serious degrading of the final output sound quality. Firstly, there is the problem of the encoder. Lots of free, publicly available encoders let you produce your own files. But to ensure that the coding process is fast, most of them often skip some of the processes specified in the different standards. This is mostly a problem with encoders making MPEG files, since this standard is open. When it comes to the decoding, many of the most popular decoders, for example WinAmp, have obvious bugs, resulting in for example some specific frequencies being cut off, or unwanted masking effects.

Another problem is the hardware. All normal PC sound cards are capable of making sound, but they were never intended to play back high quality audio. The D/A chips on even the cheapest, standalone CD-player will most certainly outperform the chips placed on most sound cards. As well, the interior of a PC is not the ideal place for processing high quality audio, with lots of background noise from different devices like CD-ROM, hard drive, and especially the fan. The final, output sound may not only be encoded and decoded wrongly, but also distorted by noise and disturbances. Even if the speakers are of high quality, it cannot save a sound lacking stereo perspective, depth and overtones.

It is not my intention to withdraw people’s happiness of playing MP3-files on their computer, but rather make aware of some problems connected with compressing sound. The problem is not the different formats, because they are excellent for their use. But I think the whole society gets a problem when for example the biggest newspapers in Norway encourage people to convert the whole CD collection to MP3s. People will not only be used to an unnecessary degraded quality, but they may also limit the development of new and better standards. It is a fact that consumer interests often set the standard for future developments, and it is not guaranteed that the best alternative wins. An example of this was the battle between Beta and VHS on the home video scene. We could easily get a situation, where the advent of different sound compression systems, result in a glorification for smaller and more compressed sound files. That will be a serious loss for the high quality sound.

On the other side, some people have been arguing that the CD-medium lacks some of the richness and quality of the old LP. Hopefully that debate will finally come to an end with the introduction of SACD and DVD Audio. Both are capable of delivering a stunning sound quality of more than 24 bit and 96 kHz. This will hopefully thrill more than the music enthusiasts: “The music was not loud during the presentation, but gosh what a spacious playback: The music lived in the room as a breath of the summer winds, softly, light and tender. It played extraordinary easy, there were absolutely no sharp edges from the digital process.” (Ruud, 2000). Even though we might get a battle between these new “super standards”, tomorrows technology will probably be more than capable of playing both formats, as well as conventional DVD movies and CDs. The battle of the best sound is greatly dependent on the consumers, and hopefully they will claim their right for better quality.

5. Conclusion

I have presented some of the various sound formats, intended both for use on the Internet and as a high quality medium. Certainly, sound compression for storage and transfer on the web is a great possibility offering loads of new and exciting features. Still, I think it should not be forgotten that the whole concept of sound compression is to remove something from the signal. Even though this might not seem to be audible by the human ear, it could have other effects degrading the total experience. A sound is more than just the tone you hear, it is a wave you can feel on your skin, just as the deepest bass tones. The removing of initially inaudible overtones may alter the overall richness and depth of the sound image in a room. It all melts down to the fact that acoustics is one of the oldest and still most difficult sciences. The conclusion of my topic question may be: yes, sound compression may be the friend of the youth and the whole society, but it is also the enemy of the sound! Therefore we should never take any chances, and rather be sure to choose the better quality if available. So take some time to put that old CD in your player and be confident that you get the best possible sound.

Bibliography

  • Brandenburg, Karlheinz (1999): Mp3 and AAC explained, Proceedings of the AES 17th International Conference on High Quality Audio Coding, Florence, Italy
  • Braathen, Espen (1996): Den allsidige platen kommer!, article in Audio Video 1/96, http://home.sol.no/~espen-b/dvd/format.html
  • Braathen, Espen (1999): Standardene for superlyd er klare!, http://home.sol.no/~espen-b/dvd/audio/index.html
  • Casajús–Quirós, Francisco (1998): Digital Signal Processors for Real–Time Audio Processing, Proceedings of ’98 Digital Audio Effects Workshop, Barcelona, Spain
  • ISO/IEC 11172 (1993): MPEG-1 Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1,5 Mbit/s, International standard, http://drogo.cselt.stet.it/mpeg/standards/mpeg-1/mpeg-1.htm
  • ISO/IEC DIS 13818 (1996): MPEG-2 Generic coding of moving pictures and associated audio information, http://drogo.cselt.stet.it/mpeg/standards/mpeg-2/mpeg-2.htm
  • Erne, Marckus (1998): Digital Audio Compression Algorithms, Proceedings – 98 Digital Audio Effects Workshop, Barcelona 1998
  • DVDNett: Neste generasjon CD: DVD Audio eller Super Audio CD?
  • Fraunhofer Institut: Basics about MPEG Perceptual Audio Coding, http://www.iis.fhg.de/amm/techinf/basics.html
  • Fraunhofer Institut: MPEG Audio Layer-3, http://www.iis.fhg.de/amm/techinf/layer3/index.html
  • Fraunhofer Institut: MPEG-2 AAC, http://www.iis.fhg.de/amm/techinf/aac/index.html
  • Fraunhofer Institut (1998): Frequently Asked Questions about MPEG Audio Layer-3, Version 3.0, March 1998, http://www.iis.fhg.de/amm/techinf/layer3/layer3faq/index.html
  • Gayton, Cynthia (1999): Music Licensing Legal Developments for the Independent Label, http://ourworld.compuserve.com/homepages/Cynthia_Gayton
  • Hacker, S. (2000): Mp3: The Definitive Guide
  • Jensenius, Alexander Refsum (1999): Digitalisering av pianolyd, noen problemområder med vekt på fysisk signal og menneskelig oppfatning, term paper University of Oslo
  • Koenen, Rob ed. (1999): Overview of the MPEG-4 Standard, http://drogo.cselt.stet.it/mpeg/standards/mpeg-4/mpeg-4.htm
  • Martinez, Jose ed. (1999): Overview of the MPEG-7 Standard, http://drogo.cselt.stet.it/mpeg/standards/mpeg-7/mpeg-7.htm
  • Meares, David, Watanabe, Kaoru and Scheirer, Eric (1998): Report on MPEG-2 AAC Stereo Verification Tests
  • MPEG Audio FAQ: MPEG-1: Coded Storage of Sampled Sound Waves, http://www.tnt.uni-hannover.de/project/mpeg/audio/faq/mpeg1.html
  • MPEG Audio FAQ: MPEG-2: Coded Transmission/Storage of Sampled Sound Waves, http://www.tnt.uni-hannover.de/project/mpeg/audio/faq/mpeg2.html
  • MPEG Audio FAQ: MPEG-4 Audio: coding of natural and synthetic sound, http://www.tnt.uni-hannover.de/project/mpeg/audio/faq/mpeg4.html
  • MPEG Audio FAQ: MPEG-7: Description of meta-information on sound, http://www.tnt.uni-hannover.de/project/mpeg/audio/faq/mpeg7.html
  • MPEG (1998): MPEG-7 Context and Objectives, http://www.darmstadt.gmd.de/mobile/MPEG7/Documents/N2460.html
  • Pan, Davis Yen (1993): Digital Audio Compression, article in Digital Technical Journal Vol. 5 No. 2, spring 1993
  • Pan, Davis Yen (1995): A Tutorial on MPEG/Audio Compression. Article in IEEE Multimedia Journal Vol. 2, No. 7, 1995, pp. 60-74
  • Russ, Martin (1996): Sound Synthesis and Sampling
  • Ruud, Øyvind (2000): Den digitale lydfronten, article in Lyd & Bilde 4/2000
  • Ruud, Øyvind (1999): Er CD-spilleren på vei ut?, article in Lyd & Bilde 11/1999
  • Scheirer, Eric (1998): AudioBIFS: The MPEG–4 Standard for Effects Processing, Proceedings – 98 Digital Audio Effects Workshop, Barcelona 1998
  • Serra, Xavier and Peeters, Geoffrey (1999): Audio Descriptors and Descriptor Schemes in the Context of MPEG–7, Proceedings of the 1999 International Computer Music Conference
  • Signès, Julien (1999): Binary Format For Scene (BIFS): Combining MPEG-4 media to build rich multimedia services
  • Thom, D., Purnhagen, H., Pfeiffer, S. (1999): MPEG Audio FAQ, Official FAQ from the International Organisation for Standardisation (ISO), http://www.tnt.uni-hannover.de/project/mpeg/audio/faq/
  • Tsutsui, Kyoya and others (1992): ATRAC: Adaptive Transform Acoustic Coding for Minidisc, 93rd Audio Engineering Society Convention in San Francisco, 1992
  • Väänänen, Riitta and Huopaniemi, Jyri (1999): Virtual Acoustics Rendering in MPEG–4 Multimedia Standard, Proceedings of the 1999 International Computer Music Conference
  • Watkinson, John (1999): MPEG–2
  • Weekly, David (1999): MSAudio vs MP3 vs RealAudio, http://www.mp3now.com/html/msaudiovsmp3.html
  • White, Paul: Recording and Production Techniques for the recording musician
  • Wright, Matthew (1999): Cross–Coding SDIF into MPEG–4 Structured Audio, Proceedings of the 1999 International Computer Music Conference

Digitalisering av pianolyd: Noen problemområder, med vekt på fysisk signal og menneskelig oppfatning

Semesteroppgave musikkvitenskap grunnfag, 1. juni, 1999

Forord

En oppgave i musikkteknologi innbefatter delområder fra både matematikk, informatikk, fysikk og musikk. Nettopp denne allsidigheten var det som lokket meg til å skrive en oppgave innen dette feltet. Med universitetsbakgrunn fra alle fagområdene synes jeg det har vært spennende å endelig kunne kombinere erfaringene fra de forskjellige feltene for å skrive en oppgave.

Jeg tok tidlig kontakt med NOTAM og fikk full anledning til å bruke utstyr og programvare fra deres maskinpark. I tillegg ble jeg veiledet i hvordan jeg skulle bruke de forskjellige programmene og lydutstyret. Dette har vært uvurderlig i mitt arbeide, som i all hovedsak har bestått av å lære å bruke og forstå mange forskjellige programmer for signalprosessering og lydsyntese både for PC, Mac og Unix. Mye tid har derfor gått med til å lese bakgrunnsinformasjon og manualer, men dette har vært en spennende læringsprosess. Jeg har lagt vekk på å ikke bare skrive en oppgave, men å stikke hodet inn i et fagfelt som er i drivende utvikling. Selv med kun to ukers døgnkontinuerlig arbeide, føler jeg at jeg har fått en viss oversikt over fagområdet musikkteknologi og kjennskap til endel av utstyret og programvaren som blir benyttet.

For å generere egne lyder har jeg satt meg inn i lydprogrammeringsspråket Csound som i lang tid har vært selve hjørnestenen i digital lydbehandling. Ved å kunne teste ut de forskjellige teoriene i praksis har jeg også forstått mer av de forskjellige elementenes oppbygning.

Denne oppgaven er skrevet i typesettingsprogrammet LATEX. Dette var fordi jeg ønsket å teste ut den omgivelsen som de fleste universitetsfolk (ihvertfall på MatNat) skriver sine oppgaver og avhandlinger i.

For å klargjøre de forskjellige punktene og som illustrasjoner har jeg lagt ved en CD-plate. Gjennom hele oppgaven henvises det til aktuelle spor på CD-platen. En oversikt over sporene på CDen står i appendixet.

Jeg vil takke min veileder Rolf-Inge Godøy på IMT og Bjarne Kvinnsland og Øyvind Hammer på NOTAM for all hjelp.

Innledning

Digital signalprosessering og digitale instrumenter har blitt en viktig del av dagens musikkliv. I løpet av noen få år har disse områdene økt fra å være en kuriositet for spesielt interesserte til å bli ledende innen studiovirksomhet og på instrumentfronten. Jeg har selv blitt imponert over anslag og tone i mitt nye digitalpiano Roland RD-600, og har sett en rekke spennende redigeringsmuligheter i moderne dataprogrammer. Jeg ønsket imidlertid å lære mer om hva som egentlig skjer når jeg spiller på en tangent på pianoet mitt, eller prosesserer en lyd på datamaskinen. Særlig interessant er det å studere noen av områdene som vanskeliggjør et godt resultat, og se hvilke begrensninger og muligheter som ligger i dette.

I begynnelsen av oppgaven gjennomgår jeg en del viktige fysiske elementer. Dette er på ingen måte utfyllende nok, men det er heller ikke rom for nærmere utdypinger i en slik oppgave. Stort sett har jeg forsøkt å forklare alle begreper slik at alle skal kunne forstå det, men i kapitlet om Fourier-omvending forutsettes det en viss bakgrunnskunnskap i matematikk for å forstå formlene. Jeg ønsket allikevel å ta dem med fordi de er såpass sentrale i moderne lydbehandling.

For bedre å forstå hvordan lydsyntese egentlig fungerer forsøkte jeg å programmere en pianotone i Csound. I dag bruker imidlertid de fleste digitalpianoer lydsamplinger, og jeg har også brukt Samplecell for å lage mitt eget samplepiano.

Men hva er egentlig meningen med å forsøke å utvikle et perfekt digitalt instrument? Hvorfor skal man forsøke å etterligne et allerede perfekt akustisk piano? Meningen med å produsere og stadig utvikle bedre digitale instrumenter er ikke for å erstatte vanlige akustiske instrumenter, men er ment som et nyttig supplement.

Når man nevner ordet digitalpiano er det mange mennesker som øyeblikkelig stadfester at et digitalpiano overhodet ikke kan måle seg med akustiske instrumenter. Som en liten test på hvor dyktige folk egentlig er til å høre forskjell på dette, laget jeg en liten blindtest og intervjuet tilfeldige mennesker.

Gjennom oppgaven henvises det ofte til notenavn. Følgende betegnelser benyttes, med start fra de dypeste tonene: 1C, C, c, c1, c2, c3, c4, c5 (Benestad 1985:21).

Lyd

Lydbølger er kompresjoner i luften på samme måte som for eksempel lys. Disse kompresjonene registreres av trommehinnen i menneskeøret og forplanter seg videre til hjernen slik at vi oppfatter signalet som lyd. Lydbølger kan spres i alle medier, men hastigheten varierer avhengig av mediet. I luft med 20 grader celsius beveger lyden seg med 343 meter per sekund. I andre materialer, som for eksempel jern, beveger lyden seg med opptil flere kilometer per sekund, mens hastigheten i vann er svært liten. Forskjellige instrumentlyder får gjerne noe av sin spesielle klang på grunn av hastigheten i materialet som instrumentet er laget av.

Men hva er egentlig en bølge? Matematisk kan den settes opp ved hjelp av likningen

hvor lille a betyr at det er et analogt signal,  er amplituden, f er frekvensen i hertz, t er tiden i sekunder og delta er fasen (Proakis 1992:13). En helt ren lydbølge ser altså ut som en sinusfunksjon som i figur 1.

Fra en lydkilde spres signalet i alle retninger akkurat slik som bølgene fra en sten som kastes i vannet. Men ettersom bølgene beveger seg vekk fra kilden, er det viktig å huske på at lydstyrken blir mindre. Lydstyrken avtar faktisk med ganske nøyaktig kvadratet av avstanden til lydkilden.

For å kunne forstå videre arbeid med digitalisering av lyd, er det viktig at man kjenner til begrepene amplitude, frekvens, klangfarve, dynamikk og beats

Figure 1: En ren sinustone

Amplitude

Amplituden er det vertikale utslaget i en funksjon (figur 1), og angir lydens styrke målt i desiBel (forkortes dB). Dette er en logartimisk enhet, slik at hvis man for eksempel tredobler amplituden vil man nidoble lydstyrken. Derfor er det viktig at “vi ikke kan øke amplituden lineært og så regne med at vi får et naturlig crescendo. Vi må istedet bruke en eller annen eksponensiell funksjon” (Hammer 1997: 21).

Mennesket er istand til å skille to lyder med 1 dB forskjell og kan høre lyd opp til 120 dB før det gjør vondt. Når vi vet at det dynamiske området er definert som maksimumgrense over skillegrense, gir dette en verdi på 120 dB for menneskets øre. Vanlig lydutstyr har gjerne et dynamisk område på rundt 100 dB, og det er viktig å ta hensyn til dette når man arbeider med studioutstyr.

Frekvens

Perioden til en bølge er gitt ved tiden, målt i sekunder, fra en bølgetopp til den neste. Frekvens er definert som den inverse av perioden, og er et mål på hvor ofte svingningen gjentas i løpet av et sekund. Frekvens måles i hertz (Hz), og vi oppfatter den som tonens høyde. Enstrøken a har siden 1953 (Benestad 1985:60) vært definert med en frekvens på 440 Hz, det vil si at strengen beveger seg med 440 svingninger per sekund. På samme måte som for amplituden, er også frekvensen en logaritmisk enhet. Dette passer med at vårt notesystem er bygget opp slik at hvis man dobler frekvensen til en tone, hører vi dette som et oktavsprang opp. Tonen a2 har derfor en frekvens på 880 Hz, mens a har en frekvens på 220 Hz. Dette er svært nyttig når man arbeider med synthesiezere ettersom man enkelt kan bestemme frekvensen til enhver tone, kun ved å ta utgangspunkt i en annen tones frekvens og multiplisere denne med forholdet mellom de to tonene.

Klangfarve

Klangfarven er den unike formen til en lyd som gjør at man kan skille den fra en annen. En helt ren tone har gjerne form som en sinusfunksjon og er jevnt periodisk i tidsspekteret. Alle vanlige akustiske instrumenter har imidlertid en mye mer avansert oppbygging. Når for eksempel en pianostreng klinger, er lyden sammensatt av en rekke forskjellige sinus-funksjoner.

Matematikeren Fourier viste hvordan “enhver periodisk funksjon kan konstrueres ved å summere et antall sinus- og cosinus-funksjoner, hver med en frekvens som er et heltallsmultiplum av frekvensen til den periodiske funksjonen” (Hammer 1997:18). I tillegg adderes flere deltoner som kommer fra for eksempel resonans i instrumentet. Totalt skaper alle disse bølgene den kompliserte bølgefunksjonen som mennesket oppfatter. En forandring i en av parameterene vil altså være med på å endre klangfarven, og det vil mennesket kunne registrere og memorere for senere gjenkjennelse. Det er derfor vi klarer å skille mellom lyden fra for eksempel et piano og en obo.

Dynamikk

Vi har sett litt på hvordan en tone er bygget opp, men har ikke sett på hvordan den utvikler seg over tid. Når man hører på en pianotone (spor 4), merker man at den endrer seg hele tiden. Både lydstyrken, frekvensen og klangfarven forandres gjennom forløpet og er med på å skape det endelige inntrykket.

For det første endres amplituden kontinuerlig. Når en pianotone slås an, inntreffer nesten umiddelbart et maks-nivå i lydstyrken som kalles attack. Deretter følger en decay når amplituden langsomt dør ut. I tillegg må man ta hensyn til hvordan lyden skal være når man holder en pedal inne (sustain) og når man slipper pedalen (release). For noen år siden var det vanlig at de fleste synthesizere kun tok hensyn til disse fire punktene, populært kalt ADSR (Attack-Decay-Sustain-Release) (Hammer 1997:25). En slik beskrivelse av tonen over tid kalles gjerne for tenvelope og visualisert i tidsspekteret kan dette se ut som i figur 2. Her er de fire punktene tegnet lineært med knekkpunkter på grafen. For å gi en mer realistisk overgang mellom de forskjellige delene tegnes en slik envelope vanligvis mer buet og gjerne med en eksponensiell decay. Det viste seg imidlertid fort at bare fire punkter ble for lite for å beskrive en tone særlig realistisk, så de fleste moderne synthesizere bruker gjerne mange flere knekkpunkter og har en mengde med forskjellige innstillinger for å endre lydparametrene.

Figure 2:En ADSR (Attack-Decay-Sustain-Release) Envelope

Dynamikk i frekvensen er også svært viktig. Hvis man skal spille forskjellige toner kan man da enkelt minske eller øke hastigheten, med en endring i tonehøyde som resultat. Det kan også være aktuelt å endre frekvensen på en enkelt tone for å lage for eksempel glissando eller vibrato på enkelttoner (Hammer 1997:26).

For å skape en naturtro lyd må også klangfarven varieres. En pianotone har for eksempel en helt annen klang i selve anslaget enn når den er like ved å dø ut. å endre på denne parameteren krever mange beregninger og har tidligere vært begrenset av maskinvaren. Med dagens raske maskiner har man i større grad mulighet til å endre klangfarven kontinuerlig.

Beats

Hvis to toner med nærliggende frekvenser spilles samtidig vil man kun høre en tone med en frekvens som ligger midt mellom de to opprinnelige tonene. Denne tonen vil pulsere med en frekvens som er lik differansen mellom de to opprinnelige tonene. Dette kalles beats og antallet beats per sekund er lik forskjellen mellom de to frekvensene. La oss for eksempel spille en tone med frekvens 440 Hz og en annen med 445 Hz samtidig. Da vil vi høre en tone med frekvens 442,5 Hz som pulserer med en frekvens på 5 Hz. Denne effekten brukes blant annet når man stemmer en gitar eller et piano, for man kan da justere strengene til man ikke lenger hører noen beat-frekvens. Beats mellom to toner kan bli oppfattet av øret opp til en forskjell i frekvens på omtrent 15 Hz (Resnick 1992: 456). Når forskjellen blir større enn dette hører vi hver tone for seg, i et dissonerende eller konsorende intervall.

Analog/digital

En vanlig lydbølge er kontinuerlig både i tid og amplitude. Vi sier da at signalet er analogt, at det er definert i alle punkter og at oppløsningen er uendelig. Et digitalt signal registreres derimot som en lang streng av binære tall, enten med verdien 1 (på) eller 0 (av). Et digitalt signal er tids- og amplitudediskret, det er kun definert i de målte verdiene, og vi vet ingenting om forløpet mellom punktene.

Hvis vi ser på et mikrointervall av en lyd, kan vi definere en spesifikk nivåverdi for utslaget, et tall som definerer hvor tonen befinner seg i forhold til et nullnivå. Vi sier da at vi har registrert et sample. Når vi flytter oss til det neste mikrointervallet får vi en ny verdi, og slik kan vi fortsette bortover en lyd. Nøyaktig det samme skjer i en digitaliseringsprosess. Da er det gjerne en analog-digital (A/D) omformer som gjør målingene og lagrer dem i for eksempel en datamaskin.

Hvor små intervallene mellom hver måling er bestemmes av samplingsfrekvensen. Dette er et tall som forteller hvor mange samplinger som blir gjort per sekund. Regelen når man arbeider med digitalisering av lyd er at samplingsfrekvensen må være mer enn dobbelt så høy som den største frekvensen i stykket man tar opp (Hammer 1997:18). Halvparten av samplingsfrekvensen kalles for Nyquist-frekvensen og hvis lydsignalet overstiger denne verdien kan man enten risikere at signalet ikke registreres i det hele tatt, fordi det faller i et udefinert område, eller at det foldes nedover og simulerer falske frekvenser. Når vi vet at mennesket kan høre verdier opp til 16-20 kHz (avhengig av alder), bør samplingsfrekvensen være det dobbelte av dette hvis vi skal ta opp lyd i hele det hørbare spekteret. Det er nok derfor samplingsfrekvensen på CD-plater er satt til 44,1 kHz.

Like viktig som å bestemme samplingsfrekvensen er det å definere hvor stor oppløsningen skal være. Det vil si hvor mange forskjellige verdier man kan velge mellom når man skal beskrive utslaget. I dag er det vanlig å bruke en oppløsning på 16 bit som tilsvarer 216 = 65536 punkter. Selv om dette virker som en stor verdi, viser det seg allikevel at nyansene i musikken begrenses. Mange nyere profesjonelle konvertere kommer i dag med oppløsninger på opptil 24 bit.

Når det digitale signalet skal spilles av er det viktig at avspillingsfrekvensen er den samme som samplingsfrekvensen, ellers vil man oppleve en endring i tonehøyde. Når dette er sjekket, sendes den binære tallrekken gjennom en digital-analog (D/A) omformer som skaper spenninger tilsvarende de lagrete verdiene. Deretter sendes signalet gjennom et skarpt lavpassfilter som kutter frekvenser over Nyquist-frekvensen. Til slutt forsterkes signalet slik at man kan høre lyden.

Fourieromvending

Et av de mest sentrale hjelpemidlene i digital lydbehandling kalles Fouriertransformasjon, etter den franske matmatikeren og fysikeren Jean-Baptiste Joseph Fourier. Han oppdaget at det er en likhet mellom en funksjon av en frekvens og summasjon av funksjoner av tiden t. Matematisk er dette gitt ved

og tilsvarende blir

når x(t) er en funksjon av tiden t og X(F) er en funksjon av frekvensen f. Fra likningene (2) og (3) ser vi at det eneste som skiller transformasjonen og dens inverse er indeksen til \(e\). Det er derfor enkelt å benytte transformasjonen til å regne både til og fra delfrekvensense (Moore, 1990:62).

Men disse formlene tar utgangspunkt i en lineær kurve og integrerer fra minus uendelig til pluss uendelig. Et digitalt signal er kun et endelig antall definerte punkter. Når man skal omvende et diskret digitalt signal brukes isteden DFT, den diskrete Fourier transformasjonen. Denne formelen tar utgangspunkt i samplinger av det underliggende, kontinuerlige spekteret av den underliggende, kontinuerlige bølgeformen (Moore 1990:64-65). Etterhvert har det også blitt utviklet en FFT (Fast Fourier Transform) som bruker en logaritmisk funksjon istedenfor en kvadratisk funksjon for å løse summasjonen (ib. 81-82). Særlig på større beregninger er denne svært tidsbesparende, og derfor er det denne metoden som i all hovedsak benyttes idag.

Men hva er det egentlig som skjer når man gjør en slik omforming. Jo, ved å bruke en datamaskin til å kjøre Fouriertransformasjon på en lydbølge får man et diagram hvor deltonenes amplituder vises som funksjon av frekvensen. Lyden er da vist som et spektrogram i frekvensdomenet (Hammer 1997:23). Eller som det blir sagt: “The Fourier transform … is used in many fields of science as a mathematical or physical tool to alter a problem into one that can be more easily solved” (Hoffman, u.å.). På samme måte kan man reversere prosessen og bygge opp en tone ved å addere heltallsmultipler av grunntonefrekvensen. I utgangspunktet kan man da sette opp en matematisk formel for en hvilken som helst tone for deretter å lage en perfekt reproduksjon av klangen.

Fysisk analyse av pianolyd

Det er fint å forstå teorien bak lyd og akustikk, men jeg ønsket å teste ut hvordan det hele utarter seg i praksis. Jeg laget derfor et lite forsøk for å undersøke lyd fra forskjellige pianoer.

Opptak av pianolyd

Til de digitale opptakene brukte jeg en Tascam DAT-spiller og to Neuman KM 100 kondensatormikrofoner. Mikrofonene stod på stativer i 1,5 meters høyde, omtrent to meter fra instrumentet, og med en innbyrdes avstand på 20 cm. De var rettet mot høyre og venstre kant i forhold til instrumentet for å simulere posisjonen til menneskets ører. Opptakene ble gjort i 16 bits stereo og med en samplingsfrekvens på 44,1 kHz. I bildene under har jeg mikset de to kanalene sammen for at det skal være mer oversiktlig å se signalet.

Figure 3: Roland RD-600

De akustiske opptakene ble gjort på et Yamaha og et Steinway flygel. Desverre var Steinway flygelet relativt ustemt både i forhold til seg selv og til de andre instrumentene. Opptak av digitalpiano gjorde jeg gjennom den konstante linje-utgangen på et Roland RD-600 (figur 3). Her benyttet jeg hovedinstrumentet A11 uten effekter, chorus eller reverb på lyden. På alle instrumentene spilte jeg alle C’er fra 1C til c5, ved å slå an tonen og la den klinge helt ut. Tonene kan høres i spor 1-24. I tillegg tok jeg opp tonen c1 med sustain-pedalen nede (spor 25-27).

Figure 4: En pianotone. Til venstre vises hele tonen, mens det til høyre er zoomet inn på attack og decay.

En pianotone

De fleste vet hvordan et piano høres ut, og klarer å gjenkjenne denne lyden blant mange andre lyder. Lyden fremkommer ved at en tangent trykkes ned slik at bakenden av tangenten vipper opp og slår på en hammer, som til slutt treffer selve strengen. I tillegg heves dempeputen på den aktuelle strengen, slik at tonen kan klinge fritt. Tidsforløpet av en pianotone er vist i figur 4. Til venstre er det et bilde av hele tonen, mens det til høyre er zoomet inn på attack og decay. Vi ser at attack-delen av tonen er svært kort slik at maksutslaget av lyden inntreffer nesten umiddelbart. Deretter følger en rask decay som ser tilnærmet eksponensiell ut. Så følger den betydelig lengre sustain-delen hvor tonen langsomt dør ut.

Figure 5: Fra toppen tonene 1C, c1, c3 og c5 fra Yamaha flygel

Tonene fra 1C til c5

I figur 5 ser vi tonene 1C, c1, c3 og c5 som er laget ved hjelp av programmet SND. Grafene til venstre viser lydstyrken varierende med tiden. Tidsaksen er justert for hver lyd slik at vi får med omtrent halvparten av hver av tonene. Det er interessant å legge merke til at tonene med lave frekvenser varer lenger enn tonene med høy frekvens. Tonen 1C varer omtrent 25 sekunder, c1 omtrent 15 sekunder, c3 omtrent 10 sekunder og c5 i underkant av 4 sekunder. I det nederste bildet kan det se ut som c5 har en mye mer ujevn kurve enn c3. Dette er kun fordi det er zoomet mer inn på c5.

Noe som er interessant å legge merke til er hvordan sustain-delen av tonene ser ut til å “pulsere”. Dette gjelder også for tonen 1C, selv om det i figur 5 er mest synlig i tidsspektrene til tonene c1 og c3. I tonen c3 er det en innsnevring i lydstyrken ved omtrent ved 0,5 sekunder, deretter øker lydstyrken igjen og synker til en ny minimumsverdi ved 1,7 sekunder. Denne effekten skyldes beats og interferens mellom de forskjellige strengene. En slik pulsering er vanlig og en av de vanskeligste delene å simulere ordentlig på et digitalt piano.

Bildene til høyre i figur 5 viser frekvensspekteret for hver av de fire tonene. Her er det brukt en Fourier-omvending på det første punktet i tidsspekteret, med en vindusbredde på 4096 punkter. For hver tone kan vi se at det er en eller flere topper som markant skiller seg ut. Dette er da etter all sansynlighet grunntonen eller en av dens nærliggende. Verdiene til frekvens og relativ amplitude for de største toppene står i tallkolonnene helt til høyre. Alle disse verdiene er beregnet i begynnelsen av attacket og kan derfor være noe upresise for å angi den generelle grunntonefrekvensen for tonen. De viser imidlertid at 1C har grunntone nær 32 Hz, c1 nær 265 Hz, c3 nær 1050 Hz og c5 nær 4361 Hz. Tonen c1 skal egentlig være på omtrent 261 Hz, så de beregnete verdiene stemmer ganske bra. En kontrollregning viser også at en dobling i frekvens gir en stigning på en oktav.

Figure 6: Tonen c1 i tidsspekter. Øverst Roland RD-600 A11, i midten Steinway & Sons flygel og nederst Yamaha flygel

Tonen c1

Figur 6 viser et forstørret tidsspekter for tonen c1 fra henholdsvis Roland, Yamaha og Steinway. Her kan vi se bølgeformen i tidsrommet fra 0 til 0,03 sekunder akkurat i attack-fasen. Det er interessant å legge merke til hvor forskjellige bølgene ser ut, selv om de høres relativt like ut når de spilles av etter hverandre (spor 29). Dette skyldes at de er bygget opp av forskjellige sinufunksjoner. Faseforskjell mellom de forskjellige delbølgene kan være grunnen til at lydene ser svært forskjellige ut, men lyder ganske likt. Legg merke til hvor harmonisk Steinway-tonen ser ut i forhold til de andre. Dette passer med at denne tonen høres litt mykere ut i klangen.

Lydsyntese

På grunn av en enorm utvikling innen maskinvare og datamaskiner de siste årene, har det også blitt brukt en mengde forskjellige metoder for å syntesere, eller kunstig skape lyd. Felles for alle er at man er avhengig av en oscillator som kan generere de forskjellige funksjonene som angis, og at man har en forsterker som varierer amplituden på signalet. I tillegg er det vanlig å bruke forskjellige former for envelope for å forme hver tone slik man ønsker. Jeg skal her presentere noen av de mest sentrale teknikkene som har vært i bruk de siste årene.

Additiv syntese

Additiv syntese går ut på at man adderer sinusfunksjoner for å skape en tone. Vanligvis gjøres dette ved å gi verdiene til de forskjellige frekvenstoppene man ønsker og de respektive amplitudeverdiene. Deretter anvendes en av metodene for Fourieromvending og man får den sammensatte lyden. Hvis man er nøyaktig med å angi frekvenser kan man på denne måten produsere svært avanserte lyder. Problemet er gjerne at denne metoden medfører mange beregninger. Det har derfor vært vanlig å bruke den inverse av FFT (Fast Fourier Transform), som utfører beregningene mye raskere enn vanlig Fouriertransformasjon (Hammer 1997:49).

Subtraktiv syntese

Istedenfor å legge til funksjoner, tar man utgangspunkt i en lyd som er rik på overtoner og subtraherer deretter deler av lyden. Som startbølger kan man bruke sinus, firkant, sagtann, pulstog eller samplede lyder. En sagtann-bølge inneholder alle de harmoniske overtonene, med en gradvis senking av amplituden for hver av de harmoniske. En firkantbølge er bygget opp av kun de oddeharmoniske overtonene, mens pulsbølgen består av alle de harmoniske overtonene med samme amplitude. Hele poenget er at man sender et slikt signal gjennom et filter og så kommer en lyd ut. Det er vanlig å bruke lavpassfiltere som kutter bort frekvenser over en viss verdi. Ved å endre på cut-off frekvensen på filteret kan forskjellige lyder synteseres. Dette var en populær metode i mange av de tidlige synthesizerne, fordi den ikke krever mer enn noen få oscillatorer og filtre for å lage mange forskjellige lyder (Svinndal 1992:8-11).

FM-syntese

FM-syntesen har vært svært mye brukt i synthesizere og lydkort til datamaskiner. Den går i all hovedsak ut på at man bruker en oscillator til å sette opp en bærebølge (carrier). Deretter benyttes en lavfrekvent oscillator (LFO), som kalles modulator, for å styre frekvensen til bærebølgen. Klangfarven til tonen avhenger av forholdet mellom de to frekvensene, og kalles modulasjonsindeksen. Vanligvis brukes det flere oscillatorer for å endre lyden. En envelope på modulator endrer klangfarven, mens envelope på carrier endrer dynamikk i styrken. Ved å kombinere disse kan man lage en generell operator som kan inngå i en algoritme (Hammer 1997:50). Denne metoden ble svært populær, og blant annet Yamaha utviklet en serie med synthesizere som brukte denne teknikken. Metoden har imidlertid sine begrensninger og brukes nesten ikke lenger idag:

“In playback of music, synthesis allows for creation of many different sounds which are not otherwise available. … But FM synthesis is only one method of generating sounds, and is not a particularly realistic method. In fact, though developed for professional musical instruments, FM synthesis is largely obsolete in that market today” (White 1996).

Sampling

Sampling er ikke egentlig en “ren synteseform”. En sampler gjør et opptak av en lyd og kan deretter spille den av igjen. Dette gir i utgangspunktet en identisk tone når man spiller den av. Når man ønsker å variere tonehøyden endres avspillingshastigheten til den aktuelle lyden. Tilsvarende brukes en forsterker for å variere lydstyrken. Det er denne metoden som i all hovedsak brukes i lydkort og digitalpianoer i dag, gjerne sammen med noen av de andre syntesemodellene. Men det er ikke gitt at resultatet blir bra ved å bruke samplinger for å lage lyder, noe jeg kommer tilbake til i neste kapittel.

Fysisk modellering

De siste årene har fysikerne begynt å forstå hvilken funksjon og innvirkning hvert enkelt element i et instrument og dets omgivelser har for den endelige lyden. Når hver liten detalj som for eksempel hammerens slag på strengen, interferens mellom strengene og resonans i kassen kan beskrives fysisk, skulle det være mulig å modellere en tone. I tillegg vil et instrument basert på fysisk modellering kunne reagere realistisk på forskjellige spilleteknikker, for eksempel variasjon i anslag på tangenten. Dette krever naturlig nok svært mange beregninger, og man kan ende opp med å måtte løse likninger med tusenvis av ukjente. Med utviklingen av kraftige datamaskiner og stabile programmer er dette mulig, selv om det kan ta lang tid.

Modalys er et dataprogram basert på fysisk modellering. Her opererer man i et grafisk brukergrensesnitt hvor man enkelt kan plassere forskjellige elementer i et virtuelt rom på skjermen. Valgmulighetene spenner over alt fra strenger, en resonanskasse og hammere som slår, til å definere flere strenger som klinger med og pedalbruk. Til slutt kan man velge hva slags rom instrumentet befinner seg i før man ber maskinen regne ut lyden. I utgangspunktet virker det svært enkelt å lage en god lyd, men det kreves mye erfaring før man får et tilfredsstillende resultat.

Denne typen modellering er selvfølgelig også avhengig av hvordan de forskjellige elementene er beskrevet matematisk. Det er vanlig å ta utgangspunkt i fysiske målinger av et instrument, og da minsker fleksibiliteten betraktelig. Foreløpig er dette en relativt ny metode, så det utvikles stadig nye pakker med beskrivelser av instrumenter eller instrumentdeler.

En slik beskrivelse er Karplus-Strong-algoritmen. Dette er egentlig et filter laget for å syntesere lyden av klimpring på en streng. La oss tenke oss at vi sitter på et bestemt sted på en streng og observerer hvordan denne beveger seg i dette punktet. Når strengen slås an spres lydbølgene i begge retninger vekk fra dette punktet. Bølgene treffer hver sin ende av strengen og reflekteres tilbake. Hele tiden foregår det imidlertid en dempning av signalet på grunn av friksjon mellom streng og luft og de fastspente punktene. Strengen fungerer altså i seg selv som et lavpassfilter, som begynner med å fjerne de høyeste frekvenskomponentene. I tillegg opplever vi en interferens når bølgene fra hver side “treffer” hverandre. Bølgene beveger seg frem og tilbake på strengen og interfereres og filtreres mer for hver gang, helt til lyden dør helt ut.

Pluck er en Karplus-Strong algoritme som gir en svært realistisk lyd (spor 31). Den er også et godt utgangspunkt for syntese av mange forskjellige lyder (Hammer 1997:59-60).

Forsøk på syntese av pianolyd

Jeg ønsket å teste om jeg kunne klare å syntesere en pianotone helt fra grunnen av ved å bruke forskjellige synteseprinsipper. Som verktøy benyttet jeg lydsynteseprogrammet Csound. Programmet fungerer som en kompilator som leser en orkesterfil og en partiturfil og lager en lydfil på bakgrunn av de oppgitte verdiene.

Jeg bestemte meg for å lage pianotoen c1. Første punkt var da å finne ut hvilken grunntonefrekvens denne tonen har. Dette kan jeg beregne ved å se på forholdstallet mellom c1 og a1 som er 3:5. Når a1 har frekvens 440 Hz, gir dette at c1 er 264 Hz. Jeg ønsket å se på frekvensspekteret fra en av pianotonene jeg hadde tatt opp, så jeg brukte programmet SND for å Fourieromvende pianotonen c1. Verdiene jeg fikk var som i tabell 1. Her er grunntonen på 261 Hz, så jeg valgte å bruke denne verdien istedenfor min beregnete frekvens.

Frekvens (Hz)Relativ amplitude
2611.000
5230.387
7860.212
10480.344
13130.183
18460.155
23860.0975
Tabell 1: Frekvens og relativ amplitude for pianotone c1

Jeg begynte med å lage en ren sinustone med frekvens 261 Hz. Tonen er angitt som instrument 1 i orkester-filen til Csound (figur 8). Fra koden ser vi at det brukes en oscillator for å lage en tone med amplitude 10 000 (maks 20 000), frekvens 261 Hz og bølgeform nummer 1. I partiturfilen (figur 7) angis det at tonen skal spilles i 4 sekunder. Lyden vi får (spor 30) er altså en helt ren sinustone med frekvens 261 Hz.

Istedenfor å direkte addere de andre harmoniske til tonen, forsøkte jeg å bruke en sidefunksjon til Csound som kalles hetro (Hetrodyne filter analysis). Denne algoritmen leser en lydfil og skriver de harmoniske til en fil. Filen leste jeg inn i instrument 2 i orkester-filen (figur 8), og instrumentet ble spilt av. Dette hadde ingen særlig effekt, så jeg bestemte meg for å forsøke å addere delkomponenter isteden.

De forskjellige frekvensene og de relative amplitudene hadde jeg allerede (tabell 1. Disse ble skrevet inn som kall på hver sin oscillator i instrument 3 (a1a7). Hver oscillator tar parametrene frekvens, amplitude og kurveform. De forskjellige funksjonene adderes i a8, og nå er selve tonen skapt. For å legge på en envelope som endrer amplituden over tid, kalles det i a9 på funksjonen expseg. Den legger en eksponensiell decay på lyden, og tar parametrene startverdi, varighet av første segment og verdi etter første segment. Decayen adderes til den sammensatte bølgen i a10. Nå begynner lyden å minne litt om en pianotone.

Jeg hadde lyst til å teste ut hvordan Karplus-Strong algoritmen pluck klarer å simulere strenganslag. Denne er lagt til i a11 og adderes til de andre verdiene i a12. Kommandoen garev hopper vi over foreløpig og ser at dermed er dette instrumentet ferdig definert.

For å forsterke anslaget av tangenten idet den treffer strengen, la jeg til en ny pluck i instrument 4. Denne har en mye større amplitude enn den forrige, slik at den høres tydeligere. Kommandoen linen gir en skarp lineær økning i verdi og en rask decay. Dette instrumentet kalles i partiturfilen rett før selve tonen for å simulere et hardt strenganslag.

For å skape en ordentlig konsertstemning la jeg til slutt på litt romklang. Denne er definert i instrument 99 og kalles ved tid=0 i partiturfilen slik at den blir global og gjelder for alle instrumenter som spilles av. Det er boksen reverb som lager klangen med den globale variabelen garev som paramater. Vi så i instrument 3 at garev der fikk verdiene fra den sammensatte tonen.

I partiturfilen settes selve lyden til å komme 0.03 sekunder etter strenganslaget. Dette gjorde jeg for å simulere en ørliten forsinkelse i attack. Til slutt kjøres de to filene gjennom Csound-kompilatoren, og lyden blir som i spor 32. Med litt godvilje kan man jo gå med på at tonen unektelig har noe av den samme klangen som en ekte pianotone. Selv synes jeg strenganslaget ble for skarpt, men dette skyldes at pluck egentlig er skrevet for å simulere klimpring på en gitarstreng. Forsinkelsen jeg satte inn på tonen virker litt for lang. Decay og sustain mangler også den riktige kurven før man kan overbevises om at det er et ordentlig piano vi har å høre med.

Selv om lyden kanskje ikke ble så overbevisende, fikk jeg ihvertfall sett og testet ut hvordan man synteserer en tone og bruker noen av verktøyene som kan endre lyden.

f1 0 4096 10 1 

;instrument    Start    Varighet
;   i1          0          4 
;   i2          0          4
    i3          0.03       8   ; Lyd
    i4          0          1   ; Strenganslag
    i99         0          9   ; Klang i 5 sek.
 e

Figur 7: Csound score-fil for enstrøken c

 
sr = 44100                ; Samplerate
kr = 4410                 ; Kontrollrate
ksmps = 10                ; Forskjell sr/kr
nchnls = 1                ; Antall kanaler
garev init 0              ; Initialisering av garev

instr 1                   ; Enkelttone 261 Hz
a1 oscil 10000,261,1
out a1
endin

instr 2                   ; Resampling fra hetro-fil
a1 adsyn 1,1,1,"4c1.hetro"  
out a1
endin

instr 3 
a1 oscil 10000,261,1      ; Grunntone med frekvens 261 Hz
a2 oscil 3870,523,1    
a3 oscil 2120,786,1 
a4 oscil 3440,1048,1 
a5 oscil 1830,1313,1 
a6 oscil 1550,1846,1 
a7 oscil 975,2386,1 
a8 = a1+a2+a3+a4+a5+a6+a7 ; Sammenlegging av forskjellige toner
a9 expseg 1,1,.3          ; Eksponensiell decay 
a10 = a8*a9
a11 pluck 200,261,261,0,1 ; Attack med Karplus-strong
a12=a10+a11
garev = garev+a12         ; Initialisering til romklang
out a12
endin

instr 4                   ; Strenganslag med Karplus-Strong
a1 pluck 2000,261,261,0,1
a2 linen a1,.1,p3,p3*.3
out a2
endin

instr 99                  ; Romklang
  asig reverb garev*.1,2  ; 2 sekunders klang
  out asig
  garev = 0
endin

Figur 8:Csound orkester-fil for enstrøken c

Digitalt piano

Dagens digitale pianoer benytter seg i all hovedsak av samplingsteknikken. Som tidligere beskrevet, spiller man da av en digitalisert pianolyd. Oscillatorer varierer frekvensen, og en forsterker styrer lydstyrken. Dette virker relativt greit, men det er en rekke forskjellige punkter som kompliserer prosessen.

Først og fremst teller klangfarven inn. En lys og en mørk tone har en helt forskjellig oppbygning så hvis vi spiller av tonen 1C med hastighet som en c5 så høres det relativt spinkelt ut (spor 33). Når tonen c5 spilles av med hastighet som 1C får man definitivt ikke pianofølelse (Legg merke til at venstre kanal spiller lyden tidligere enn høyre kanal, sannsynligvis fordi den opprinnelige lyden først ble fanget opp av venstre mikrofon. Den ekstreme hastigheten lyden spilles av på audioaliserer denne effekten.) (spor 34). For å løse dette problemet kan man tenke seg at det vil være best å ta opp hver eneste pianotone for seg. Dette er nok best, men det ville krevet stor lagringsplass om man skulle ha liggende 88 forskjellige lyder som hele tiden skal være klar til å spilles av. Løsningen til nå har derfor vært at man definerer 5-6 soner på klaviaturet som har hver sin lyd. Det er gjerne en lyd som dekker nesten alle tonene fra 1C til c1, mens resten av tonene fordeles på de lyse intervallene. Dette er fordi klangfarven endres betydelig mer i de lyse partiene. På denne måten sikres man en naturlig tone samtidig som størrelsen på lydfilene holdes nede.

Jeg ønsket å teste ut dette på egenhånd og forsøkte derfor å lage mitt eget samplepiano. Jeg brukte programmene SampleCell og ProTools for å sette opp et instrument. Der importerte jeg en pianodefinisjon, og la så inn lyder fra Steinway-flygelet som dekket tonene fra 1C – c5. Jeg lot tonene være definert over en oktav, slik at lyden fra tonen c1 ble brukt på alle notene mellom giss og g1. Når man hører på en skalaoppgang av dette instrumentet (spor 35) kan man tydelig høre overgangen fra en lyd til en annen. Dette kan løses ved at man innfører en funksjon som mikser to lyder i overgangsområdene. En annen mulighet er å normalisere tonene og modifisere hver av dem slik at de bedre “passer inn” i hverandre.

Men på samme måte som klangfarven er forskjellig for mørke og lyse toner, varierer den også for sterke og svake enkelttoner. Hvis man bare demper en sterk lyd vil det ikke høres særlig naturlig ut. Derfor er det vanlig at man har tre forskjellige lyder liggende per tone. Disse må også behandles slik at overgangsområdene høres naturlig ut. Et slikt instrument vil altså bestå av tre ganger fem forskjellige lyder. Hvert sample er i stereo og varer i omtrent fire sekunder. Når vi vet at det går omtrent seks sekunder stereolyd per megabyte, så trengs det en lagringsplass på omtrent ti megabyte bare for ett instrument. Vanlige digitalpianoer har gjerne mellom 10 og 100 forskjellige instrumenter liggende lagret. Dette er mulig ved hjelp av kraftig kompresjon av lydfilene og streng seleksjon av de viktigste områdene i hver lyd. Desverre medfører dette en betraktelig senkning av lydkvaliteten.

Vi har sett at å bruke en envelope for å forme lyden er en effektiv metode. En samplet lyd trenger egentlig ikke så mye korreksjon i attack og decay områdene. Det er gjerne sustain-delen som er problemet. Som vi så fra analysen av en tone, så “pulserer” lyden i sustain-området, og hvis vi skal få en realistisk lyd er det viktig at dette kommer med. Dette gjøres ofte ved å loope et spesielt segment i lyden, men dette er en vanskelig sak. I mange digitalpianoer kan man høre at det hakker i loopingen og dette er svært uheldig.

Men det er en mengde lyder i et akustisk instrument som ikke nødvendigvis kommer fra en spesiell tone. En av disse er støy fra bevegelse av tangent og hammer. I et stort lydbilde er ikke dette særlig påfallende, men det kan være med på å endre klangfarven noe. En annen detalj er lyden fra fingeren som treffer tangenten. Dette kan være viktig å tenke på hvis man skal lage lyden slik den høres ut for pianisten.

Det jeg tror er den vanskeligste delen å simulere, er bruken av pedaler. Dempepedalen kan forholdsvis enkelt justeres, men sustain-pedalen volder større problemer. Når denne pedalen trykkes ned, løftes dempeputene på alle strengene slik at de kan klinge med. Nå er det slik at hvis tonen c1 spilles så vil også alle strenger som er med i overtonerekken til c1 begynne å vibrere. Selv om disse signalene er svake vil de på sin side sette i bevegelse tonene i sine overtonerekker, osv. Alle disse forskjellige lydbølgene beveger seg frem og tilbake i instrumentet og interferer konstruktivt og destruktivt med hverandre samt stadig flere strenger. Når pedalen ligger over lengre tid og man i tillegg spiller flere toner på en gang og etter hverandre, blir lydbildet til slutt ekstremt komplisert. På sporene 25-27 har jeg gjort opptak av tonen c1 med pedalen liggende nede før anslaget. Mens de akustiske instrumentene tydelig får en mer “utflytende karakter” endres ikke lyden på digitalpianoet nevneverdig.

Alt i alt ser vi at det er en rekke forskjellige faktorer å ta hensyn til hvis vi ønsker å lage et digitalt piano. Og enda har vi ikke begynt å se på avspillingsmedium. Generelt så begrenses utviklingen av gode lyder på grunn av lagringskapasitet. Men det hjelper ikke bare å kunne ta opp flere lengre og bedre lyder. Forståelsen av hvordan tonene fungerer sammen og i forhold til instrumentkassen er vel så viktig. Fremtiden er kanskje en form for kombinasjon av sampling og fysisk modellering. Da vil man kunne få et instrument med “ekte” lyd som oppfører seg som et ordentlig piano.

Blindtest

For virkelig å teste ut om folk klarer å høre forskjell på et digitalt eller akustisk piano, laget jeg en liten blindtest.

Gjennomføring av testen

Jeg valgte å operere med to små lydsnutter, en klassisk og en jazz/blues. Hvert av disse sporene tok jeg opp på seks forskjellige instrumenter, tre vanlige og tre digitale. Da opptakene ble utført hadde jeg desverre ikke tilgang til noe ordentlig flygel. Jeg brukte isteden tre pianoer fra henholdsvis Yamaha, schimmel og Grotwig-Steiman. De digitale instrumentene ble valgt fra Roland RD-600. Opptakene ble gjort med Tascam DAT-spiller og to Neuman MK 100 kondensatormikrofoner. Avspillingsmediet var en Sony MD-R50 med Sennheiser hodetelefoner. Testpersonene ble forklart at de skulle angi om de syntes instrumentet virket akustisk eller digitalt. Jeg forklarte at snuttene var tatt opp i forskjellige rom, med forskjellige instrumenter og at det ikke nødvendigvis behøvde å være halvparten digitalt eller akustisk. I tillegg opplyste jeg om at noen av de digitale instrumentene kunne være stemt litt opp eller ned. Sporene ble spilt av slik de er på CDen (spor 36-37). Når det var ønskelig stoppet jeg avspillingen eller repeterte en snutt.

Snutt nrDigitalAkustiskInstrument
175%25%Roland RD-600 A11
242%58%Yamaha piano
350%50%Schimmel piano
458%42%Roland RD-600 B13 u/reverb 438 Hz
517%83%Grotwig-steiman
683%17%Roland RD-600 A21 u/reverb 442 Hz
150%50%Schimmel piano
292%8%Roland RD-600 A11
375%25%Roland RD-600 A21 u/rev 442 Hz
48%92%Yamaha piano
558%42%Roland RD-600 B13 u/rev 438 Hz
642%58%Grotwig-steiman
Tabell 2: Resultater blindtest. Prosentene viser hvor mange som trodde at lyden var digital eller akustisk.

Resultater

Resultatene (tabell 3) viser at det var relativt stor usikkerhet om de forskjellige sporene. Totalt gjennomførte 12 mennesker testen. Åtte av disse var musikere eller musikkstudenter og av disse spilte fire piano. Generelt hadde disse færre feil enn de andre testepersonene. Fire av personene hadde kun to feil, mens resten bommet på flere. Ingen traff riktig på alle!

Generelt ser det ut til at Schimmel-pianoet voldte meste problemer, ettersom det både på klassisk og blues var halvparten som trodde det var et digitalt piano. Roland RD-600 B13 var også relativt likt representert. Den digitalpianolyden som jeg liker best selv og som også er definert som hovedlyd, Roland RD-600 A11, ble ganske tydelig gjenkjent som digitalpiano. Dette kan kanskje skyldes at det var brukt reverb gjennom pianoet under opptaket. Interessant var det ihvertfall at mange uttrykte frustrasjon over at de syntes det var vanskelig å høre forskjell de forskjellige instrumentene. De fleste var også overasket over kvaliteten på digitalpianoene.

Usikkerhetsmomenter

Det er selvfølgelig en hel mengde med usikkerhetsmomenter. Først og fremst ble ikke opptakene av de akustiske instrumentene like bra som jeg hadde håpet. Jeg hadde store problemer med overstyring og klipping på DAT-spilleren og ved å senke nivået ble lyden relativt mye svakere enn de på de digitale instrumentene.

For de andre blir det lett opptakstekniske ujevnheter når ikke instrumentene står i samme rom og mikrofonene plasseres litt forskjellig. På det digitale pianoet brukte jeg linjeutgangen, fordi dette burde generere en mest mulig naturlig tone i henhold til klangidealene produsentene arbeider med. Ideelle opptak måtte ha blitt tatt i ett rom hvor mikrofonene stod konstant og instrumentene ble flyttet frem og tilbake, for å sikre jevne akustiske forhold.

Avspillignsmediet var en Sony MZ-R50 minidisc-spiller. Denne ble benyttet istedenfor DAT-spiller på grunn av en mer hendig størrelse. Problemet med minidisc-formatet er at det er komprimert, fra omtrent 750 MB til 160 MB for 74 minutter stereo, ved at det kuttes i den øverste og nederste delen av spekteret. Dette skaper selvfølgelig en viss reduksjon i noen overtoner, selv om man skal være særlig trenet for å legge merke til dette. Det mest ideelle hadde selvfølgelig vært å sitte i et lydrom og spille av opptakene med gode høyttalere. Jeg ønsket imidlertid å teste mange “normale” mennesker og stilte meg derfor opp på Frederikkeplassen med et par kraftige hodetelefoner. Her er det endel bakgrunnsstøy og testpersonenene fikk heller ikke særlig lang tid til å lytte på de forskjellige opptakene. Meningen var heller ikke en grundig analyse, men bare at testpersonene skulle beskrive den umiddelbare følelsen av instrumentet.

Uansett viser hovedtrenden at flertallet fremdeles klarer å høre forskjell på et akustisk og et digitalt instrument selv om noen av instrumentene lå nærme halvparten. Dette er imidlertid mye bedre enn hvis man hadde gjort en lignende test for noen få år siden.

Konklusjon

Som vi har sett er pianoet et instrument med sammensatt og kompleks lyd. Selv om man nå begynner å utvikle teknikker som gjør at man får svært realistisk pianolyd, så er det fremdeles mange små uavhengigheter som gjør at det vanskelig å skapet et troverdig piano.

Min blindtest på forskjellige mennesker viste jo at de fleste også hadde problemer med å skille noen av instrumentene.

Har det så noen hensikt å forsøke å lage et digitalt instrument? Det kan jo aldri helt bli det samme som et ekte instrument. Jeg tror det er svært viktig å arbeide med å skape et perfekt digitalt instrument. Gjennom arbeidet vil man jo forstå veldig mye av hvordan man kan forbedre et ekte piano, og i tillegg så kan man utvikle svært gode digitale instrumenter som kan brukes til for eksempel MIDI eller konsertanledninger hvor signalet allikevel skal forsterkes. På sikt vil kanskje instrumentene bestå av an blanding av akustiske egenskaper og digitale fortrinn. Fremtiden er spennende!

Bibliografi

  • Bateman, Wayne A. (1980): Introduction to Computer Music, John Wiley & Sons, New York
  • Benestad, Finn (1985): Musikklære, TANO, Oslo
  • Hammer, Øyvind (1997): Digital lydbehandling, NOTAM, Oslo
  • Hoffman, Forrest (u.å.): An Introduction to Fourier Theory, http://aurora.phys.utk.edu/ forrest/papers/fourier/index.html, University of Tennessee, Knoxville
  • Proakis, John G. og Manolakis, Dimitris G. (1992): Digital Signal Processing. Principles, Algorithms, and Applications, Macmillan, New York
  • Resnick, Robert; Halliday, David and Krane, Kenneth S. (1992):Physics, vol I, John Wiley & Sons, New York
  • Moore, F. Richard (1990): Elements of Computer Music, Prentice Hall, New Jersey
  • Svinndal, Anders (1992): Synthesizeren som erstatning for akustiske instrumenter, Semesteroppgave musikkvitenskap, Oslo
  • Vistnes, Arnt Inge og Bugge, Lars (1993): FYS 115 øvelse 12 Digitalisering av lyd, Labintroduksjon Fysisk institutt, Oslo
  • Vistnes, Arnt Inge og Bugge, Lars (1993): FYS 115 øvelse 20 Syntese av lyd og digital filtrering, Labintroduksjon Fysisk institutt, Oslo

CD-spor

SporBeskrivelse
1Yamaha flygel, tonen 1C
2Yamaha flygel, tonen C
3Yamaha flygel, tonen c
4Yamaha flygel, tonen c1
5Yamaha flygel, tonen c2
6Yamaha flygel, tonen c3
7Yamaha flygel, tonen c4
8Yamaha flygel, tonen c5
9Steinway \& Sons flygel, tonen 1C
10Steinway \& Sons flygel, tonen C
11Steinway \& Sons flygel, tonen c
12Steinway \& Sons flygel, tonen c1
13Steinway \& Sons flygel, tonen c2
14Steinway \& Sons flygel, tonen c3
15Steinway \& Sons flygel, tonen c4
16Steinway \& Sons flygel, tonen c5
17Roland RD-600 A11, tonen 1C
18Roland RD-600 A11, tonen C
19Roland RD-600 A11, tonen c
20Roland RD-600 A11, tonen c1
21Roland RD-600 A11, tonen c2
22Roland RD-600 A11, tonen c3
23Roland RD-600 A11, tonen c4
24Roland RD-600 A11, tonen c5
25Yamaha flygel, tonen c1 med pedal nede
26Steinway \& Sons flygel, tonen c1 med pedal nede
27Roland RD-600 A11, tonen c1 med pedal nede
28Yamaha flygel tonene 2C, c1, c3, c5
29Tonen c1 fra Roland/Steinway/Yamaha
30Sinustone med frekvens 261 Hz
31Karplus-Strong Pluck algoritmen
32Forsøk på syntese av pianolyd, tonen c1
33Tonen 2C spilt med frekvens som tonen c5
34Tonen c5 spilt med frekvens som tonen 2C
35Forsøk på å lage et samplepiano
36Blindtest, klassiske snutter
37Blindtest, gospel/blues snutter
Tabell 3: Spor på den vedlagte CDen