MP3: Friend of the Youth or Enemy of the Sound? A discussion of different sound formats and problems with sound compression

Term paper in “Musikkvitenskap mellomfag” spring 2000


The paper starts with presenting some of the concepts behind digital audio compression, before describing some of the most popular sound formats available today: the different standards in the MPEG-family, RealAudio, ATRAC, MS Audio, SACD and DVD Audio. The author argues that there are lots of positive aspects of sound compression, but perhaps this overwhelming popularity will limit the development of new and better standards, like Super Audio CD or DVD Audio.

1. Introduction

The last years have shown a growing amount of various multimedia standards and applications, like MP3, MPEG, MD, DVD, DAB, AC-3 and RealAudio. Similar for all of them is the dependency on sound compression during digital transfer, and they have all been applied to a wide range of applications (Brandenburg and MPEG-2 FAQ):

  • Broadcasting: Digital Audio Broadcasting (DAB, ADR, Worldspace Radio, Cable Radio, Internet Radio), cable and satellite TV (DVB, USSB, DirecTV, EchoStar)
  • Storage: Digital Video (DVB, Video CD, DVD), Digital Compact Cassette (DCC), Solid State Storage Audio, Portable music devices (MP3-players)
  • Multimedia: Computer based Multimedia (e.g. Java, Flash, games, consumer programs), multimedia on the Internet
  • Telecommunication: ISDN transmission, contribution links, distribution links

All the big companies behind the different standards claim that their product provides the best HI-FI quality at the lowest bit rate. But how do these standards actually work and which one is better for what use?

I will start off by briefly describing some concepts of digital audio compression, and how insight into psychoacoustics can help produce transparent sound compression. I assume the reader to have basic knowledge of digital signal processing, and will therefore not define standard concepts. Then I present some of the most popular sound formats, both those intended mainly for Internet usage and those giving high quality sound. Finally, I will discuss how the enormous popularity of standards using sound compression might result in unconsciousness about sound quality, and how this can limit the development of better standards. It is then interesting to pose the question: is MP3 the friend of the youth or the enemy of the sound quality?

2. Principles of Digital Audio Compression

With analog systems the different possibilities of audio quality was basically limited to choosing between stereo or mono, and the quality of the tape. Unlike the virtually “infinite” quality of analog systems, digital signals are dependent on the conflicting interests of high sampling rates versus small storing space. When Sony/Philips introduced the CD in 1980, they settled at a standard of 44,1 kHz and 16 bit. This confirms with the concept “Nyman frequency” telling us that the sampling frequency has to be minimum twice the highest frequency in the signal to avoid distortion (Jensenius, 1999). Since the human ear is capable of hearing sounds up to 20 kHz, the CD-medium should be able to present all frequencies audible to the human ear.

The audio on a CD is stored in a format called Pulse Code Modulation (PCM), where each sample is represented as an independent code (Pan, 1993). This requires a huge amount of samples to reproduce a good signal. We can easily calculate the amount of storage space necessary to save one minute of CD-quality sound, when we know that there are 44 100 samples every second, and that there are eight bits per byte:

44 100 samples/s * 2 channels * 2 bytes/sample * 60 s/min = 10 MB/min

If we were to have such audio files on the Internet, it would take up to an hour just to download one minute of high quality music, using a conventional modem. Clearly, it was necessary to develop systems to compress the sound while keeping up a high sound quality.

2.1 Lossless Coding

An ideal coding scheme allows for reconstruction of the original signal. One method of perceiving this is by dividing the signal up into 4 categories: irrelevant, redundant, relevant, and not redundant. The scheme will then remove either the amount of irrelevant or redundant information or both. This type of encoder can give a compression ratio of 1:2 up to 1:3,5, dependent on the signal, and still be able to fully reconstruct the original sound (Erne, 1998: 152). Different encoders use both linear prediction and a transformation with entropy encoding (for example Huffmann). The linear predictor minimises the variance of the difference in signals between samples. Then the entropy coder allocates codewords to the different samples (ib.), so that they can be reproduced in the correct order.

2.2 Psychoacoustics

During the years scientists have discovered a range of disabilities in the human ear. These prove extremely useful when compressing sound, as the whole idea of psychoacoustic models is to determine what parts of a sound are acoustically irrelevant.

An interesting result is that the sensitivity of the ear varies with frequency. The ear is most sensitive to frequencies in the neighbourhood of 4 kHz. Thus some sound pressure levels that can be detected at 4 kHz will not be heard at other frequencies. This also means that two tones of equal power but different frequency will probably not sound equally loud. Equi-loudness curves showing this effect is graphed in Figure 1a. The dashed curve indicates the minimum level at which the ear can detect a tone at a given frequency (Tsutsui, 1992). Filters based on this concept are used in most coding algorithms.

Another important concept is that of auditory noise masking. A perceptual weakness of the ear occurs whenever the presence of a strong audio signal makes a spectral neighbourhood of weaker audio signals imperceptible (Pan, 1993: 6). For a certain period of time only the strongest tonal signal may necessarily be presented, because the weaker signals will not be audible anyway. Look at the examples of simultaneous masking and temporal masking in Figure 1b and 1c. From these we can conclude that simultaneous masking is more effective when the frequency of the masked signal is equal to or higher than that of the masker. As well, forward masking can be effective for a longer time after the masker has stopped than the backwards masking. Both these concepts greatly help to compress the sound signal.

Figure 1: a) Equi-loudness curves b) Simultaneous masking curve c) Example of Temporal mask-ing (Tsutsui 1992)

The concept of dividing the spectrum into critical bands, is explained by the ear’s tendency to analyse the audible frequency range using a set of subbands. These subbands can be thought of as the frequency scale used by the ear. The frequencies within a critical band are similar in terms of the ear’s perception, and will therefore be processed separately from sound in the other critical bands. As we see from Table 1, the critical bands are much wider for higher frequencies than for lower. This means that the ear receives more information from the low frequencies than from the higher (Tsutsui, 1992), and this should be thought of when deciding what parts to compress the most in a signal.

Critical BandFrequency (Hz)Critical BandFrequency (Hz)
Table 1: Critical bands (Tsutsui, 1992)

There are several other topics of psychoacoustics that are used in sound compression algorithms, but those mentioned above are the most popular and the ones giving the best signal reduction. It is also important to remember that these concepts are based on the perception of people with “average ears”, and that some people, especially children, may be able to hear sounds in the regions being cut off.

3. Different Sound Formats

There are lots of different sound formats available, some made for use on the Internet and others as pure high quality standards. I will go through some of the most widely spread formats and also some of the new rising standards that probably will dominate in the future.

3.1 MPEG-1

The Moving Pictures Experts Group (MPEG) was set up as a group under the International Organisation for Standardisation (ISO) in the end of the 1980s. It was meant to provide standards in sound and video compression, and how the two should be linked together. The audio part of MPEG-1 is described in three different layers of increasing complexity and performance. Layer I offering a compression ratio of 1:4, Layer II of 1:6 to 1:8 and finally the advanced Layer III of 1:10 to 1:12. These layers are hierarchically compatible, such that Layer III decoders can play all three layers, while Layer II decoders can play Layer I and Layer II bit streams. In the standardisation, MPEG has specified the bit stream format and the decoder for each layer, but not the encoder. This was done both to give some more freedom to the implementers, but also because some of the big companies taking part in the standard did not want to reveal their business concepts. Nevertheless, the MPEG-group has submitted some publicly available C source for explanation purposes.

An overview of the MPEG-1 audio encoding is shown in Figure 2. All three layers are built upon the same standard specification of perceptual noise shaping, using the same analysis filterbank. To ensure compatibility, all the compressed packets have the same structure with a header explaining the compression being used, followed by the sound signal. This proves practical because every sequence of audio frames can be used separately as they provide all the necessary information to decode it. Unfortunately, this also increases the file size, something the groupes behind competing standards have been criticising. Another common and important feature is the ability to insert program related information into the coded packets, such that items could be linked in for example multimedia applications (Fraunhofer, FAQ Layer 3).

Figure 2: Model of MPEG-1 audio encoding (MPEG Audio FAQ).

The three layers all have different applications, depending on the bit rate and compression ratio wanted. For example, Layer I was the audio standard in the Digital Compact Cassette (DCC) launched by Philips. Undoubtedly, the most popular of these have been Layer III, but then often called MP3. The name MP3 was invented when making file extensions on the Windows platform. Since the typical extension consists of three letters, “MPEG-1 Layer III” became MP3. This name has resulted in a lot of confusion, and lots of people mix up the different MPEG-standards and the corresponding layers. Note that there does not exist any MPEG-3 specification! As for the compression ratio, Table 2 shows some of the different qualities Layer III can deliver. The popular “MP3-music” on the Internet is most often coded with a bit rate of 128 kbit/s.

Enhancements of Layer III over Layer I and Layer II include nonuniform quantization, the usage of a bit reservoir, Huffmann entropy coding and noise allocation instead of bit allocation. These are all powerful tools, requiring much better encoders than the other layers. This is no problem today, as even the cheapest computer easily manages to process such files.

QualityBandwidthModeBit rateComp. ratio
Telephone2,5 kHzMono8 kbit/s1:96
Shortwave2,5 kHzMono16 kbit/s1:48
AM radio7,5 kHzMono32 kbit/s1:24
FM radio11 kHzStereo56-64 kbit/s1:24-26
Near-CD15 kHzStereo96 kbit/s1:16
CD>15 kHzStereo112-128 kbit/s1:12-14
Table 2: Typical performance data of MPEG-1 Layer III (Fraunhofer, Layer 3):

3.2 MPEG-2

MPEG-2 BC became an official standard in 1995. Carrying the tag BC (Backward Compatible), it was never intended to replace the schemes presented in MPEG-1 but rather supply new features. It supports sampling frequencies from 16 kHz to 22,05 kHz and 24 kHz at bit rates from 32 to 256 kbit/s for Layer I, and from 8 to 160 kbit/s for Layer II and Layer III. For the coding process this only implies some more tables included to the MPEG-1 audio encoder.

Another important feature is the addition of multichannel sound. MPEG-1 only supports mono and stereo signals, but for coding movies it was necessary to design support for 5.1 surround sound. This includes five full bandwidth channels and one “low frequent enhancement” (LFE) channel operating from 8 kHz to 100 kHz (MPEG-2 FAQ). Because of the backwards compatibility it was necessary to present a solution where all six channels could be mixed down to a stereo signal. If we call the two stereo channels L and R, adding a matrix system to the sound solves this:

L: left signal + (a · centre signal) + (b · left surround signal)
R: right signal + (a · centre signal) + (b · right surround signal)

where a and b represent a specific codec. Hence a full stereo picture can be reproduced in the decoder. But this system was greatly criticised, among others by Roger Dressler the technical manager of Dolby Laboratories. He argued that MPEG-II surround sound was not fitted as a new consumer format, and that it was limited by the backward compatibility (Braathen, 96). Therefore MPEG started working on a new standard. This was originally thought to be MPEG-3, but since the video part of the new standard could easily be implemented in MPEG-2, the audio part was named MPEG-2 AAC. Issued in 1997 (MPEG-2 FAQ), this new standard features the Advanced Audio Coding (AAC), a totally different way of representing the sound than PCM. AAC defines a coding standard for 1 to 48 channels with sampling rates of 8 to 96 kHz, and three different profiles of various complexity (MPEG FAQ). Instead of the filter bank used by former standards, AAC uses a Modified Discrete Cosine Transform (MDCT). Using the concept of Temporal Noise Shaping, this shapes the distribution of quantization noise in time by prediction in the frequency domain (MPEG-2 FAQ). Together with an increased window length of 2048 instead of 1152 lines per transformation, this gives a compression approximately 30 % more efficient than that of MPEG-2 BC (Fraunhofer, AAC FAQ).

A big advantage of MPEG-2 AAC is that it was never designed to be backward compatible. This solved the MPEG-2 BC limitation problems when processing surround sound. As well, MPEG changed the highly criticised transport syntax, leaving to the encoding process to decide whether to send a separate header with all audio frames or not (MPEG-2 FAQ). The result is that AAC provides a much better compression ratio relative to former standards, and is appropriate in all situations in which backward compatibility is not required or can be accomplished with simulcast. Formal listening tests have shown that MPEG-2 AAC provides slightly better audio quality at 320 kbit/s than MPEG-2 BC can provide at 640 kbit/s (ib.). It is expected that more and more services will turn towards AAC as the sound compression system. With time it will probably be the successor of Layer III (MP3), featuring the same quality at 70% of the size at a rate of 128 kbit/s.

3.3 RealAudio G2

RealAudio 1.0 was introduced in 1995 as an Internet standard developed to offer fast downloads over conventional modems. Thus a lossless or transparent compression was wide ahead of the scope of the standard. The newest version in the standard is called RealAudio G2, featuring up to 80% better download times than its predecessors. This has made it the most popular tool for live broadcasting on the web.

One major improvement is the handling of data loss while streaming. The available bandwidth on the web may vary, and earlier this often resulted in “empty spaces” in the sound being played. The RealAudio G2 codec has been designed so that the data packets are built up by parts of neighbouring frames, overlapping each other so that one package may contain parts of several seconds of music. The result is that if some packets are “lost”, the possible gap will be filled in by an interpolation scheme. Even if several packets are lost, the engine will manage to produce a quite good result (RealNetworks). This works out in much the same way as interlaced GIF-pictures.

The RealAudio G2 codec is optimised for Internet speeds of 16 to 32 kbit/s, but with support for rates from 6 to 96 kbit/s. This has made it popular because it allows a wide range of bit rates, as well as the ability to constantly change bit rate while streaming. Due to its great success, RealNetworks has expanded the scope offering not only sound transfer, but also video and different multimedia platforms such as VRML and Flash. They also work on a descriptive tool to describe the content of the media being played, a “light version” of MPEG-7 as will be explained later. A problem with the RealNetworks products is the lack of public source and the great limitations in the free coding tools. The consumer market could easily turn down an expensive system, and even the big companies would rather think about using free and easily available tools as AAC or MS Audio instead (Weekly, 1999).

3.4 Microsoft Audio v4.0

As for everything else, Microsoft also wants to be in the game, and they have made their own standard called Microsoft Audio v4. They have been very strict on not publishing any information about how this standard is implemented, but they have revealed that it is not based on filterbanks. David Weekly has made an extensive test of MS Audio compared to RealAudio and MP3. He is quite impressed and argues that it may be as good as MPEG in the near-to high quality range. On the negative side is the fact that it only runs on computers with Microsoft platforms (Weekly, 1999).

3.5 Minidisc/ATRAC

Sony launched the Minidisc in 1992, but it was not until 1996 that the consumer market got interested. It was never meant to compete with the CD but rather to be a replacement of the cassette tape as an easy-to-use, recordable and portable device. The term Minidisc only refers to the medium, the square disc, while the coding system is called ATRAC (Adaptive Transform Acoustic Coding for Minidisc). Based on psychoacoustic principles, the coder divides the input signal into three subbands and then makes transformations into the frequency domain using a variable block length. The transform coefficients are grouped into nonuniform bands according to the human auditory system, and then quantized on the basis of dynamics and masking characteristics (Tsutsui, 1992). While keeping the original signal of 16 bit and 44,1 kHz, the final coded signal is compressed by approximately a ratio of 1:5. The last years this system has become very popular, especially some of the ultra portable players featuring long playback times and good recording possibilities.

3.6 MPEG-4

With this new standard MPEG wants to provide a universal framework integrating tools, profiles and levels. It does not only integrate bit stream syntax and compression algorithms, but offers a framework for synthesis, rendering, transport and integration of audio and video (Erne, 1998: 155).

The audio part is mainly based upon the standards outlined in MPEG-2 AAC. Perceptual Noise Substitution (PNS) is among the new tools, and it works to save transmission bandwidth for noise-like signals. Instead of coding these signals, the total noise-power together with a “noise-flag” is transmitted. In the decoder the noise is re-synthesised during the decoding process (ib.). Another important feature is the scalability, giving the encoder the possibility to adjust the bit rate according to the complexity of the signal (Thom 1999).

Interesting for many developers is the ability to synthesise sound based on structured descriptions. MPEG-4 does not standardise a synthesis method, but only the description of the synthesis, meaning that any known or unknown sound synthesis method can be described (MPEG-4 FAQ). Lots of sounds and music are already made through synthesis methods, and by using MPEG-4 the final audio conversion can be left for the end computer. A parallel to graphics is the ability to make vector-based pictures and animations.

Text To Speech Interfaces (TTSI) have been around since the advent of personal computers, but MPEG-4 will standardise a decoder capable of producing intelligible synthetic speech at bit rates from 200 bits/s to 1,2 kbit/s. It will be possible to apply information such as pitch contour, phoneme duration, language, dialect, age, gender and speech rate. According to reports, the sound sounds quite real and reliable and the system has enormous capabilities. One advantage is the sound synchronisation in animations. The lips of a person talking in an animation could easily be synchronised to her lips, so that they will correspond no matter which language or speed she is talking.

An MPEG-4 frame can be built up by totally separated elements. This means that everything from all visual elements in a video picture to every single instrument in the sound can be controlled individually. Just imagine that you have a five-channel recording of a quintet playing Beethoven. Then you can just turn off one of the instruments and play that part yourself. Or if you watch a movie, you may be able to choose which language every single actor should speak, or wear, or even do. The concept of hypertextuality really gets to its power, with almost unlimited possibilities.

3.7 MPEG-7

While the former MPEG standards are designated to represent the information itself, MPEG-7 will represent the information about the information. The standard will not involve any sound compression in itself. Neither is the standard implemented in any available applications as the working group has yet to publish something more than the Working draft of December1999. Basically, MPEG-7 is meant for describing the content of media, and officially it is called ”Multimedia Content Description Interface”. What is sure is that the standard will be built up by involving three different parts: Descriptors, Descriptor Schemes and a Description Definition Language (MPEG-7 FAQ). It evolves from a serious problem of today’s Internet; the lack of a logical description of media files. For example, MPEG-7 will allow people to hum some lines of a melody into a microphone connected to their computer, and then a list of matching sound files will be listed. Another example is if you are interested in music played by a specific instrument. Then you can search for sounds with similar sound characteristics. MPEG-7 also opens for Automatic Speech Recognition (ASR) so that you can make a search by just forming a phrase like: “Find me the part where Romeo says ‘It is the East and Juliet is the sun’” (MPEG-7 FAQ). All these examples show the highly relevant connection to MPEG-4, as MPEG-7 provides the tools for accessing all the content defined within an MPEG-4 frame.

3.8 DVD Audio

Some of the sound compressing systems are presented above, but there are also some formats striving to only give the best possible audio quality. One of them being DVD Audio, presented by the DVD Forum. Everything was ready for a launch on the mass market by the end of 1999, but with the cracking of the code system of DVD video, it has been postponed while working on a better security system.

A DVD Audio disc looks similar to a normal CD, but it is capable of delivering much better sound quality during the 74 minutes. It allows six different sampling rates: 44,1, 88,2, 176,4, 48, 96 and 192 kHz, with a resolution of either 16, 20 or 24 bit. While the two best samplingrates can only be applied to a stereo signal, the others can be used for 5.1 surround sound. Even though a DVD Audio disc has a storage capacity of up to 5 GB, the original signal takes even more space. To account for this, DVD Audio uses a type of lossless packing called Meridian Lossless Packing (MLP) applied to the PCM bit stream (Braathen, 1999).

Some of the biggest music production firms like Warner and Universal have announced their support for DVD Audio. They have also secured that they will include a layer with the sound compressed in Dolby AC-3 as this will only take up about 5% of the space on the disc. Then at least all the DVD video players being sold will be able to play the new discs with a limited quality. However, it seems unlikely that the discs will be compatible with normal CD-players all over the world.

Figure 3: The conversion process for conventional PCM signals (top) and with the new DSD (bottom). Notice how this shortens the compression process (Braathen 1999).

3.9 SACD

A concurrent to DVD Audio is the Super Audio CD launched by Philips and Sony. Here the two firms have left the old PCM system and started out with a system called Direct Stream Digital (DSD). This means a totally different way of thinking about the encoder/decoder, using 1 bit converters through the whole process. Such converters have been used in consumer electronics for a while, but then it has been necessary to translate the PCM signal before using the 1 bit chips. As shown in Figure 3, the bit stream of the SACD system is recorded directly to the disc, without converting to PCM (Ruud, 2000). This requires a sampling rate of more than 2800 kHz, to ensure good quality. With a technique of noise shaping, the final signal will have a bandwidth of more than 100 kHz with a dynamic range of 120 dB. Since this technique is much more efficient than PCM, it will allow for up to 6 independent, full bandwidth channels with lossless packing (Braathen 1999).

An advantage of SACD is that the discs play with full quality in normal DVD players being sold today. As well, the discs are usually made of two transparent SACD layers and one core layer that can be read by normal CD players. This means that the SACD should ideally be compatible with all CD players around the world.

It is argued that the SACD is an attempt from Philips/Sony to get hold of a new patent, as the CD patent is running old these days. This surely would involve a lot in annual income for these companies, as the standard is not publicly available. Another argument is that it will be expensive to convert all studio and recording equipment to the new 1 bit technology. While lots of independent organisations and companies want the DVD Audio to become the new standard, it seems like we are going to get a public fight. Because as it is today, some SACD discs have just started to reach the market, while DVD Audio is still striving with their security system. What is sure is that both systems prove clearly superior to normal CDs, or as the test panel in a HI-FI magazine is saying: “CD-players costing six-digit numbers sounds comic when listening to what cheap players can do with 24/96 recordings” (Ruud, 1999).

4. Discussion

Through the Internet, millions of people have the possibility to download music in fairly high quality to their computer. While young people convert their CD collection to MP3s and put on the net, the music companies are furious because they can do nothing but watch potential income pass back and forth on the web. Music licensing has become a big problem, as it is possible to make perfect digital copies, compress them and share them with the whole world. Still my concern is more on the sound quality side.

No doubt, there are lots of advantages of compressed music. If you have music files on your computer, the different decoder programs have advanced functions for creating playlists, presenting additional information about the song or performer or output visual presentations of the spectrum. Normal PCs often have hard disks of up to 20 GB. If filled up, this will give more than 300 hours of continuous music, without even worrying about changing a CD. Portable MP3-players let you copy files from your computer to a small device, and some companies have even launched MP3-players in conventional rack format. The minidisc has also become extremely popular, and especially the possibility to obtain good, digital recordings.

It is difficult to measure sound quality for compressed files. Old quality terms like signal-to-noise ratio are useless when for example a sound is stripped for certain frequencies. The only way to measure the quality has been through expensive listening tests. There have been carried out lots of big tests the last years, and most of them use a method called “triple stimulus, hidden reference”. Shortly, it applies a listening sequence ABC, where A is the original, and one of B and C is the original and the other being the coded sound. The listener has to evaluate both B and C using a scale from 1.0 to 5.0, where 5.0 means transparent sound quality. This method gives quite precise and statistically satisfactory results. The results are different, but many tests conclude that there are only minor differences between the original sound and the one compressed to for example an MP3 128 kbit/s signal.

However, these tests are carried out in professional studios under controlled conditions and using expensive studio monitors. The general MP3-listener is sitting with her computer playing sound through her mediocre PC sound card with a pair of standard PC-speakers. This involves a serious degrading of the final output sound quality. Firstly, there is the problem of the encoder. Lots of free, publicly available encoders let you produce your own files. But to ensure that the coding process is fast, most of them often skip some of the processes specified in the different standards. This is mostly a problem with encoders making MPEG files, since this standard is open. When it comes to the decoding, many of the most popular decoders, for example WinAmp, have obvious bugs, resulting in for example some specific frequencies being cut off, or unwanted masking effects.

Another problem is the hardware. All normal PC sound cards are capable of making sound, but they were never intended to play back high quality audio. The D/A chips on even the cheapest, standalone CD-player will most certainly outperform the chips placed on most sound cards. As well, the interior of a PC is not the ideal place for processing high quality audio, with lots of background noise from different devices like CD-ROM, hard drive, and especially the fan. The final, output sound may not only be encoded and decoded wrongly, but also distorted by noise and disturbances. Even if the speakers are of high quality, it cannot save a sound lacking stereo perspective, depth and overtones.

It is not my intention to withdraw people’s happiness of playing MP3-files on their computer, but rather make aware of some problems connected with compressing sound. The problem is not the different formats, because they are excellent for their use. But I think the whole society gets a problem when for example the biggest newspapers in Norway encourage people to convert the whole CD collection to MP3s. People will not only be used to an unnecessary degraded quality, but they may also limit the development of new and better standards. It is a fact that consumer interests often set the standard for future developments, and it is not guaranteed that the best alternative wins. An example of this was the battle between Beta and VHS on the home video scene. We could easily get a situation, where the advent of different sound compression systems, result in a glorification for smaller and more compressed sound files. That will be a serious loss for the high quality sound.

On the other side, some people have been arguing that the CD-medium lacks some of the richness and quality of the old LP. Hopefully that debate will finally come to an end with the introduction of SACD and DVD Audio. Both are capable of delivering a stunning sound quality of more than 24 bit and 96 kHz. This will hopefully thrill more than the music enthusiasts: “The music was not loud during the presentation, but gosh what a spacious playback: The music lived in the room as a breath of the summer winds, softly, light and tender. It played extraordinary easy, there were absolutely no sharp edges from the digital process.” (Ruud, 2000). Even though we might get a battle between these new “super standards”, tomorrows technology will probably be more than capable of playing both formats, as well as conventional DVD movies and CDs. The battle of the best sound is greatly dependent on the consumers, and hopefully they will claim their right for better quality.

5. Conclusion

I have presented some of the various sound formats, intended both for use on the Internet and as a high quality medium. Certainly, sound compression for storage and transfer on the web is a great possibility offering loads of new and exciting features. Still, I think it should not be forgotten that the whole concept of sound compression is to remove something from the signal. Even though this might not seem to be audible by the human ear, it could have other effects degrading the total experience. A sound is more than just the tone you hear, it is a wave you can feel on your skin, just as the deepest bass tones. The removing of initially inaudible overtones may alter the overall richness and depth of the sound image in a room. It all melts down to the fact that acoustics is one of the oldest and still most difficult sciences. The conclusion of my topic question may be: yes, sound compression may be the friend of the youth and the whole society, but it is also the enemy of the sound! Therefore we should never take any chances, and rather be sure to choose the better quality if available. So take some time to put that old CD in your player and be confident that you get the best possible sound.


  • Brandenburg, Karlheinz (1999): Mp3 and AAC explained, Proceedings of the AES 17th International Conference on High Quality Audio Coding, Florence, Italy
  • Braathen, Espen (1996): Den allsidige platen kommer!, article in Audio Video 1/96,
  • Braathen, Espen (1999): Standardene for superlyd er klare!,
  • Casajús–Quirós, Francisco (1998): Digital Signal Processors for Real–Time Audio Processing, Proceedings of ’98 Digital Audio Effects Workshop, Barcelona, Spain
  • ISO/IEC 11172 (1993): MPEG-1 Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1,5 Mbit/s, International standard,
  • ISO/IEC DIS 13818 (1996): MPEG-2 Generic coding of moving pictures and associated audio information,
  • Erne, Marckus (1998): Digital Audio Compression Algorithms, Proceedings – 98 Digital Audio Effects Workshop, Barcelona 1998
  • DVDNett: Neste generasjon CD: DVD Audio eller Super Audio CD?
  • Fraunhofer Institut: Basics about MPEG Perceptual Audio Coding,
  • Fraunhofer Institut: MPEG Audio Layer-3,
  • Fraunhofer Institut: MPEG-2 AAC,
  • Fraunhofer Institut (1998): Frequently Asked Questions about MPEG Audio Layer-3, Version 3.0, March 1998,
  • Gayton, Cynthia (1999): Music Licensing Legal Developments for the Independent Label,
  • Hacker, S. (2000): Mp3: The Definitive Guide
  • Jensenius, Alexander Refsum (1999): Digitalisering av pianolyd, noen problemområder med vekt på fysisk signal og menneskelig oppfatning, term paper University of Oslo
  • Koenen, Rob ed. (1999): Overview of the MPEG-4 Standard,
  • Martinez, Jose ed. (1999): Overview of the MPEG-7 Standard,
  • Meares, David, Watanabe, Kaoru and Scheirer, Eric (1998): Report on MPEG-2 AAC Stereo Verification Tests
  • MPEG Audio FAQ: MPEG-1: Coded Storage of Sampled Sound Waves,
  • MPEG Audio FAQ: MPEG-2: Coded Transmission/Storage of Sampled Sound Waves,
  • MPEG Audio FAQ: MPEG-4 Audio: coding of natural and synthetic sound,
  • MPEG Audio FAQ: MPEG-7: Description of meta-information on sound,
  • MPEG (1998): MPEG-7 Context and Objectives,
  • Pan, Davis Yen (1993): Digital Audio Compression, article in Digital Technical Journal Vol. 5 No. 2, spring 1993
  • Pan, Davis Yen (1995): A Tutorial on MPEG/Audio Compression. Article in IEEE Multimedia Journal Vol. 2, No. 7, 1995, pp. 60-74
  • Russ, Martin (1996): Sound Synthesis and Sampling
  • Ruud, Øyvind (2000): Den digitale lydfronten, article in Lyd & Bilde 4/2000
  • Ruud, Øyvind (1999): Er CD-spilleren på vei ut?, article in Lyd & Bilde 11/1999
  • Scheirer, Eric (1998): AudioBIFS: The MPEG–4 Standard for Effects Processing, Proceedings – 98 Digital Audio Effects Workshop, Barcelona 1998
  • Serra, Xavier and Peeters, Geoffrey (1999): Audio Descriptors and Descriptor Schemes in the Context of MPEG–7, Proceedings of the 1999 International Computer Music Conference
  • Signès, Julien (1999): Binary Format For Scene (BIFS): Combining MPEG-4 media to build rich multimedia services
  • Thom, D., Purnhagen, H., Pfeiffer, S. (1999): MPEG Audio FAQ, Official FAQ from the International Organisation for Standardisation (ISO),
  • Tsutsui, Kyoya and others (1992): ATRAC: Adaptive Transform Acoustic Coding for Minidisc, 93rd Audio Engineering Society Convention in San Francisco, 1992
  • Väänänen, Riitta and Huopaniemi, Jyri (1999): Virtual Acoustics Rendering in MPEG–4 Multimedia Standard, Proceedings of the 1999 International Computer Music Conference
  • Watkinson, John (1999): MPEG–2
  • Weekly, David (1999): MSAudio vs MP3 vs RealAudio,
  • White, Paul: Recording and Production Techniques for the recording musician
  • Wright, Matthew (1999): Cross–Coding SDIF into MPEG–4 Structured Audio, Proceedings of the 1999 International Computer Music Conference

Digitalisering av pianolyd: Noen problemområder, med vekt på fysisk signal og menneskelig oppfatning

Semesteroppgave musikkvitenskap grunnfag, 1. juni, 1999


En oppgave i musikkteknologi innbefatter delområder fra både matematikk, informatikk, fysikk og musikk. Nettopp denne allsidigheten var det som lokket meg til å skrive en oppgave innen dette feltet. Med universitetsbakgrunn fra alle fagområdene synes jeg det har vært spennende å endelig kunne kombinere erfaringene fra de forskjellige feltene for å skrive en oppgave.

Jeg tok tidlig kontakt med NOTAM og fikk full anledning til å bruke utstyr og programvare fra deres maskinpark. I tillegg ble jeg veiledet i hvordan jeg skulle bruke de forskjellige programmene og lydutstyret. Dette har vært uvurderlig i mitt arbeide, som i all hovedsak har bestått av å lære å bruke og forstå mange forskjellige programmer for signalprosessering og lydsyntese både for PC, Mac og Unix. Mye tid har derfor gått med til å lese bakgrunnsinformasjon og manualer, men dette har vært en spennende læringsprosess. Jeg har lagt vekk på å ikke bare skrive en oppgave, men å stikke hodet inn i et fagfelt som er i drivende utvikling. Selv med kun to ukers døgnkontinuerlig arbeide, føler jeg at jeg har fått en viss oversikt over fagområdet musikkteknologi og kjennskap til endel av utstyret og programvaren som blir benyttet.

For å generere egne lyder har jeg satt meg inn i lydprogrammeringsspråket Csound som i lang tid har vært selve hjørnestenen i digital lydbehandling. Ved å kunne teste ut de forskjellige teoriene i praksis har jeg også forstått mer av de forskjellige elementenes oppbygning.

Denne oppgaven er skrevet i typesettingsprogrammet LATEX. Dette var fordi jeg ønsket å teste ut den omgivelsen som de fleste universitetsfolk (ihvertfall på MatNat) skriver sine oppgaver og avhandlinger i.

For å klargjøre de forskjellige punktene og som illustrasjoner har jeg lagt ved en CD-plate. Gjennom hele oppgaven henvises det til aktuelle spor på CD-platen. En oversikt over sporene på CDen står i appendixet.

Jeg vil takke min veileder Rolf-Inge Godøy på IMT og Bjarne Kvinnsland og Øyvind Hammer på NOTAM for all hjelp.


Digital signalprosessering og digitale instrumenter har blitt en viktig del av dagens musikkliv. I løpet av noen få år har disse områdene økt fra å være en kuriositet for spesielt interesserte til å bli ledende innen studiovirksomhet og på instrumentfronten. Jeg har selv blitt imponert over anslag og tone i mitt nye digitalpiano Roland RD-600, og har sett en rekke spennende redigeringsmuligheter i moderne dataprogrammer. Jeg ønsket imidlertid å lære mer om hva som egentlig skjer når jeg spiller på en tangent på pianoet mitt, eller prosesserer en lyd på datamaskinen. Særlig interessant er det å studere noen av områdene som vanskeliggjør et godt resultat, og se hvilke begrensninger og muligheter som ligger i dette.

I begynnelsen av oppgaven gjennomgår jeg en del viktige fysiske elementer. Dette er på ingen måte utfyllende nok, men det er heller ikke rom for nærmere utdypinger i en slik oppgave. Stort sett har jeg forsøkt å forklare alle begreper slik at alle skal kunne forstå det, men i kapitlet om Fourier-omvending forutsettes det en viss bakgrunnskunnskap i matematikk for å forstå formlene. Jeg ønsket allikevel å ta dem med fordi de er såpass sentrale i moderne lydbehandling.

For bedre å forstå hvordan lydsyntese egentlig fungerer forsøkte jeg å programmere en pianotone i Csound. I dag bruker imidlertid de fleste digitalpianoer lydsamplinger, og jeg har også brukt Samplecell for å lage mitt eget samplepiano.

Men hva er egentlig meningen med å forsøke å utvikle et perfekt digitalt instrument? Hvorfor skal man forsøke å etterligne et allerede perfekt akustisk piano? Meningen med å produsere og stadig utvikle bedre digitale instrumenter er ikke for å erstatte vanlige akustiske instrumenter, men er ment som et nyttig supplement.

Når man nevner ordet digitalpiano er det mange mennesker som øyeblikkelig stadfester at et digitalpiano overhodet ikke kan måle seg med akustiske instrumenter. Som en liten test på hvor dyktige folk egentlig er til å høre forskjell på dette, laget jeg en liten blindtest og intervjuet tilfeldige mennesker.

Gjennom oppgaven henvises det ofte til notenavn. Følgende betegnelser benyttes, med start fra de dypeste tonene: 1C, C, c, c1, c2, c3, c4, c5 (Benestad 1985:21).


Lydbølger er kompresjoner i luften på samme måte som for eksempel lys. Disse kompresjonene registreres av trommehinnen i menneskeøret og forplanter seg videre til hjernen slik at vi oppfatter signalet som lyd. Lydbølger kan spres i alle medier, men hastigheten varierer avhengig av mediet. I luft med 20 grader celsius beveger lyden seg med 343 meter per sekund. I andre materialer, som for eksempel jern, beveger lyden seg med opptil flere kilometer per sekund, mens hastigheten i vann er svært liten. Forskjellige instrumentlyder får gjerne noe av sin spesielle klang på grunn av hastigheten i materialet som instrumentet er laget av.

Men hva er egentlig en bølge? Matematisk kan den settes opp ved hjelp av likningen

hvor lille a betyr at det er et analogt signal,  er amplituden, f er frekvensen i hertz, t er tiden i sekunder og delta er fasen (Proakis 1992:13). En helt ren lydbølge ser altså ut som en sinusfunksjon som i figur 1.

Fra en lydkilde spres signalet i alle retninger akkurat slik som bølgene fra en sten som kastes i vannet. Men ettersom bølgene beveger seg vekk fra kilden, er det viktig å huske på at lydstyrken blir mindre. Lydstyrken avtar faktisk med ganske nøyaktig kvadratet av avstanden til lydkilden.

For å kunne forstå videre arbeid med digitalisering av lyd, er det viktig at man kjenner til begrepene amplitude, frekvens, klangfarve, dynamikk og beats

Figure 1: En ren sinustone


Amplituden er det vertikale utslaget i en funksjon (figur 1), og angir lydens styrke målt i desiBel (forkortes dB). Dette er en logartimisk enhet, slik at hvis man for eksempel tredobler amplituden vil man nidoble lydstyrken. Derfor er det viktig at “vi ikke kan øke amplituden lineært og så regne med at vi får et naturlig crescendo. Vi må istedet bruke en eller annen eksponensiell funksjon” (Hammer 1997: 21).

Mennesket er istand til å skille to lyder med 1 dB forskjell og kan høre lyd opp til 120 dB før det gjør vondt. Når vi vet at det dynamiske området er definert som maksimumgrense over skillegrense, gir dette en verdi på 120 dB for menneskets øre. Vanlig lydutstyr har gjerne et dynamisk område på rundt 100 dB, og det er viktig å ta hensyn til dette når man arbeider med studioutstyr.


Perioden til en bølge er gitt ved tiden, målt i sekunder, fra en bølgetopp til den neste. Frekvens er definert som den inverse av perioden, og er et mål på hvor ofte svingningen gjentas i løpet av et sekund. Frekvens måles i hertz (Hz), og vi oppfatter den som tonens høyde. Enstrøken a har siden 1953 (Benestad 1985:60) vært definert med en frekvens på 440 Hz, det vil si at strengen beveger seg med 440 svingninger per sekund. På samme måte som for amplituden, er også frekvensen en logaritmisk enhet. Dette passer med at vårt notesystem er bygget opp slik at hvis man dobler frekvensen til en tone, hører vi dette som et oktavsprang opp. Tonen a2 har derfor en frekvens på 880 Hz, mens a har en frekvens på 220 Hz. Dette er svært nyttig når man arbeider med synthesiezere ettersom man enkelt kan bestemme frekvensen til enhver tone, kun ved å ta utgangspunkt i en annen tones frekvens og multiplisere denne med forholdet mellom de to tonene.


Klangfarven er den unike formen til en lyd som gjør at man kan skille den fra en annen. En helt ren tone har gjerne form som en sinusfunksjon og er jevnt periodisk i tidsspekteret. Alle vanlige akustiske instrumenter har imidlertid en mye mer avansert oppbygging. Når for eksempel en pianostreng klinger, er lyden sammensatt av en rekke forskjellige sinus-funksjoner.

Matematikeren Fourier viste hvordan “enhver periodisk funksjon kan konstrueres ved å summere et antall sinus- og cosinus-funksjoner, hver med en frekvens som er et heltallsmultiplum av frekvensen til den periodiske funksjonen” (Hammer 1997:18). I tillegg adderes flere deltoner som kommer fra for eksempel resonans i instrumentet. Totalt skaper alle disse bølgene den kompliserte bølgefunksjonen som mennesket oppfatter. En forandring i en av parameterene vil altså være med på å endre klangfarven, og det vil mennesket kunne registrere og memorere for senere gjenkjennelse. Det er derfor vi klarer å skille mellom lyden fra for eksempel et piano og en obo.


Vi har sett litt på hvordan en tone er bygget opp, men har ikke sett på hvordan den utvikler seg over tid. Når man hører på en pianotone (spor 4), merker man at den endrer seg hele tiden. Både lydstyrken, frekvensen og klangfarven forandres gjennom forløpet og er med på å skape det endelige inntrykket.

For det første endres amplituden kontinuerlig. Når en pianotone slås an, inntreffer nesten umiddelbart et maks-nivå i lydstyrken som kalles attack. Deretter følger en decay når amplituden langsomt dør ut. I tillegg må man ta hensyn til hvordan lyden skal være når man holder en pedal inne (sustain) og når man slipper pedalen (release). For noen år siden var det vanlig at de fleste synthesizere kun tok hensyn til disse fire punktene, populært kalt ADSR (Attack-Decay-Sustain-Release) (Hammer 1997:25). En slik beskrivelse av tonen over tid kalles gjerne for tenvelope og visualisert i tidsspekteret kan dette se ut som i figur 2. Her er de fire punktene tegnet lineært med knekkpunkter på grafen. For å gi en mer realistisk overgang mellom de forskjellige delene tegnes en slik envelope vanligvis mer buet og gjerne med en eksponensiell decay. Det viste seg imidlertid fort at bare fire punkter ble for lite for å beskrive en tone særlig realistisk, så de fleste moderne synthesizere bruker gjerne mange flere knekkpunkter og har en mengde med forskjellige innstillinger for å endre lydparametrene.

Figure 2:En ADSR (Attack-Decay-Sustain-Release) Envelope

Dynamikk i frekvensen er også svært viktig. Hvis man skal spille forskjellige toner kan man da enkelt minske eller øke hastigheten, med en endring i tonehøyde som resultat. Det kan også være aktuelt å endre frekvensen på en enkelt tone for å lage for eksempel glissando eller vibrato på enkelttoner (Hammer 1997:26).

For å skape en naturtro lyd må også klangfarven varieres. En pianotone har for eksempel en helt annen klang i selve anslaget enn når den er like ved å dø ut. å endre på denne parameteren krever mange beregninger og har tidligere vært begrenset av maskinvaren. Med dagens raske maskiner har man i større grad mulighet til å endre klangfarven kontinuerlig.


Hvis to toner med nærliggende frekvenser spilles samtidig vil man kun høre en tone med en frekvens som ligger midt mellom de to opprinnelige tonene. Denne tonen vil pulsere med en frekvens som er lik differansen mellom de to opprinnelige tonene. Dette kalles beats og antallet beats per sekund er lik forskjellen mellom de to frekvensene. La oss for eksempel spille en tone med frekvens 440 Hz og en annen med 445 Hz samtidig. Da vil vi høre en tone med frekvens 442,5 Hz som pulserer med en frekvens på 5 Hz. Denne effekten brukes blant annet når man stemmer en gitar eller et piano, for man kan da justere strengene til man ikke lenger hører noen beat-frekvens. Beats mellom to toner kan bli oppfattet av øret opp til en forskjell i frekvens på omtrent 15 Hz (Resnick 1992: 456). Når forskjellen blir større enn dette hører vi hver tone for seg, i et dissonerende eller konsorende intervall.


En vanlig lydbølge er kontinuerlig både i tid og amplitude. Vi sier da at signalet er analogt, at det er definert i alle punkter og at oppløsningen er uendelig. Et digitalt signal registreres derimot som en lang streng av binære tall, enten med verdien 1 (på) eller 0 (av). Et digitalt signal er tids- og amplitudediskret, det er kun definert i de målte verdiene, og vi vet ingenting om forløpet mellom punktene.

Hvis vi ser på et mikrointervall av en lyd, kan vi definere en spesifikk nivåverdi for utslaget, et tall som definerer hvor tonen befinner seg i forhold til et nullnivå. Vi sier da at vi har registrert et sample. Når vi flytter oss til det neste mikrointervallet får vi en ny verdi, og slik kan vi fortsette bortover en lyd. Nøyaktig det samme skjer i en digitaliseringsprosess. Da er det gjerne en analog-digital (A/D) omformer som gjør målingene og lagrer dem i for eksempel en datamaskin.

Hvor små intervallene mellom hver måling er bestemmes av samplingsfrekvensen. Dette er et tall som forteller hvor mange samplinger som blir gjort per sekund. Regelen når man arbeider med digitalisering av lyd er at samplingsfrekvensen må være mer enn dobbelt så høy som den største frekvensen i stykket man tar opp (Hammer 1997:18). Halvparten av samplingsfrekvensen kalles for Nyquist-frekvensen og hvis lydsignalet overstiger denne verdien kan man enten risikere at signalet ikke registreres i det hele tatt, fordi det faller i et udefinert område, eller at det foldes nedover og simulerer falske frekvenser. Når vi vet at mennesket kan høre verdier opp til 16-20 kHz (avhengig av alder), bør samplingsfrekvensen være det dobbelte av dette hvis vi skal ta opp lyd i hele det hørbare spekteret. Det er nok derfor samplingsfrekvensen på CD-plater er satt til 44,1 kHz.

Like viktig som å bestemme samplingsfrekvensen er det å definere hvor stor oppløsningen skal være. Det vil si hvor mange forskjellige verdier man kan velge mellom når man skal beskrive utslaget. I dag er det vanlig å bruke en oppløsning på 16 bit som tilsvarer 216 = 65536 punkter. Selv om dette virker som en stor verdi, viser det seg allikevel at nyansene i musikken begrenses. Mange nyere profesjonelle konvertere kommer i dag med oppløsninger på opptil 24 bit.

Når det digitale signalet skal spilles av er det viktig at avspillingsfrekvensen er den samme som samplingsfrekvensen, ellers vil man oppleve en endring i tonehøyde. Når dette er sjekket, sendes den binære tallrekken gjennom en digital-analog (D/A) omformer som skaper spenninger tilsvarende de lagrete verdiene. Deretter sendes signalet gjennom et skarpt lavpassfilter som kutter frekvenser over Nyquist-frekvensen. Til slutt forsterkes signalet slik at man kan høre lyden.


Et av de mest sentrale hjelpemidlene i digital lydbehandling kalles Fouriertransformasjon, etter den franske matmatikeren og fysikeren Jean-Baptiste Joseph Fourier. Han oppdaget at det er en likhet mellom en funksjon av en frekvens og summasjon av funksjoner av tiden t. Matematisk er dette gitt ved

og tilsvarende blir

når x(t) er en funksjon av tiden t og X(F) er en funksjon av frekvensen f. Fra likningene (2) og (3) ser vi at det eneste som skiller transformasjonen og dens inverse er indeksen til \(e\). Det er derfor enkelt å benytte transformasjonen til å regne både til og fra delfrekvensense (Moore, 1990:62).

Men disse formlene tar utgangspunkt i en lineær kurve og integrerer fra minus uendelig til pluss uendelig. Et digitalt signal er kun et endelig antall definerte punkter. Når man skal omvende et diskret digitalt signal brukes isteden DFT, den diskrete Fourier transformasjonen. Denne formelen tar utgangspunkt i samplinger av det underliggende, kontinuerlige spekteret av den underliggende, kontinuerlige bølgeformen (Moore 1990:64-65). Etterhvert har det også blitt utviklet en FFT (Fast Fourier Transform) som bruker en logaritmisk funksjon istedenfor en kvadratisk funksjon for å løse summasjonen (ib. 81-82). Særlig på større beregninger er denne svært tidsbesparende, og derfor er det denne metoden som i all hovedsak benyttes idag.

Men hva er det egentlig som skjer når man gjør en slik omforming. Jo, ved å bruke en datamaskin til å kjøre Fouriertransformasjon på en lydbølge får man et diagram hvor deltonenes amplituder vises som funksjon av frekvensen. Lyden er da vist som et spektrogram i frekvensdomenet (Hammer 1997:23). Eller som det blir sagt: “The Fourier transform … is used in many fields of science as a mathematical or physical tool to alter a problem into one that can be more easily solved” (Hoffman, u.å.). På samme måte kan man reversere prosessen og bygge opp en tone ved å addere heltallsmultipler av grunntonefrekvensen. I utgangspunktet kan man da sette opp en matematisk formel for en hvilken som helst tone for deretter å lage en perfekt reproduksjon av klangen.

Fysisk analyse av pianolyd

Det er fint å forstå teorien bak lyd og akustikk, men jeg ønsket å teste ut hvordan det hele utarter seg i praksis. Jeg laget derfor et lite forsøk for å undersøke lyd fra forskjellige pianoer.

Opptak av pianolyd

Til de digitale opptakene brukte jeg en Tascam DAT-spiller og to Neuman KM 100 kondensatormikrofoner. Mikrofonene stod på stativer i 1,5 meters høyde, omtrent to meter fra instrumentet, og med en innbyrdes avstand på 20 cm. De var rettet mot høyre og venstre kant i forhold til instrumentet for å simulere posisjonen til menneskets ører. Opptakene ble gjort i 16 bits stereo og med en samplingsfrekvens på 44,1 kHz. I bildene under har jeg mikset de to kanalene sammen for at det skal være mer oversiktlig å se signalet.

Figure 3: Roland RD-600

De akustiske opptakene ble gjort på et Yamaha og et Steinway flygel. Desverre var Steinway flygelet relativt ustemt både i forhold til seg selv og til de andre instrumentene. Opptak av digitalpiano gjorde jeg gjennom den konstante linje-utgangen på et Roland RD-600 (figur 3). Her benyttet jeg hovedinstrumentet A11 uten effekter, chorus eller reverb på lyden. På alle instrumentene spilte jeg alle C’er fra 1C til c5, ved å slå an tonen og la den klinge helt ut. Tonene kan høres i spor 1-24. I tillegg tok jeg opp tonen c1 med sustain-pedalen nede (spor 25-27).

Figure 4: En pianotone. Til venstre vises hele tonen, mens det til høyre er zoomet inn på attack og decay.

En pianotone

De fleste vet hvordan et piano høres ut, og klarer å gjenkjenne denne lyden blant mange andre lyder. Lyden fremkommer ved at en tangent trykkes ned slik at bakenden av tangenten vipper opp og slår på en hammer, som til slutt treffer selve strengen. I tillegg heves dempeputen på den aktuelle strengen, slik at tonen kan klinge fritt. Tidsforløpet av en pianotone er vist i figur 4. Til venstre er det et bilde av hele tonen, mens det til høyre er zoomet inn på attack og decay. Vi ser at attack-delen av tonen er svært kort slik at maksutslaget av lyden inntreffer nesten umiddelbart. Deretter følger en rask decay som ser tilnærmet eksponensiell ut. Så følger den betydelig lengre sustain-delen hvor tonen langsomt dør ut.

Figure 5: Fra toppen tonene 1C, c1, c3 og c5 fra Yamaha flygel

Tonene fra 1C til c5

I figur 5 ser vi tonene 1C, c1, c3 og c5 som er laget ved hjelp av programmet SND. Grafene til venstre viser lydstyrken varierende med tiden. Tidsaksen er justert for hver lyd slik at vi får med omtrent halvparten av hver av tonene. Det er interessant å legge merke til at tonene med lave frekvenser varer lenger enn tonene med høy frekvens. Tonen 1C varer omtrent 25 sekunder, c1 omtrent 15 sekunder, c3 omtrent 10 sekunder og c5 i underkant av 4 sekunder. I det nederste bildet kan det se ut som c5 har en mye mer ujevn kurve enn c3. Dette er kun fordi det er zoomet mer inn på c5.

Noe som er interessant å legge merke til er hvordan sustain-delen av tonene ser ut til å “pulsere”. Dette gjelder også for tonen 1C, selv om det i figur 5 er mest synlig i tidsspektrene til tonene c1 og c3. I tonen c3 er det en innsnevring i lydstyrken ved omtrent ved 0,5 sekunder, deretter øker lydstyrken igjen og synker til en ny minimumsverdi ved 1,7 sekunder. Denne effekten skyldes beats og interferens mellom de forskjellige strengene. En slik pulsering er vanlig og en av de vanskeligste delene å simulere ordentlig på et digitalt piano.

Bildene til høyre i figur 5 viser frekvensspekteret for hver av de fire tonene. Her er det brukt en Fourier-omvending på det første punktet i tidsspekteret, med en vindusbredde på 4096 punkter. For hver tone kan vi se at det er en eller flere topper som markant skiller seg ut. Dette er da etter all sansynlighet grunntonen eller en av dens nærliggende. Verdiene til frekvens og relativ amplitude for de største toppene står i tallkolonnene helt til høyre. Alle disse verdiene er beregnet i begynnelsen av attacket og kan derfor være noe upresise for å angi den generelle grunntonefrekvensen for tonen. De viser imidlertid at 1C har grunntone nær 32 Hz, c1 nær 265 Hz, c3 nær 1050 Hz og c5 nær 4361 Hz. Tonen c1 skal egentlig være på omtrent 261 Hz, så de beregnete verdiene stemmer ganske bra. En kontrollregning viser også at en dobling i frekvens gir en stigning på en oktav.

Figure 6: Tonen c1 i tidsspekter. Øverst Roland RD-600 A11, i midten Steinway & Sons flygel og nederst Yamaha flygel

Tonen c1

Figur 6 viser et forstørret tidsspekter for tonen c1 fra henholdsvis Roland, Yamaha og Steinway. Her kan vi se bølgeformen i tidsrommet fra 0 til 0,03 sekunder akkurat i attack-fasen. Det er interessant å legge merke til hvor forskjellige bølgene ser ut, selv om de høres relativt like ut når de spilles av etter hverandre (spor 29). Dette skyldes at de er bygget opp av forskjellige sinufunksjoner. Faseforskjell mellom de forskjellige delbølgene kan være grunnen til at lydene ser svært forskjellige ut, men lyder ganske likt. Legg merke til hvor harmonisk Steinway-tonen ser ut i forhold til de andre. Dette passer med at denne tonen høres litt mykere ut i klangen.


På grunn av en enorm utvikling innen maskinvare og datamaskiner de siste årene, har det også blitt brukt en mengde forskjellige metoder for å syntesere, eller kunstig skape lyd. Felles for alle er at man er avhengig av en oscillator som kan generere de forskjellige funksjonene som angis, og at man har en forsterker som varierer amplituden på signalet. I tillegg er det vanlig å bruke forskjellige former for envelope for å forme hver tone slik man ønsker. Jeg skal her presentere noen av de mest sentrale teknikkene som har vært i bruk de siste årene.

Additiv syntese

Additiv syntese går ut på at man adderer sinusfunksjoner for å skape en tone. Vanligvis gjøres dette ved å gi verdiene til de forskjellige frekvenstoppene man ønsker og de respektive amplitudeverdiene. Deretter anvendes en av metodene for Fourieromvending og man får den sammensatte lyden. Hvis man er nøyaktig med å angi frekvenser kan man på denne måten produsere svært avanserte lyder. Problemet er gjerne at denne metoden medfører mange beregninger. Det har derfor vært vanlig å bruke den inverse av FFT (Fast Fourier Transform), som utfører beregningene mye raskere enn vanlig Fouriertransformasjon (Hammer 1997:49).

Subtraktiv syntese

Istedenfor å legge til funksjoner, tar man utgangspunkt i en lyd som er rik på overtoner og subtraherer deretter deler av lyden. Som startbølger kan man bruke sinus, firkant, sagtann, pulstog eller samplede lyder. En sagtann-bølge inneholder alle de harmoniske overtonene, med en gradvis senking av amplituden for hver av de harmoniske. En firkantbølge er bygget opp av kun de oddeharmoniske overtonene, mens pulsbølgen består av alle de harmoniske overtonene med samme amplitude. Hele poenget er at man sender et slikt signal gjennom et filter og så kommer en lyd ut. Det er vanlig å bruke lavpassfiltere som kutter bort frekvenser over en viss verdi. Ved å endre på cut-off frekvensen på filteret kan forskjellige lyder synteseres. Dette var en populær metode i mange av de tidlige synthesizerne, fordi den ikke krever mer enn noen få oscillatorer og filtre for å lage mange forskjellige lyder (Svinndal 1992:8-11).


FM-syntesen har vært svært mye brukt i synthesizere og lydkort til datamaskiner. Den går i all hovedsak ut på at man bruker en oscillator til å sette opp en bærebølge (carrier). Deretter benyttes en lavfrekvent oscillator (LFO), som kalles modulator, for å styre frekvensen til bærebølgen. Klangfarven til tonen avhenger av forholdet mellom de to frekvensene, og kalles modulasjonsindeksen. Vanligvis brukes det flere oscillatorer for å endre lyden. En envelope på modulator endrer klangfarven, mens envelope på carrier endrer dynamikk i styrken. Ved å kombinere disse kan man lage en generell operator som kan inngå i en algoritme (Hammer 1997:50). Denne metoden ble svært populær, og blant annet Yamaha utviklet en serie med synthesizere som brukte denne teknikken. Metoden har imidlertid sine begrensninger og brukes nesten ikke lenger idag:

“In playback of music, synthesis allows for creation of many different sounds which are not otherwise available. … But FM synthesis is only one method of generating sounds, and is not a particularly realistic method. In fact, though developed for professional musical instruments, FM synthesis is largely obsolete in that market today” (White 1996).


Sampling er ikke egentlig en “ren synteseform”. En sampler gjør et opptak av en lyd og kan deretter spille den av igjen. Dette gir i utgangspunktet en identisk tone når man spiller den av. Når man ønsker å variere tonehøyden endres avspillingshastigheten til den aktuelle lyden. Tilsvarende brukes en forsterker for å variere lydstyrken. Det er denne metoden som i all hovedsak brukes i lydkort og digitalpianoer i dag, gjerne sammen med noen av de andre syntesemodellene. Men det er ikke gitt at resultatet blir bra ved å bruke samplinger for å lage lyder, noe jeg kommer tilbake til i neste kapittel.

Fysisk modellering

De siste årene har fysikerne begynt å forstå hvilken funksjon og innvirkning hvert enkelt element i et instrument og dets omgivelser har for den endelige lyden. Når hver liten detalj som for eksempel hammerens slag på strengen, interferens mellom strengene og resonans i kassen kan beskrives fysisk, skulle det være mulig å modellere en tone. I tillegg vil et instrument basert på fysisk modellering kunne reagere realistisk på forskjellige spilleteknikker, for eksempel variasjon i anslag på tangenten. Dette krever naturlig nok svært mange beregninger, og man kan ende opp med å måtte løse likninger med tusenvis av ukjente. Med utviklingen av kraftige datamaskiner og stabile programmer er dette mulig, selv om det kan ta lang tid.

Modalys er et dataprogram basert på fysisk modellering. Her opererer man i et grafisk brukergrensesnitt hvor man enkelt kan plassere forskjellige elementer i et virtuelt rom på skjermen. Valgmulighetene spenner over alt fra strenger, en resonanskasse og hammere som slår, til å definere flere strenger som klinger med og pedalbruk. Til slutt kan man velge hva slags rom instrumentet befinner seg i før man ber maskinen regne ut lyden. I utgangspunktet virker det svært enkelt å lage en god lyd, men det kreves mye erfaring før man får et tilfredsstillende resultat.

Denne typen modellering er selvfølgelig også avhengig av hvordan de forskjellige elementene er beskrevet matematisk. Det er vanlig å ta utgangspunkt i fysiske målinger av et instrument, og da minsker fleksibiliteten betraktelig. Foreløpig er dette en relativt ny metode, så det utvikles stadig nye pakker med beskrivelser av instrumenter eller instrumentdeler.

En slik beskrivelse er Karplus-Strong-algoritmen. Dette er egentlig et filter laget for å syntesere lyden av klimpring på en streng. La oss tenke oss at vi sitter på et bestemt sted på en streng og observerer hvordan denne beveger seg i dette punktet. Når strengen slås an spres lydbølgene i begge retninger vekk fra dette punktet. Bølgene treffer hver sin ende av strengen og reflekteres tilbake. Hele tiden foregår det imidlertid en dempning av signalet på grunn av friksjon mellom streng og luft og de fastspente punktene. Strengen fungerer altså i seg selv som et lavpassfilter, som begynner med å fjerne de høyeste frekvenskomponentene. I tillegg opplever vi en interferens når bølgene fra hver side “treffer” hverandre. Bølgene beveger seg frem og tilbake på strengen og interfereres og filtreres mer for hver gang, helt til lyden dør helt ut.

Pluck er en Karplus-Strong algoritme som gir en svært realistisk lyd (spor 31). Den er også et godt utgangspunkt for syntese av mange forskjellige lyder (Hammer 1997:59-60).

Forsøk på syntese av pianolyd

Jeg ønsket å teste om jeg kunne klare å syntesere en pianotone helt fra grunnen av ved å bruke forskjellige synteseprinsipper. Som verktøy benyttet jeg lydsynteseprogrammet Csound. Programmet fungerer som en kompilator som leser en orkesterfil og en partiturfil og lager en lydfil på bakgrunn av de oppgitte verdiene.

Jeg bestemte meg for å lage pianotoen c1. Første punkt var da å finne ut hvilken grunntonefrekvens denne tonen har. Dette kan jeg beregne ved å se på forholdstallet mellom c1 og a1 som er 3:5. Når a1 har frekvens 440 Hz, gir dette at c1 er 264 Hz. Jeg ønsket å se på frekvensspekteret fra en av pianotonene jeg hadde tatt opp, så jeg brukte programmet SND for å Fourieromvende pianotonen c1. Verdiene jeg fikk var som i tabell 1. Her er grunntonen på 261 Hz, så jeg valgte å bruke denne verdien istedenfor min beregnete frekvens.

Frekvens (Hz)Relativ amplitude
Tabell 1: Frekvens og relativ amplitude for pianotone c1

Jeg begynte med å lage en ren sinustone med frekvens 261 Hz. Tonen er angitt som instrument 1 i orkester-filen til Csound (figur 8). Fra koden ser vi at det brukes en oscillator for å lage en tone med amplitude 10 000 (maks 20 000), frekvens 261 Hz og bølgeform nummer 1. I partiturfilen (figur 7) angis det at tonen skal spilles i 4 sekunder. Lyden vi får (spor 30) er altså en helt ren sinustone med frekvens 261 Hz.

Istedenfor å direkte addere de andre harmoniske til tonen, forsøkte jeg å bruke en sidefunksjon til Csound som kalles hetro (Hetrodyne filter analysis). Denne algoritmen leser en lydfil og skriver de harmoniske til en fil. Filen leste jeg inn i instrument 2 i orkester-filen (figur 8), og instrumentet ble spilt av. Dette hadde ingen særlig effekt, så jeg bestemte meg for å forsøke å addere delkomponenter isteden.

De forskjellige frekvensene og de relative amplitudene hadde jeg allerede (tabell 1. Disse ble skrevet inn som kall på hver sin oscillator i instrument 3 (a1a7). Hver oscillator tar parametrene frekvens, amplitude og kurveform. De forskjellige funksjonene adderes i a8, og nå er selve tonen skapt. For å legge på en envelope som endrer amplituden over tid, kalles det i a9 på funksjonen expseg. Den legger en eksponensiell decay på lyden, og tar parametrene startverdi, varighet av første segment og verdi etter første segment. Decayen adderes til den sammensatte bølgen i a10. Nå begynner lyden å minne litt om en pianotone.

Jeg hadde lyst til å teste ut hvordan Karplus-Strong algoritmen pluck klarer å simulere strenganslag. Denne er lagt til i a11 og adderes til de andre verdiene i a12. Kommandoen garev hopper vi over foreløpig og ser at dermed er dette instrumentet ferdig definert.

For å forsterke anslaget av tangenten idet den treffer strengen, la jeg til en ny pluck i instrument 4. Denne har en mye større amplitude enn den forrige, slik at den høres tydeligere. Kommandoen linen gir en skarp lineær økning i verdi og en rask decay. Dette instrumentet kalles i partiturfilen rett før selve tonen for å simulere et hardt strenganslag.

For å skape en ordentlig konsertstemning la jeg til slutt på litt romklang. Denne er definert i instrument 99 og kalles ved tid=0 i partiturfilen slik at den blir global og gjelder for alle instrumenter som spilles av. Det er boksen reverb som lager klangen med den globale variabelen garev som paramater. Vi så i instrument 3 at garev der fikk verdiene fra den sammensatte tonen.

I partiturfilen settes selve lyden til å komme 0.03 sekunder etter strenganslaget. Dette gjorde jeg for å simulere en ørliten forsinkelse i attack. Til slutt kjøres de to filene gjennom Csound-kompilatoren, og lyden blir som i spor 32. Med litt godvilje kan man jo gå med på at tonen unektelig har noe av den samme klangen som en ekte pianotone. Selv synes jeg strenganslaget ble for skarpt, men dette skyldes at pluck egentlig er skrevet for å simulere klimpring på en gitarstreng. Forsinkelsen jeg satte inn på tonen virker litt for lang. Decay og sustain mangler også den riktige kurven før man kan overbevises om at det er et ordentlig piano vi har å høre med.

Selv om lyden kanskje ikke ble så overbevisende, fikk jeg ihvertfall sett og testet ut hvordan man synteserer en tone og bruker noen av verktøyene som kan endre lyden.

f1 0 4096 10 1 

;instrument    Start    Varighet
;   i1          0          4 
;   i2          0          4
    i3          0.03       8   ; Lyd
    i4          0          1   ; Strenganslag
    i99         0          9   ; Klang i 5 sek.

Figur 7: Csound score-fil for enstrøken c

sr = 44100                ; Samplerate
kr = 4410                 ; Kontrollrate
ksmps = 10                ; Forskjell sr/kr
nchnls = 1                ; Antall kanaler
garev init 0              ; Initialisering av garev

instr 1                   ; Enkelttone 261 Hz
a1 oscil 10000,261,1
out a1

instr 2                   ; Resampling fra hetro-fil
a1 adsyn 1,1,1,"4c1.hetro"  
out a1

instr 3 
a1 oscil 10000,261,1      ; Grunntone med frekvens 261 Hz
a2 oscil 3870,523,1    
a3 oscil 2120,786,1 
a4 oscil 3440,1048,1 
a5 oscil 1830,1313,1 
a6 oscil 1550,1846,1 
a7 oscil 975,2386,1 
a8 = a1+a2+a3+a4+a5+a6+a7 ; Sammenlegging av forskjellige toner
a9 expseg 1,1,.3          ; Eksponensiell decay 
a10 = a8*a9
a11 pluck 200,261,261,0,1 ; Attack med Karplus-strong
garev = garev+a12         ; Initialisering til romklang
out a12

instr 4                   ; Strenganslag med Karplus-Strong
a1 pluck 2000,261,261,0,1
a2 linen a1,.1,p3,p3*.3
out a2

instr 99                  ; Romklang
  asig reverb garev*.1,2  ; 2 sekunders klang
  out asig
  garev = 0

Figur 8:Csound orkester-fil for enstrøken c

Digitalt piano

Dagens digitale pianoer benytter seg i all hovedsak av samplingsteknikken. Som tidligere beskrevet, spiller man da av en digitalisert pianolyd. Oscillatorer varierer frekvensen, og en forsterker styrer lydstyrken. Dette virker relativt greit, men det er en rekke forskjellige punkter som kompliserer prosessen.

Først og fremst teller klangfarven inn. En lys og en mørk tone har en helt forskjellig oppbygning så hvis vi spiller av tonen 1C med hastighet som en c5 så høres det relativt spinkelt ut (spor 33). Når tonen c5 spilles av med hastighet som 1C får man definitivt ikke pianofølelse (Legg merke til at venstre kanal spiller lyden tidligere enn høyre kanal, sannsynligvis fordi den opprinnelige lyden først ble fanget opp av venstre mikrofon. Den ekstreme hastigheten lyden spilles av på audioaliserer denne effekten.) (spor 34). For å løse dette problemet kan man tenke seg at det vil være best å ta opp hver eneste pianotone for seg. Dette er nok best, men det ville krevet stor lagringsplass om man skulle ha liggende 88 forskjellige lyder som hele tiden skal være klar til å spilles av. Løsningen til nå har derfor vært at man definerer 5-6 soner på klaviaturet som har hver sin lyd. Det er gjerne en lyd som dekker nesten alle tonene fra 1C til c1, mens resten av tonene fordeles på de lyse intervallene. Dette er fordi klangfarven endres betydelig mer i de lyse partiene. På denne måten sikres man en naturlig tone samtidig som størrelsen på lydfilene holdes nede.

Jeg ønsket å teste ut dette på egenhånd og forsøkte derfor å lage mitt eget samplepiano. Jeg brukte programmene SampleCell og ProTools for å sette opp et instrument. Der importerte jeg en pianodefinisjon, og la så inn lyder fra Steinway-flygelet som dekket tonene fra 1C – c5. Jeg lot tonene være definert over en oktav, slik at lyden fra tonen c1 ble brukt på alle notene mellom giss og g1. Når man hører på en skalaoppgang av dette instrumentet (spor 35) kan man tydelig høre overgangen fra en lyd til en annen. Dette kan løses ved at man innfører en funksjon som mikser to lyder i overgangsområdene. En annen mulighet er å normalisere tonene og modifisere hver av dem slik at de bedre “passer inn” i hverandre.

Men på samme måte som klangfarven er forskjellig for mørke og lyse toner, varierer den også for sterke og svake enkelttoner. Hvis man bare demper en sterk lyd vil det ikke høres særlig naturlig ut. Derfor er det vanlig at man har tre forskjellige lyder liggende per tone. Disse må også behandles slik at overgangsområdene høres naturlig ut. Et slikt instrument vil altså bestå av tre ganger fem forskjellige lyder. Hvert sample er i stereo og varer i omtrent fire sekunder. Når vi vet at det går omtrent seks sekunder stereolyd per megabyte, så trengs det en lagringsplass på omtrent ti megabyte bare for ett instrument. Vanlige digitalpianoer har gjerne mellom 10 og 100 forskjellige instrumenter liggende lagret. Dette er mulig ved hjelp av kraftig kompresjon av lydfilene og streng seleksjon av de viktigste områdene i hver lyd. Desverre medfører dette en betraktelig senkning av lydkvaliteten.

Vi har sett at å bruke en envelope for å forme lyden er en effektiv metode. En samplet lyd trenger egentlig ikke så mye korreksjon i attack og decay områdene. Det er gjerne sustain-delen som er problemet. Som vi så fra analysen av en tone, så “pulserer” lyden i sustain-området, og hvis vi skal få en realistisk lyd er det viktig at dette kommer med. Dette gjøres ofte ved å loope et spesielt segment i lyden, men dette er en vanskelig sak. I mange digitalpianoer kan man høre at det hakker i loopingen og dette er svært uheldig.

Men det er en mengde lyder i et akustisk instrument som ikke nødvendigvis kommer fra en spesiell tone. En av disse er støy fra bevegelse av tangent og hammer. I et stort lydbilde er ikke dette særlig påfallende, men det kan være med på å endre klangfarven noe. En annen detalj er lyden fra fingeren som treffer tangenten. Dette kan være viktig å tenke på hvis man skal lage lyden slik den høres ut for pianisten.

Det jeg tror er den vanskeligste delen å simulere, er bruken av pedaler. Dempepedalen kan forholdsvis enkelt justeres, men sustain-pedalen volder større problemer. Når denne pedalen trykkes ned, løftes dempeputene på alle strengene slik at de kan klinge med. Nå er det slik at hvis tonen c1 spilles så vil også alle strenger som er med i overtonerekken til c1 begynne å vibrere. Selv om disse signalene er svake vil de på sin side sette i bevegelse tonene i sine overtonerekker, osv. Alle disse forskjellige lydbølgene beveger seg frem og tilbake i instrumentet og interferer konstruktivt og destruktivt med hverandre samt stadig flere strenger. Når pedalen ligger over lengre tid og man i tillegg spiller flere toner på en gang og etter hverandre, blir lydbildet til slutt ekstremt komplisert. På sporene 25-27 har jeg gjort opptak av tonen c1 med pedalen liggende nede før anslaget. Mens de akustiske instrumentene tydelig får en mer “utflytende karakter” endres ikke lyden på digitalpianoet nevneverdig.

Alt i alt ser vi at det er en rekke forskjellige faktorer å ta hensyn til hvis vi ønsker å lage et digitalt piano. Og enda har vi ikke begynt å se på avspillingsmedium. Generelt så begrenses utviklingen av gode lyder på grunn av lagringskapasitet. Men det hjelper ikke bare å kunne ta opp flere lengre og bedre lyder. Forståelsen av hvordan tonene fungerer sammen og i forhold til instrumentkassen er vel så viktig. Fremtiden er kanskje en form for kombinasjon av sampling og fysisk modellering. Da vil man kunne få et instrument med “ekte” lyd som oppfører seg som et ordentlig piano.


For virkelig å teste ut om folk klarer å høre forskjell på et digitalt eller akustisk piano, laget jeg en liten blindtest.

Gjennomføring av testen

Jeg valgte å operere med to små lydsnutter, en klassisk og en jazz/blues. Hvert av disse sporene tok jeg opp på seks forskjellige instrumenter, tre vanlige og tre digitale. Da opptakene ble utført hadde jeg desverre ikke tilgang til noe ordentlig flygel. Jeg brukte isteden tre pianoer fra henholdsvis Yamaha, schimmel og Grotwig-Steiman. De digitale instrumentene ble valgt fra Roland RD-600. Opptakene ble gjort med Tascam DAT-spiller og to Neuman MK 100 kondensatormikrofoner. Avspillingsmediet var en Sony MD-R50 med Sennheiser hodetelefoner. Testpersonene ble forklart at de skulle angi om de syntes instrumentet virket akustisk eller digitalt. Jeg forklarte at snuttene var tatt opp i forskjellige rom, med forskjellige instrumenter og at det ikke nødvendigvis behøvde å være halvparten digitalt eller akustisk. I tillegg opplyste jeg om at noen av de digitale instrumentene kunne være stemt litt opp eller ned. Sporene ble spilt av slik de er på CDen (spor 36-37). Når det var ønskelig stoppet jeg avspillingen eller repeterte en snutt.

Snutt nrDigitalAkustiskInstrument
175%25%Roland RD-600 A11
242%58%Yamaha piano
350%50%Schimmel piano
458%42%Roland RD-600 B13 u/reverb 438 Hz
683%17%Roland RD-600 A21 u/reverb 442 Hz
150%50%Schimmel piano
292%8%Roland RD-600 A11
375%25%Roland RD-600 A21 u/rev 442 Hz
48%92%Yamaha piano
558%42%Roland RD-600 B13 u/rev 438 Hz
Tabell 2: Resultater blindtest. Prosentene viser hvor mange som trodde at lyden var digital eller akustisk.


Resultatene (tabell 3) viser at det var relativt stor usikkerhet om de forskjellige sporene. Totalt gjennomførte 12 mennesker testen. Åtte av disse var musikere eller musikkstudenter og av disse spilte fire piano. Generelt hadde disse færre feil enn de andre testepersonene. Fire av personene hadde kun to feil, mens resten bommet på flere. Ingen traff riktig på alle!

Generelt ser det ut til at Schimmel-pianoet voldte meste problemer, ettersom det både på klassisk og blues var halvparten som trodde det var et digitalt piano. Roland RD-600 B13 var også relativt likt representert. Den digitalpianolyden som jeg liker best selv og som også er definert som hovedlyd, Roland RD-600 A11, ble ganske tydelig gjenkjent som digitalpiano. Dette kan kanskje skyldes at det var brukt reverb gjennom pianoet under opptaket. Interessant var det ihvertfall at mange uttrykte frustrasjon over at de syntes det var vanskelig å høre forskjell de forskjellige instrumentene. De fleste var også overasket over kvaliteten på digitalpianoene.


Det er selvfølgelig en hel mengde med usikkerhetsmomenter. Først og fremst ble ikke opptakene av de akustiske instrumentene like bra som jeg hadde håpet. Jeg hadde store problemer med overstyring og klipping på DAT-spilleren og ved å senke nivået ble lyden relativt mye svakere enn de på de digitale instrumentene.

For de andre blir det lett opptakstekniske ujevnheter når ikke instrumentene står i samme rom og mikrofonene plasseres litt forskjellig. På det digitale pianoet brukte jeg linjeutgangen, fordi dette burde generere en mest mulig naturlig tone i henhold til klangidealene produsentene arbeider med. Ideelle opptak måtte ha blitt tatt i ett rom hvor mikrofonene stod konstant og instrumentene ble flyttet frem og tilbake, for å sikre jevne akustiske forhold.

Avspillignsmediet var en Sony MZ-R50 minidisc-spiller. Denne ble benyttet istedenfor DAT-spiller på grunn av en mer hendig størrelse. Problemet med minidisc-formatet er at det er komprimert, fra omtrent 750 MB til 160 MB for 74 minutter stereo, ved at det kuttes i den øverste og nederste delen av spekteret. Dette skaper selvfølgelig en viss reduksjon i noen overtoner, selv om man skal være særlig trenet for å legge merke til dette. Det mest ideelle hadde selvfølgelig vært å sitte i et lydrom og spille av opptakene med gode høyttalere. Jeg ønsket imidlertid å teste mange “normale” mennesker og stilte meg derfor opp på Frederikkeplassen med et par kraftige hodetelefoner. Her er det endel bakgrunnsstøy og testpersonenene fikk heller ikke særlig lang tid til å lytte på de forskjellige opptakene. Meningen var heller ikke en grundig analyse, men bare at testpersonene skulle beskrive den umiddelbare følelsen av instrumentet.

Uansett viser hovedtrenden at flertallet fremdeles klarer å høre forskjell på et akustisk og et digitalt instrument selv om noen av instrumentene lå nærme halvparten. Dette er imidlertid mye bedre enn hvis man hadde gjort en lignende test for noen få år siden.


Som vi har sett er pianoet et instrument med sammensatt og kompleks lyd. Selv om man nå begynner å utvikle teknikker som gjør at man får svært realistisk pianolyd, så er det fremdeles mange små uavhengigheter som gjør at det vanskelig å skapet et troverdig piano.

Min blindtest på forskjellige mennesker viste jo at de fleste også hadde problemer med å skille noen av instrumentene.

Har det så noen hensikt å forsøke å lage et digitalt instrument? Det kan jo aldri helt bli det samme som et ekte instrument. Jeg tror det er svært viktig å arbeide med å skape et perfekt digitalt instrument. Gjennom arbeidet vil man jo forstå veldig mye av hvordan man kan forbedre et ekte piano, og i tillegg så kan man utvikle svært gode digitale instrumenter som kan brukes til for eksempel MIDI eller konsertanledninger hvor signalet allikevel skal forsterkes. På sikt vil kanskje instrumentene bestå av an blanding av akustiske egenskaper og digitale fortrinn. Fremtiden er spennende!


  • Bateman, Wayne A. (1980): Introduction to Computer Music, John Wiley & Sons, New York
  • Benestad, Finn (1985): Musikklære, TANO, Oslo
  • Hammer, Øyvind (1997): Digital lydbehandling, NOTAM, Oslo
  • Hoffman, Forrest (u.å.): An Introduction to Fourier Theory, forrest/papers/fourier/index.html, University of Tennessee, Knoxville
  • Proakis, John G. og Manolakis, Dimitris G. (1992): Digital Signal Processing. Principles, Algorithms, and Applications, Macmillan, New York
  • Resnick, Robert; Halliday, David and Krane, Kenneth S. (1992):Physics, vol I, John Wiley & Sons, New York
  • Moore, F. Richard (1990): Elements of Computer Music, Prentice Hall, New Jersey
  • Svinndal, Anders (1992): Synthesizeren som erstatning for akustiske instrumenter, Semesteroppgave musikkvitenskap, Oslo
  • Vistnes, Arnt Inge og Bugge, Lars (1993): FYS 115 øvelse 12 Digitalisering av lyd, Labintroduksjon Fysisk institutt, Oslo
  • Vistnes, Arnt Inge og Bugge, Lars (1993): FYS 115 øvelse 20 Syntese av lyd og digital filtrering, Labintroduksjon Fysisk institutt, Oslo


1Yamaha flygel, tonen 1C
2Yamaha flygel, tonen C
3Yamaha flygel, tonen c
4Yamaha flygel, tonen c1
5Yamaha flygel, tonen c2
6Yamaha flygel, tonen c3
7Yamaha flygel, tonen c4
8Yamaha flygel, tonen c5
9Steinway \& Sons flygel, tonen 1C
10Steinway \& Sons flygel, tonen C
11Steinway \& Sons flygel, tonen c
12Steinway \& Sons flygel, tonen c1
13Steinway \& Sons flygel, tonen c2
14Steinway \& Sons flygel, tonen c3
15Steinway \& Sons flygel, tonen c4
16Steinway \& Sons flygel, tonen c5
17Roland RD-600 A11, tonen 1C
18Roland RD-600 A11, tonen C
19Roland RD-600 A11, tonen c
20Roland RD-600 A11, tonen c1
21Roland RD-600 A11, tonen c2
22Roland RD-600 A11, tonen c3
23Roland RD-600 A11, tonen c4
24Roland RD-600 A11, tonen c5
25Yamaha flygel, tonen c1 med pedal nede
26Steinway \& Sons flygel, tonen c1 med pedal nede
27Roland RD-600 A11, tonen c1 med pedal nede
28Yamaha flygel tonene 2C, c1, c3, c5
29Tonen c1 fra Roland/Steinway/Yamaha
30Sinustone med frekvens 261 Hz
31Karplus-Strong Pluck algoritmen
32Forsøk på syntese av pianolyd, tonen c1
33Tonen 2C spilt med frekvens som tonen c5
34Tonen c5 spilt med frekvens som tonen 2C
35Forsøk på å lage et samplepiano
36Blindtest, klassiske snutter
37Blindtest, gospel/blues snutter
Tabell 3: Spor på den vedlagte CDen