Skip to main content

8-bitový zvuk

Prvou hernou konzolou so zvukom bola Atari 2600. Na rozdiel od všetkých predchádzajúcich prístrojov sa v nej prvýkrát objavil dedikovaný hardware na zvuk. Konzola mala iba dva zvukové kanály: jeden generoval šum (noise) a druhý štvorcovú zvukovú vlnu (pulse wave). Prehrávať naraz sa teda dali iba dva zvuky. Šumový kanál bol napríklad schopný vytvárať dnes už ikonické zvuky explózií a vďaka tomu, že pulzná zvuková vlna mohla v podstate meniť výšku, mohli byť vytvorené aj primitívne zvuky motorov (napríklad v závodnej hre Enduro od Activision z roku 1983) alebo výstrelov (Combat od Atari, 1977).

V tomto čase sa už zvukom a primitívnou hudbou v hrách mohla začať vytvárať atmosféra, hoci vzhľadom na technologické nedostatky ešte stále prevládal zvuk nad hudbou. Okolo roku 1980 začali tvorcovia arkád častejšie do obvodových dosiek implementovať zvukové čipy určené špecificky na prácu s audiom. Nazývali sa PSG – programovateľné zvukové generátory.

Programovateľný zvukový generátor je zvukový čip vytvárajúci audio signály pomocou jednej alebo viacerých základných zvukových vĺn, resp. oscilátorov, využívajúc takzvanú subtraktívnu syntézu (o tej píšeme neskôr). To všetko sa deje na základe vstupu používateľa. Špecifiká takýchto zvukov sú väčšinou umiestnené priamo v kóde a sú spojené so spúšťaním oscilátorov. Tieto predstavujú elektrické signály, ktoré vytvárajú (alebo syntetizujú) zvukovú vlnu určitého tvaru, špecifickú tým, že jej tvar sa opakuje. 

Niektoré čipy boli schopné vytvárať zvuky samy o sebe len za pomoci jedného oscilátora, ale často boli využívané v pároch ako takzvané generátory. Neraz boli takéto zvukové vlny kombinované s ďalším kanálom generujúcim iba čistý šum (šumový kanál, noise channel). Zvuky hudobných nástrojov v skorých digitálnych hrách boli zvyčajne vytvárané kombináciou jednoduchej zvukovej vlny a generátoru takzvanej zvukovej obálky (envelope). 

Zvuková obálka je nástroj, ktorý doslovne tvaruje dynamický priebeh zvuku od jeho začiatku v čase a jej podoba sa najčastejšie zobrazuje ako jednoduchá krivka pozostávajúca z niekoľkých častí. Zvyčajne sa tvar krivky spája so základnými vlastnosťami zvuku (amplitúda, teda hlasitosť/intenzita, frekvencia alebo výška). Spomínané časti krivky predstavujú nábeh (attack), útlm (decay), trvanie (sustain) a uvoľňovanie (release), teda ADSR. 

Nábeh (attack) predstavuje čas, ktorý zvuku trvá, kým začne znieť, teda od úplného ticha hneď po stlačení klávesy alebo akéhokoľvek vstupu (napríklad tlačidlo na ovládači) až po stanovenú maximálnu hlasitosť. Útlm (decay) určuje čas toho, ako sa hlasitosť daného zvuku znižuje po nasledujúcu hodnotu trvania. Trvanie (sustain) je úroveň zvuku, ktorá ostáva nemenná počas trvajúceho držania klávesy alebo spustenia akéhokoľvek vstupu, až pokým klávesu nepustíme, resp. vstup neuvoľníme. Uvoľňovanie (release) predstavuje čas, ktorý zvuku trvá, kým od poslednej hodnoty neprejde do úplného ticha, resp. zastavenia.

Niektoré zvukové čipy mali vo zvukovej obálke aj hodnotu „hold“. Tá predstavovala trvanie, počas ktorého sa úroveň zvuku držala na jeho maximálnej hodnote. Tu treba dodať, že kým hodnoty attack, decay a release označujú primárne čas, sustain je v prvom rade úroveň hlasitosti. Zároveň treba dodať, že tieto hodnoty nemusia byť prezentované iba lineárnymi (teda rovnými) krivkami, ale napríklad aj logaritmickými (tie môžu mať oblý tvar). Zvolený typ krivky, resp. zvukovej obálky možno na prvý pohľad znie ako technický detail, ale je to práve táto obálka, ktorá značne odlišuje od seba rôzne zvuky a ich využitie a ktorá dokáže aj z obyčajného statického bieleho šumu vytvoriť rôznorodé nástroje. V hrách na prelome 70. a 80. rokov sa napríklad veľmi často používal trik s bielym šumom tak, že hodnota attack bola minimálna, ako aj hodnota decay a sustain. Release mal jemnú krivku „dojazdu“, čo vo výsledku vytvorilo z bieleho šumu jednoduchý a hlavne presvedčivý činel, čiže rytmický prvok hudby. 

Túto techniku používajú zvukoví dizajnéri dodnes a na hĺbkový syntetizátorový zvukový dizajn sa využívajú práve kombinácie kriviek filtrujúcich a modulujúcich rôzne aspekty zvuku – pomocou šumu však boli v minulosti často tvorené perkusné prvky vo všeobecnosti. Keď sa podobná stratégia aplikuje napríklad na vyššie položenú sínusovú zvukovú vlnu, vytvoríme tým klasický/typický laserový výstrel. 

Tvar zvukovej obálky okrem intenzity a dynamiky zvuku v čase mohol byť neskôr aplikovaný aj na frekvencie a výšku zvuku. Znamená to, že pomocou podobne zvolenej krivky je možné pomocou bieleho šumu vytvoriť napríklad primitívny zvukový efekt explózie. Zvuková obálka upravujúca hlasitosť bude mierne predĺžená a frekvenciu a výšku zvuku dynamicky upravíme tak, že od istého bodu začnú klesať. Jedna postupne odfiltruje výšky a tá druhá spôsobí, že zvuk bude na konci hlbší. Samozrejme, v prvých zvukových čipoch bol dojem klesajúcej melódie, resp. výšky vytváraný primárne veľmi krátkymi a rýchlo za sebou prehrávanými tónmi, ktoré na stupnici postupovali nadol.

Dôležitým elementom ovplyvňujúcim výslednú kvalitu a farbu zvuku, produkovanú PSG, bol výber zvukovej vlny generovanej oscilátorom. V prvých zvukových čipoch sa väčšinou využívala kombinácia základných zvukových vĺn a šumu. Opisované vlny sú rozlišované ako sínusová, štvorcová, trojuholníková a pílová.

V začiatkoch sa najčastejšie využívala štvorcová zvuková vlna – hranatý tvar jej amplitúdy spôsobuje, že má najmenšie rozlíšenie, a tým zaberá najmenej pamäte, pretože jej vlna v podstate prezentuje „vypnutie a zapnutie“ zvuku. Väčšina retro zvukov, ktoré máme doteraz v pamäti z éry prvej, resp. druhej generácie konzol, bola generovaná práve pomocou štvorcovej zvukovej vlny. Keď sa prehrávali nižšie tóny, takáto vlna sa často používala na vytvorenie basových zvukov. Je dostatočne výrazná aj vďaka viacerým harmóniám vytvárajúcim bohatší zvuk. 

Vo všeobecnosti je štvorcová vlna typ pulzovej vlny – šírka pulzu je kontrolovaná separátnym parametrom (pulse width) a manipulácia s ním môže dodať zvuku metalický, resp. nazálny charakter. Z tohto faktu napríklad neskôr ťažilo NES (Nintendo Entertainment System) a Game Boy.

  • Sínusová vlna je najčistejšia a najjednoduchšia. Má iba jednu harmóniu a jej zvuk je plynulý a jemný. Ak ju transponujeme napríklad o oktávu nižšie, môžeme ju využiť ako subbasový prvok hudby alebo zvuku.
  • Trojuholníková zvuková vlna je svojím tvarom v podstate na pomedzí sínusovej a štvorcovej. Je stále dostatočne jemne znejúca, ale má viacero harmónií (nie však toľko ako štvorcová). Na konzole NES sa napríklad využívala aj na imitovanie perkusií typu „tom-tom“.
  • Pílová zvuková vlna znie najagresívnejšie a najvýraznejšie – má najviac harmónií a najbohatší zvuk.
  • Biely šum predstavuje zvuk, ktorý kombinuje všetky frekvencie počuteľné ľudským sluchom v rovnakom množstve. V hrách sa využíval okrem spomínaných príkladov s perkusiami napríklad na zvuk vetra či surfovania. Existuje aj verzia ružového šumu, ktorý je mierne filtrovaný a má väčšiu mieru basových frekvencií – podobne sa využíval na perkusné zvuky, ale napríklad aj na imitáciu dažďa.

Ak chce zvukový dizajnér napríklad vytvoriť zvuk imitujúci flautu pomocou jednoduchých oscilátorov, musí využiť buď sínusovú, alebo trojuholníkovú vlnu, alebo ich kombináciu (pokiaľ mu to zvukový hardware umožňuje). Naopak, ak potrebuje vytvoriť agresívnejší zvuk (motor, raketu, alebo bodavý zvuk), využije štvorcovú alebo pílovú vlnu. V niektorých čipoch sa taktiež využíval prvok LFO (low frequency oscillator), pomocou ktorého sa dalo vyrobiť takzvané vibrato (pulzujúca/rytmická zmena výšky tónu). 

LFO sa prvýkrát objavilo v syntetizátoroch 60. rokov a predstavovalo v podstate ďalší oscilátor, ktorý ale pracoval na podstatne nižšej frekvencii a ktorý pomocou rôznych vĺn mohol ovplyvňovať (modulovať) kvalitu hlavného oscilátora. Najčastejšie sa využíval na tvorbu tremola (rytmické modulovanie hlasitosti) alebo kolísavého efektu (wobble effect), spopularizovaného predovšetkým hudobným žánrom dubstep – ten bol tvorený rytmickou moduláciou filtra/ekvalizéra.

Mnohé z PSG vytvorila firma Texas Instruments alebo General Instruments, ale niektoré spoločnosti (Atari či Commodore) vyrábali svoje vlastné zvukové čipy. V týchto kúskoch hardvéru sa potom používali rôzne typy takzvaných syntéz, teda rôznych spôsobov, ako sa generoval samotný zvuk. PSG sa začal do spotrebiteľskej elektroniky inštalovať koncom 70. rokov, keď vznikalo viacero nárokov na zvuk v domácich konzolách a arkádach aj v prvých osobných počítačoch. Je potrebné dodať, že väčšina PSG obsahovala iba kanály s pulzovými vlnami a šumom. Drahšie čipy potom kombinovali aj iné typy syntéz. Iba čipy NES APU a Commodore SID mali implementované navyše aj trojuholníkové vlny, čo im umožňovalo produkovať prirodzenejšie basové frekvencie.

Problémom zvukových čipov súvisel aj s tým, že pôvodné arkádové verzie hier (napríklad Frogger alebo Space Invaders) mali svoje vlastné komponenty generujúce zvuk. Keď potom hráč spustil porty týchto hier napríklad na konzole Atari 2600, ktorá obsahovala zvukový čip TIA (Television Interface Adaptor – využíval iba dva kanály, oba obsahovali buď pulznú vlnu, alebo šum), zneli jednoducho inak, pretože sa celý zvuk musel od nuly prerobiť. Rovnako to bolo na konzole Mattel Intellivision s čipom AY38914. Odlišnosti medzi čipmi boli dané zároveň takzvaným registrom tónov, resp. rozdeľovačom frekvencií, ktoré určovali rozsah reprodukovateľných nôt. Čoskoro začalo byť štandardom implementovanie viac ako jedného zvukového čipu v rámci jedného herného systému – čipy sa navyše väčšinou využívali na komplexnejšie zvukové efekty. Pravdepodobne najrozšírenejším bol čip od spoločnosti General Instruments zo série AY-3 (jeho rôzne variácie mali za sebou ešte ďalšie štyri čísla), ktorý mal tri kanály (v každom mohol kombinovať buď pulznú vlnu, alebo šum) a SN76489 čip spoločnosti Texas Instruments, ktorý mal tri kanály vyhradené na pulzné vlny a jeden separátny kanál na šum. Pri takýchto PSG treba dodať, že ich technické vlastnosti sa odlišovali rôznymi detailmi: každý z kanálov mal obmedzený počet úrovní hlasitosti (teda nie plynule sa meniacu hlasitosť), rozsah frekvencií a podobne. Keď sa postupne začali využívať dodatočné čipy vyhradené hlavne na hudbu, znamenalo to, že hudba už nemusela byť prerušovaná zvukovými efektmi, ale mohla hrať nepretržite.

Na začiatku 80. rokov sa začali využívať aj takzvané speech čipy, teda komponenty, ktoré dokázali generovať primitívne zvukové efekty ľudskej reči. Medzi hry využívajúce takéto prvky patrí napríklad Star Wars (1983, Atari), Discs of Tron (1983, Midway) alebo Vanguard (1981, TOSE). Pri hre Vanguard treba spomenúť, že to bola prvá hra, v ktorej sa využila licencovaná hudba (jedna skladba z filmu Flash Gordon a druhá zo Star Trek: The Motion Picture). Licencovaná hudba už bola predtým zložená iným skladateľom a vydavateľ hry musel získať práva na to, aby ju vôbec mohol použiť. V súčasnosti je typickým príkladom séria GTA. Hre Journey (1983, Midway) patrí prvenstvo vo využití licencovanej hudby priamo v spolupráci s rovnomennou skupinou.
PSG neboli jediné kúsky hardvéru, generujúce zvuk. Zhruba v polovici arkádových hier sa stále využívali aj takzvané DAC konvertory, teda súčiastky, ktoré menili, resp. znovu vytvárali zvukovú vlnu z binárneho (digitálneho) kódu na analógový prúd. DAC mali rozdielnu bitovú hĺbku a vzorkovaciu frekvenciu. Čím vyššie boli hodnoty týchto zložiek, tým bol kvalitnejší reprodukovaný zvuk – avšak tým však rástla aj veľkosť, ktorú zaberal v pamäti.  V kontexte digitálneho zvuku definujeme bitovú hĺbku hlavne ako mieru dynamického rozsahu zvuku v decibeloch (dB). Zvuk (reálny analógový signál) sa mení na digitálny, pričom do zvukovej vlny sa umelo pridáva takmer nepočuteľný náhodný šum – ten je počuť až pri nižších hodnotách (8 bitov alebo 4 bity). To vnímame ako „zníženú kvalitu zvuku“ (v mnohých starších digitálnych hrách bolo tento šum aj reálne počuť). Šum sa pri nahrávaní pridáva na „vyhladenie“ digitálnej podoby zvukovej amplitúdy a spája sa s pojmom dithering. V kontexte zvukových procesorov zároveň bity predstavujú hodnotu toho, koľko dát môže hlavný procesor počítača prehrávať, resp. manipulovať naraz. Vzorkovacia frekvencia sa udáva v kilohertzoch (kHz) a predstavuje hodnotu toho, koľkokrát za jednu sekundu nahrávacie zariadenie meria/sampluje nahrávaný zvuk. Táto hodnota zároveň určuje frekvenčné rozpätie zvuku – štandardná vzorkovacia frekvencia 44,1 kHz približne odráža frekvenčné spektrum podobné počuteľnému spektru ľudských uší. Pri nižších vzorkovacích frekvenciách (napríklad 22 kHz a menej) v dôsledku procesu digitalizácie zvuku prídeme o časť spektra vysokých frekvencií, tzn., čím nižšia hodnota bude, tým viac vysokých a neskôr stredných frekvencií sa nám stratí.

Väčšina DAC konvertorov pracuje vďaka takzvanej PCM modulácii (pulse code modulation), teda konvertovaniu analógového zvukového signálu do digitálneho. Keďže táto metóda spracovania zvuku spôsobovala vyššie spomenutý problém s vyžadovaným väčšieho priestoru pri vyššej kvalite, pochopiteľne, že väčšina starších hier využívala iba krátke, kvalitatívne zredukované zvuky. Existuje ešte ďalšia verzia tejto metódy – ADPCM (adaptívna PCM), ktorá využíva kompresiu, a tým redukuje počet bitov na vzorku. Pri nižších frekvenciách tento spôsob v minulosti nevytváral nežiaduce artefakty, ale pri vysokých mohol spôsobovať skreslenie. Niektoré z ADPCM čipov sa využívali na efekty ľudského hlasu.

Z predošlých kapitol sa dá vyčítať, že jeden z problémov, ktoré museli riešiť tvorcovia hier na prelome 70. a 80. rokov, bol priestor – objem dát rástol, ak chceli mať kvalitnejší zvuk. To bolo v kontraste s tým, aký priestor vtedajšie technológie reálne ponúkali. Slučkovanie (looping), teda opakovanie jednej sekvencie zvuku či hudby plynule za sebou sa využívalo už v niektorých z prvých hier (spomínaných vyššie). Umožňovalo to využiť kratšie sekvencie zvukov, a tým šetriť priestor. Túto estetickú rovinu zvuku však oveľa viac cítiť približne od roku 1983, resp. 1984, keď bola na trhu konzola ColecoVision. Tá využívala vyššie spomínaný PSG čip SN76489 a množstvo hier práve na nej využívalo slučky. Za všetky spomenieme napríklad hru Gyruss (Konami, 1983). Vo svojej arkádovej verzii táto hra obsahovala až päť zvukových čipov na spracovanie zvukov, využívala stereo zvuk a zaujímavosťou je, že hudba bola remixom elektronickej verzie Tokáty a fúgy D mol od J. S. Bacha. Podobne sa začali slučkové hudobné podkresy (podmazy) presadzovať v hrách vydaných na konzolu Nintendo Entertainment System (1983). V tej sa využíval čip Ricoh 2A03 (resp. Ricoh 2A07 vo verzii PAL). Mal 5 mono zvukových kanálov: dva obsahovali variabilnú pulznú vlnu (so šestnástimi úrovňami hlasitosti a s možnosťou ohýbať výšku tónov – tzv. pitch bending), tretí kanál obsahoval trojuholníkovú zvukovú vlnu (s fixnou hlasitosťou a možnosťou ohýbať výšku), štvrtý kanál obsahoval biely šum. V piatom kanáli bol dodatočne využitý 7-bitový DPCM (diferenciálna PCM) prvok, schopný prehrať akýkoľvek zvuk obmedzený veľkosťou 16 384 bytov. Jeden z pulzných kanálov mal zároveň funkciu automatizovaného zvýraznenia špecifického frekvenčného pásma (frequency sweep), využívanú pri rôznych zvukových efektoch sci-fi. Väčšina najstarších hier síce využívala jedno až dvojtaktové slučky (často sa menili tým, že sa tóny transponovali vyššie či nižšie), ale s pribúdajúcimi hrami ich dĺžka rástla.

Pochopiteľne, že nie všetky hry potrebovali slučkovú hudbu – napríklad v hre Frogger (1981, Konami) sa hudba dynamicky prispôsobovala podľa toho, kde sa hráč nachádzal, a hra obsahovala približne 11 herných melódií. Tie sa medzi sebou prepínali ostrými strihmi a keďže maximálny čas, počas ktorého mohol hráč doraziť na ďalšie miesto (alebo zomrieť), bol zhruba 30 sekúnd, hudba sa slučkovať nemusela.

V tomto čase stále išlo iba o primitívne slučkovanie jednoduchých tónov bez sofistikovanejších prechodov medzi komplexnejšími melódiami. Rovnako by sme ťažko hľadali klasický hudobný postup, kde sa striedajú verše s refrénom a podobne – väčšinou išlo o striedanie maximálne osemtaktových slučiek. Výhodou ale bolo to, že časti melódií sa mohli využívať v rôznych častiach hry. Dlhšie slučky boli hlavne v hrách, kde hráči mohli stráviť v rôznych úrovniach dlhší čas. V súbojoch s bossmi boli zase častejšie kratšie a akčnejšie sekvencie. Komplexnejší prístup sa naplno uplatnil až neskôr s príchodom technológie MIDI, prípadne iMUSE, ktoré rozoberáme neskôr.