DSP a Wavetable syntéza
Po úspechu Sega Genesis sa do konkurenčného boja dostala opäť aj spoločnosť Nintendo. V roku 1990 bol v Japonsku spustený predaj konzoly Super Famicon a v roku 1991 predaj u nás oveľa známejšej verzie SNES (Super Nintendo Entertainment System). Táto konzola využívala iba jediný zvukový čip s názvom S-SMP, produkovaný spoločnosťou Sony. Zaujímavosťou je, že fungoval nezávisle od všetkých ostatných systémov v konzole. V tomto čipe sa nachádzal separátny 8-bitový procesor (Sony SPC-700), 16-bitový digitálny signálový procesor (DSP, ktorý sa správal v podstate ako syntetizátor wavetable), 16-bitový prevodník DAC a 64 kB pamäte typu SRAM (static random-access memory). Bol schopný produkovať 8-kanálový stereo zvuk, využíval 8-bitové zvukové sample, ale predovšetkým pomocou jednotky DSP mohol pridávať niekoľko typov audio efektov. Hoci konzola SNES bola po zvukovej stránke technologicky vyspelejšia, jej zvukový a hudobný štýl paradoxne často pripomínal skôr klasickejší zvuk, tzn. evokujúci 8-bitovú éru. Napriek tomu veľa hier vzniklo na túto konzolu, využívajúcich mená slávnych hercov, a teda aj hudbu z ich natočených filmov. Len meno Sylvester Stallone evokuje hneď niekoľko titulov vydaných na túto konzolu – Cliff Hanger (Sony, 1993), Demolition Man (Acclaim, 1995) alebo Judge Dredd (Acclaim, 1995). Zároveň sa výraznejšie začali využívať modernejšie postupy s adaptívnou hudbou. V hre Super Mario World (Nintendo, 1990) sa napríklad hudba dynamicky prispôsobuje na základe toho, ako sa Mario pohybuje. Keď vyskočí na Yoshiho chrbát, do sprievodnej melódie sa plynule pridá ďalšia vrstva (rytmická perkusia) a pôsobí ako prirodzená súčasť pôvodnej skladby. Tento proces pripomína takzvanú vertikálnu orchestráciu, teda jeden zo spôsobov, ako sa herní hudobní skladatelia vyrovnávajú s adaptívnou hudbou. V Super Mario World je zároveň zreteľne počuť využívanie DSP procesora – keď Mario skočí cez rúru do niektorej z podzemných lokalít, všetky zvuky (skákanie, zbieranie mincí) majú aplikovaný dozvuk (reverb), simulujúci ozvenu v jaskyni/kanáli. Mnohé z hier začali taktiež využívať kompozičné postupy pripomínajúce skôr filmovú hudbu (napríklad dodnes neuveriteľne obľúbený Chrono Trigger či Final Fantasy II a III od spoločnosti Square) a hlasové efekty boli na vysokej úrovni (napríklad v hre Super Punch-Out z roku 1994).
Obr. 15: Vizualizácia zvukovej vlny pomocou wavetable syntézy v programe Ableton Live 10
Napriek tomu, že sme v úvode do 16-bitovej éry začali konzolou Sega Genesis, treba spomenúť, že úplne prvou 16-bitovou konzolou bola PC Engine od spoločnosti NEC Home Electronics, neskôr známa hlavne pod názvom TurboGrafx-16. Jej predaj sa začal v roku 1987 a hoci v Japonsku veľmi úspešne konkurovala Super Famicomu, vo zvyšku sveta sa jej nedarilo. Jej zvukový hardvér bol zabudovaný priamo do jednotky CPU s názvom HuC6280 a obsahoval jeden zvukový čip PSG a dva 5-bitové stereo moduly PCM, ktoré ale mohli v kombinácii prehrávať 10-bitové sample PCM. Podobne ako Super Nintendo, aj tento čip využíval na generovanie zvukov syntézu wavetable (tej sa venujeme nižšie). Obsahoval šesť zvukových kanálov generujúcich tvar zvukových vĺn, kontrolujúcich ich frekvencie a intenzitu. Posledné dva kanály boli pripojené ku generátoru bieleho šumu a jeden z nich mohol zároveň pôsobiť ako LFO. Zaujímavé je, že na túto konzolu bolo vyrobené veľké množstvo prídavných zariadení. Jedno z nich bolo CD-ROM2, čo z TurboGrafx-16 urobilo prvú konzolu umožňujúcu prehrávať dáta z CD už v roku 1988. Podobné prídavné zariadenie (Sega CD, resp. Mega CD) bolo napríklad predávané ku konzole Sega Genesis od roku 1991.
V roku 1990 sa začala v Japonsku predávať ešte jedna konzola – Neo Geo AES od spoločnosti SNK Corporation. Táto spoločnosť bola známa predovšetkým pre svoje arkádové automaty a konzola Neo Geo AES bola v podstate ich zmenšenou verziou. Hovorí sa o nej ako o „najznámejšej konzole, ktorú takmer nikdy nikto nevlastnil“. Problém spočíval v tom, že bola oproti ostatným veľmi drahá a samotné kartridže s hrami taktiež. Výsledkom bolo, že aj zmenšenú verziu Neo Geo sme namiesto domácností mohli nájsť skôr v špecializovaných obchodoch, hoteloch a podobne. Aj napriek tomu však treba dodať, že na rozdiel od konkurenčných konzol mala značne pokročilú grafiku a zvuk. Mala zabudovaný pätnásťkanálový zvukový čip Yamaha YM 2610, štyri súbežné FM kanály so štyrmi operátormi v každom z nich, tri čipy PSG, jeden programovateľný šumový kanál, sedem kanálov PCM, jeden kanál LFO a špeciálnu pamäť Sound ROM a Work ROM, určenú iba na zvuk. Už len na základe týchto zvukových špecifikácií sa dá sledovať značný rozdiel oproti konkurencii. Paradoxné je, že aj napriek relatívnej nedostupnosti tohto systému to bola 16-bitová konzola, ktorá mala najdlhšiu životnosť a niektoré z jej hier sú doteraz považované za klasiku (napríklad Metal Slug, Magician Lord, Samurai Showdown, Blazing Star alebo
Garou: Mark Of The Wolves).
Medzi pokrokové postupy, ktoré sa rozšírili v ére 16-bitových herných zariadení, patrí využívanie digitálnych signálových procesorov (DSP) a ďalší druh syntézy na generovanie zvuku – wavetable.
- DSP predstavuje separátny procesor, ktorý vo všobecnosti umožňuje optimalizovaný spôsob spracovania rôznych digitálnych signálov. Veľmi často sa využíva na úpravu zvuku, ale aj v iných technológiách (napr. telekomunikácie, spracovanie digitálneho obrazu, mobilné telefóny, radary). V kontexte digitálnych hier môžeme zjednodušene hovoriť o takzvaných audio efektoch, ktoré takýto procesor dokáže v reálnom čase aplikovať na zvuky. Téma audio efektov je obsiahla, úzko súvisí s problematikou zvukového dizajnu, mixovania zvuku a podobne. Aplikovanie audio efektov na zvukovú stopu v menšej či značnej miere upravuje alebo mení jej charakteristiky a niektoré z nich dokážu kompletne zmeniť zvuk a vytvoriť z neho prakticky nový. Existuje obrovské množstvo audio efektov a hlavne s príchodom digitálnych zvukových pracovných staníc (DAW) sa otvorili možnosti v ich vyvíjaní. Najzákladnejšie z nich však poznáme z viacerých oblastí – či už je to efekt na skreslenie zvuku gitary, alebo ekvalizér na úpravu tonálnej charakteristiky zvuku.
- EQ, teda ekvalizácia je pravdepodobne najzákladnejším audio efektom a hoci existuje množstvo variácií (mid/side EQ, dynamický EQ či moderné EQ využívajúce umelú inteligenciu), hlavný princíp ostáva nemenný – zvyšovanie alebo znižovanie intenzity špecifických frekvencií zvuku, inak povedané – úprava spodných, stredných a vysokých frekvencií. Medzi EQ sa dá zaradiť aj filtrovanie zvukov, čo v zásade znamená spôsob ekvalizácie, pri ktorom zvukovému signálu uberáme alebo pridávame iba vysoké alebo iba nízke frekvencie (napr. keď hráč v hre skočí pod vodu, pomocou filtrovania potlačíme vysoké frekvencie okolitých zvukov a okamžite dosiahneme simulovaný dojem vnímania zvuku a instantne dosiahneme dojem vnímania zvuku pod hladinou).
- Echo/delay predstavuje ozveny, resp. oneskorené kópie pôvodného signálu, ktorými môžeme simulovať napríklad rozľahlú horskú oblasť s kamennou stenou, odrážajúcu náš hlas. Tento typ efektu pracuje primárne s časom a jeho posunom. Echá sú v podstate špecifickým typom akustického oneskorenia (delay). Vytvárajú a simulujú rovnomerný odraz originálneho zvuku od rôznorodých materiálov – samozrejme, že počet a trvanie zaznievajúcich zvukov závisí od nastavených parametrov. Akustické oneskorenie môže vznikať už od niekoľkých desiatok milisekúnd a nemusí mať rovnomerné časové rozstupy. V podobe viacnásobných dozvukov/zvukov oneskorenia „multi-tap delay“ je napríklad možné vytvoriť komplexné rytmické zvuky a každej jednotlivej ozvene možno priradiť špecifické vlastnosti (EQ či intenzitu).
- Dozvuk/reverb je vo svojej technickej podstate tiež typ ozveny, avšak zo zvukového hľadiska predstavuje oveľa hustejšie zoradené zvuky za sebou. Zvyčajne hovoríme o menej ako 50-milisekundových rozstupoch. Pomocou dozvuku (reverbu) zjednodušene môžeme simulovať rôzne priestory, ako napríklad efekt odrážania zvuku v kúpeľni, kostole, jaskyni či v obrovskej hale (alebo zbieranie mincí v podzemnom kanáli). Pomocou takzvaného konvolučného dozvuku (convolution reverb) je možné vytvárať mimoriadne realisticky znejúce kópie akustických charakteristík rôznych priestorov, ale aj experimentovať s vytváraním úplne nových a neštandardných zvukov.
- „Time stretching“, teda predlžovanie/skracovanie zvuku patrí medzi klasické techniky zvukového dizajnu, pri ktorých sa zvuky predlžujú alebo skracujú, pričom možno ovplyvňovať ich rýchlosť, resp. dĺžku (môžeme, ale nemusíme takto ovplyvňovať aj ich výšku).
- Kompresia je proces, pri ktorom manipulujeme s dynamickým rozsahom zvukov – z hlasitých zvukov môžeme urobiť tichšie a naopak, z tichších hlasitejšie. Takáto manipulácia so zvukom sa využíva často pri mixovaní a mastrovaní. V kontexte zvuku v digitálnych hrách poznáme v rámci možností kompresie napríklad tzv. „ducking“ (efekt dočasného ustúpenia, zníženia signálu) alebo „sidechain“ (efekt vedľajšieho signálového reťazca), teda procesy, ktoré dokážu dynamicky upravovať hlasitosť zvukov v kombinácii s ostatnými zvukmi (ak napríklad začne v hre znieť dialóg, hudba sa pomocou takéhoto procesu automaticky stíši).
- Chorus, flanger a phaser patria do kategórie audio efektov na modulovanie zvukov, pracujúcich s časom. V kontexte audia v hrách sa takéto efekty často využívajú pri tvorbe rôznych sci-fi zvukov a podobne. Chorus pracuje na základe ozvien zvuku, zduplikuje naraz viac zvukov s približne rovnakou výškou tónu, pričom takto pôsobí plnšie. Dĺžka zvukov je modulovaná pomocou LFO, čím sa vlastne vytvárajú malé odchýlky vo výške zvuku. Flanger je výraznejší efekt ako chorus, pracuje podobne s extrémne krátkymi ozvenami zvuku (zvyčajne do 10 milisekúnd) a zároveň využíva feedback, teda miešanie takto modulovaných zvukov s tým originálnym. Phaser pracuje tak, že vytvára duplikáty signálu a mení ich fázu. Veľmi často sa používa pri tvorbe robotických efektov, prípadne robotických hlasov.
- Kruhová modulácia (ring modulation) predstavuje proces, pri ktorom sa tvorí modulovaná kópia pôvodného zvuku, miešajúca sa s originálnym. Takáto úprava harmonicky upravuje frekvenčné spektrum, niektoré frekvencie z neho odstraňuje a niektoré pridáva. Často sa tiež využíva na kreatívnu úpravu hlasu, zvuk však takto dokážeme aj kompletne skresliť. Vymenované procesy sú iba malou časťou toho, akým spôsobom sa môže zvuk upravovať pomocou DSP procesorov. Nie všetky z nich boli prítomné v herných konzolách od začiatku a časť sa začala využívať až neskôr, keď herné enginy umožňovali komplexnejšiu prácu so zvukom.
- Wavetable syntéza spočíva v tom, že namiesto jednoduchých zvukových vĺn využíva ich tvarovanie. Zjednodušene to znamená, že si vlny namiesto v ich klasickom dvojdimenzionálnom zobrazení musíme predstaviť 3D. Syntetizátor môže v istom momente hrať iba vybraný „plátok“ alebo rez, ale pomocou nastavenia modulácie a rôznych iných parametrov môže plynulo prechádzať (morfovať) do veľmi zložitých zvukových vĺn (teda sínusových, štvorcových, pílových atď.). Prehrávanie zvukovej vlny wavetable teda pripomína plynulé prechádzanie medzi rôznymi úrovňami snímok, ktoré produkuje pri vyšetrení magnetická rezonancia. Dané zvukové vlny môžu mať v podstate akýkoľvek tvar, čo spôsobuje, že pomocou tohto druhu syntézy je možné produkovať prakticky nekonečné množstvo zvukov a zvukových zafarbení. Výhodou je zároveň to, že zvukovú vlnu wavetable môžeme importovať z akejkoľvek zvukovej vzorky. V modernom kontexte sa wavetable syntéza využíva aj v rámci softvérových hudobných inštrumentov, resp. prídavných modulov, tzv. pluginov. Medzi najznámejšie patria Serum a Massive a ako jeden z inštrumentov ju natívne využíva napríklad DAW Ableton Live (od verzie 10).
Obr. 16: Kompresor Izotope Neutron 3
Táto syntéza sa začala využívať prvýkrát v 16-bitových konzolách, ale v hudbe sa do popredia dostávala v 70. rokoch 20. storočia. Vo svojich syntetizátoroch ju vo väčšej miere implementovala spoločnosť PPG (Palm Products GmbH) a prvý syntetizátor využívajúci túto technológiu bol Wavecomputer 360 z roku 1980. Spopularizovala ju ale až jeho ďalšia verzia Wave 2 z roku 1981 – obsahovala analógové krivky, oscilátory LFO, filtre a digitálne wavetable oscilátory. Výhodou bolo, že oproti tradičným syntetizátorom Wave 2 ponúkal 64 voliteľných zvukových vĺn, ktoré mali až 30 variácií. Znamená to, že pri každom oscilátore bolo možné zvuk generovať až pomocou 1 920 zvukových vĺn. Rovnako ako syntetizátor DX7, tak aj túto technológiu okamžite začali využívať hudobníci. Na začiatku to boli hlavne nemeckí Tangerine Dream, ale neskôr aj popové hviezdy ako David Bowie, Depeche Mode, Jean-Michel Jarre, Tears For Fears, Gary Numan, Ultravox či Steve Wonder. Moderným prvkom tohto zariadenia bola výmena klasických tlačidiel a ťahacích potenciometrov za kontrolný panel s LCD displejom a otočnými potenciometrami, ktoré dnes vídame na každom takomto zariadení alebo na MIDI kontroléri.
Ďalšou veľkou firmou využívajúcu túto technológiu bola spoločnosť Waldorf. Popri konkurenčnom súboji 16-bitových domácich konzol sa na rozmedzí 80. a 90. rokov nenápadne – ale o to významnejšie – vyvíjala nová generácia zvukových kariet do počítačov. V tomto čase bolo stále pomerne náročné skladať hudbu a zvuky do digitálnych hier, pretože existovalo veľké množstvo typov zvukových čipov, rôznych zvukových syntéz a separátnych technologických prvkov. Tie musel skladateľ všetky študovať a poznať. Ešte vždy sa stávalo, že rôzne konzoly reprodukovali zvuk rôznym spôsobom – inými slovami, tvorba audia do hier nebola štandardizovaná.
Prvá populárna a rozšírená zvuková karta na počítače sa volala AdLib (s celým názvom AdLib Music Synthesizer Card) z roku 1987. Prvá hra s podporou tejto karty bola už predtým spomínaná King´s Quest IV od Sierra Online. Karta využívala čip Yamaha YM 3812 a generovala 11-kanálový zvuk na princípe FM syntézy. Spolu s kartou dostali používatelia aj softvérový MIDI sekvencer Visual Composer na skladanie hudby a program Instrument Maker, využívajúci FM syntézu na tvorbu zvukov a nástrojov. Skoršia verzia mala zabudovaný zvukový výstup v podobe ¼-palcového jack konektora, určeného pre hudobníkov. Ďalšia verzia tejto karty z roku 1990 však už začala využívať dnes úplne štandardný 3,5 mm mono jack. V roku 1992 spoločnosť vydala svoju poslednú zvukovú kartu AdLib Gold 1000 s možnosťou pripojenia priestorového efektu (surround effect). V tom čase sa však na scénu dostala spoločnosť Creative Technology, resp. Creative Labs, ktorá konkurenciu doslova prevalcovala.
Na prelome rokov 1987 a 1988 sa na trhu objavila zvuková karta Creative Music System, zakrátko premenovaná na Game Blaster. Na rozdiel od karty AdLib mala 12 kanálov a stereo výstup, ale využívala dva staršie PSG čipy s názvom Philips SAA1099, a preto produkovala v podstate iba štvorcové vlny a biely šum. Skutočný úspech firma Creative zaznamenala až s kartou Sound Blaster v roku 1989. Na produkovanie zvuku využívala rovnakú technológiu ako konkurenčná AdLib (11-kanálový FM zvuk a čip Yamaha YM 3812), avšak navyše mala mikrokontrolér (malý čip), umožňujúci prehrávať 8-bitové digitálne sample a ADPCM formát. Množstvo hier takúto konfiguráciu využívalo tak, že pomocou FM syntézy sa vytvárala hudba a pomocou digitálnych samplov zase zvukové efekty – kvôli tomu, že hudba zaberala v takomto formáte oveľa menej. Na tejto zvukovej karte sa taktiež prvýkrát samostatne objavil vstup typu game port – ten sa využíval na pripojenie joysticku. Aj tu je vidno, že karta Sound Blaster (ako aj Game Blaster) sa vyvíjala s dôrazom na herný aspekt. Úspech a eventuálnu kontrolu trhu potom karte Sound Blaster zabezpečila aj oveľa nižšia cena a zároveň plná kompatibilita s kartou AdLib. To znamenalo, že všetky hry, ktoré sa vyvíjali na AdLib, fungovali aj na karte Sound Blaster. Pred spustením hry sa zvyklo na obrazovke počítača otvoriť okno, v ktorom si používateľ mohol vybrať z viacerých možností, resp. názvov zvukových kariet. Podľa toho následne hra reprodukovala zvuk. Na výber bolo často aj 4-5 možností (žiadny zvuk, základný PC speaker, Tandy 1000, AdLib, Sound Blaster a i.).
V roku 1992 vydala spoločnosť Advanced Gravis Computer Technology zvukovú kartu Gravis UltraSound. Bola to jedna z prvých kariet s wavetable syntézou, a teda mala možnosť prehrávať realistické zvuky. Ako jedna z prvých tiež mala 16-bitový a 44,1 kHz stereo zvuk, čo predstavuje štandardnú CD kvalitu. Používala proprietárny čip GF1, ktorý podporoval aj formáty MOD a MIDI. Namiesto pamäti ROM zvuky nahrával do pamäte RAM (random access memory). Paradoxne však tento čip nepodporoval FM syntézu, takže nebol kompatibilný s množstvom súdobých hier. Aj preto táto kvalitná zvuková karta ostala využívaná hlavne hudobníkmi, ktorí skladali hudbu vo formáte MIDI pod operačným systémom Windows.
Roland MT-32 od firmy Roland sa začal predávať v roku 1987 a predstavoval v podstate 32-kanálový MIDI syntetizátor. Pôvodne bol prezentovaný ako prístroj určený pre hudobníkov, avšak jeho kompatibilita a pripojiteľnosť k počítačom z neho neskôr vytvorila štandard na tvorbu počítačovej hudby. Využíval wavetable syntézu v kombinácii so subtraktívnou syntézou.
Obr. 17: Zvuková karta Roland MT-32
Subtraktívna syntéza predstavuje formu vytvárania zvuku na základe filtrov – na zvukové vlny je aplikovaný jeden alebo viacero filtrov, čiže ekvalizérov, ktoré zvýrazňujú, resp. utlmujú niektoré z frekvencií. MT-32 mal zabudovanú knižnicu s vlastnými zvukmi a digitálny dozvuk. Už viackrát spomínaná hra King´s Quest IV využívala naplno tieto kvality a neskôr k nej pribudli aj ďalšie (za všetky napríklad Police Quest, Space Quest III, Prince of Persia, 7th Guest, Beneath a Steel Sky, Mortal Kombat, Dragonsphere, Jurassic Park, Master of Orion, mnohé hry zo série Might and Magic alebo Monkey Island 2, o ktorej ešte budeme písať). Cena Rolandu však bola vzhľadom na konkurenciu niekoľkonásobná. Aj to spôsobilo, že zariadenie MT-32 neskôr ostalo hlavne v domácnostiach takzvaných „hi-end“ hráčov, teda takých, ktorí si potrpeli na kvalitu zariadení bez ohľadu na ich cenu. MT-32 využívali na prehrávanie hudby a zvukovú kartu Sound Blaster na reprodukovanie zvukových efektov. Zvukové karty na počítače sa rozvíjali aj v integrovaných zariadeniach. V 90. rokoch 20. storočia začali výrobcovia domácich počítačov inštalovať vstavané zvukové čipy s audio kodekmi (na kódovanie či dekódovanie zvuku), zabudované priamo do základných dosiek. Množstvo z nich využívalo štandardný audio kodek AC´97 od spoločnosti Intel. Začiatkom 21. storočia sa na základných doskách začali objavovať vstavané plnohodnotné zvukové karty, postupne s vylepšeným HD audio štandardom, taktiež od Intelu.
Vráťme sa však k opakovanému pojmu MIDI. Ten je dôležitý aj kvôli tomu, že v 80. rokoch bolo stále veľmi komplikované skladať hudbu do digitálnych hier. Zvukové karty a rôzne typy zvukových čipov v konzolách spôsobovali, že neexistoval jednotný systém či spôsob, ktorým by sa dalo pracovať v rámci viacerých platforiem alebo zariadení. To znamenalo, že rovnaký súbor znel vždy rozdielne na rôznych zariadeniach. Na priemernej MIDI kompatibilnej karte znela rovnaká skladba jednoducho a jednotlivé zvuky pôsobili zredukovane. Keď sa napríklad na počítači so zvukovou kartou AdLib spustila hra Doom (1993, id Software), v hudbe sme rozoznávali melódie a rytmus, ale jednotlivé nástroje neboli príliš identifikovateľné a pripomínali skôr štvorcové vlny upravené subtraktívnou syntézou. Ak sa rovnaká hra spustila so systémom Roland MT-32, zrazu sme rozoznávali metalové bicie a gitary.
Obr. 18: Rôzne typy zvukových kariet pre PC
MIDI v predĺženej forme znamená Musical Instrument Data Interface. Predstavuje univerzálny protokol, ktorý umožňuje prenos digitálnych dát a spôsob na uľahčenie komunikácie medzi rôznymi syntetizátormi a počítačmi. Bol uvedený v roku 1983 a jeho zmyslom bolo hlavne vytvoriť lepšie podmienky na komunikáciu viacerých zariadení vo zvukovom štúdiu, keďže každá firma vyrábala iné typy rozhraní a technológií. V podstate ide o posielanie, resp. výmenu dát, ktoré neprezentujú zvuky, ale skôr inštrukcie k tomu, kedy, ako dlho a s akou intenzitou či výškou treba prehrávať konkrétne zvuky (podobne ako vyššie rozoberaný formát MOD). Každá jedna MIDI nota obsahuje iba tieto informácie a všetko ostatné záleží už iba na tom, s akým zariadením práve pracujeme. Znamená to zároveň extrémne malú veľkosť súborov, čo bolo dôležité vzhľadom na to, že väčšina hier sa šírila iba na diskete či kartridži s veľmi obmedzenou kapacitou. Prvá zvuková karta do počítačov, schopná pracovať s formátom MIDI, bola Roland MPU-401 z roku 1984. Odvtedy sa MIDI začalo využívať postupne vo všetkých značkách domácich počítačov. Uvedený problém s rozdielnou kvalitou prehrávaných zvukov však spôsobil, že MIDI nie vždy znelo dobre. Na herných konzolách tento problém v takej miere neexistoval, pretože tie využívali rovnaký hardvér. Na počítačoch však mohla rovnaká hra znieť inak od domácnosti k domácnosti.
V roku 1991 spoločnosť Roland prvýkrát prezentovala štandard General MIDI (GM), ktorý čiastočne tento problém riešil (avšak nie na úrovni reprodukovanej kvality zvuku). Problém predošlej verzie MIDI spôsoboval, že skomponovaná skladba v tomto formáte mohla na jednom zariadení v istom momente prehrávať zvuk piana a na druhom napríklad flauty. GM túto otázku vyriešil tak, že štandardizoval presný počet a poradie inštrumentov. Obsahuje banku 128 zvukov a k nim má priradené špecifické číslo. Všetky zariadenia využívajúce tento štandard zároveň musia mať polyfóniu 24 hlasov (resp. zvukov). Súvisí to zároveň aj s ladením zvukov (spomeňme si na problémy s ladením zvukov pri skladaní hudby na starších čipoch PSG). GM stanovoval aj to, že notu stredné C prehráva MIDI nota č. 69 pri štandardnom ladení 440 Hz. Extenzívnejšie využívanie tohto protokolu vyriešilo aj opakovane zmieňovaný problém s komponovaním hudby – skladatelia sa mohli konečne lepšie sústrediť na klasické komponovanie pomocou kláves na rozdiel od predošlých rokov, keď museli v prvom rade vedieť programovať. Keďže prevládal názor, že 128 inštrumentov je nedostatočný počet, po čase sa General MIDI rozšírilo o ďalšie extenzie. Už v roku 1991 vznikol spätne kompatibilný štandard GS (General Standard). Ten rozširoval pôvodný GM o ďalších 98 tonálnych nástrojov, 15 perkusií, 8 typov bicích a tri audio efekty. Yamaha v roku 1994 prišla s rozšírením XG (Extended General MIDI). Počet inštrumentov zvýšila až na 480, pridala 11 druhov bicích a hlavne umožnila oveľa jemnejšie ovládanie rôznych parametrov, vďaka čomu hudobní skladatelia mohli dosiahnuť v skladbách väčšiu realistickosť a detaily. Hoci obe tieto rozšírenia sú spätne kompatibilné s General MIDI, navzájom kompatibilné nie sú. MIDI sa vylepšovalo a rozširovalo ešte viackrát a hoci ho neskôr vystriedali zvukové karty a čipy, pracujúce s reálnymi zvukmi a samplami, využíva sa doteraz.
V súčasnom kontexte môžeme o MIDI hovoriť v rámci DAW (zvukových a hudobných softvérov) ako o spôsobe vytvárania komplexných hudobných kompozícií pomocou digitálnych inštrumentov. VSTi pluginy a samplery dokážu nahradiť v podstate hocijaký inštrument a pomocou zápisu v MIDI editore – tak môžeme na jednom počítači s externou USB zvukovou kartou skomponovať celú symfóniu. MIDI v takomto prípade slúži rovnako – určuje kedy, ako a aký nástroj má hrať. Moderné inštrumenty sú vysoko realistické a jednotlivé nástroje sa nahrávajú väčšinou v profesionálnych štúdiách. Tie kvalitnejšie dokonca s takým dôrazom na detail, že napríklad jedna klávesa klavíra je nahraná v mnohých variáciách intenzity, s možnosťou zapnutia či vypnutia sustain pedálu (ktorý slúži na predĺženie dozvuku tónov) a podobne. Samozrejme, tu už nemožno hovoriť o zaberaní malého miesta na disku. Z hľadiska digitálnych hier je to dôležité, pretože hudba sa neskôr začala skladať takmer výlučne pomocou DAW – technológia totiž stále umožňuje jednoduché slučkovanie a v kombinácii s programami tzv. middleware potom vznikajú komplexné adaptívne kompozície. V spojitosti so slučkovaním treba spomenúť aj jeden z technologicky najvýznamnejších programov vytvorených v kombinácii s MIDI – iMUSE.
Hudobný systém iMUSE (interactive Music Streaming Engine) vznikol okolo roku 1991 v spoločnosti LucasArts19. Išlo o doplnok k ich vlastnému hernému enginu SCUMM (Script Creation Utility for Maniac Man-sion). Pôvodne vznikol z dôvodu vývoja adventúry Maniac Mansion z roku 1987, následne ho ale v spoločnosti LucasArts začali využívať aj na ďalšie hry (Loom, Day of the Tentacle, Full Throttle, The Dig, hry zo série Indiana Jones a mnohé iné). iMUSE navrhli hudobní skladatelia Michael Land a Peter McConnell v čase, keď vznikala v LucasArts hra Monkey Island 2: LeChuck´s Revenge (1991). Chceli vytvoriť hudbu, ktorá by lepšie dokresľovala atmosféru a reagovala na udalosti v hre. Vychádzali z problému nelineárnosti tohto média – tvorca hry vie, čo sa stane, ale málokedy dokáže predvídať, kedy sa to stane. Rôzne zvukové a hudobné javy v hre (napríklad prechody, tranzície do iných miestností či úrovní) boli často odstrihnuté ostro, nie veľmi esteticky, čo znižovalo imerziu.
iMUSE tento problém riešil pomocou integrácie sekvencií MIDI, obohatených o špecifické značky (resp. markery) v rámci kompozície. Tieto body predstavovali ukazovatele „smeru“, ktorým sa hudba mala uberať, pretože neustále snímali stav rôznych parametrov v rámci herného sveta. Keď hráč napríklad klikol na prechod do novej lokácie, hudba bez prerušenia pokračovala ďalej k najbližšiemu bodu tranzície. Ten trval vždy maximálne 4 sekundy. Systém zvládol aj rýchle striedanie lokácií.