Modern mikroprocesszorok az AMD-től. Modern mikroprocesszorok az AMD-től Hogyan szerezzünk magas frekvenciákat

1. Bemutatkozás
2. Processzorok 80x86 architektúrával és Pentium, Pentium II, Pentium III

4. A MIPS technológia R4000 családjának MIPS architektúrájának processzorai
5. A Sun Microsystems SPARC architektúrájú processzorai
6. A Hewlett-Packard PA-RISC architektúrájú processzorai,
7. Irodalomjegyzék.

1. Bemutatkozás.

Tehát ebben a tesztben a következő kérdésre kell kitérni.

Modern mikroprocesszorok

1. Processzorok 80x86 architektúrával és Pentium, Pentium II, Pentium III
2. A DEC Alpha architektúrájának jellemzői
3. Az IBM POWER architektúrája és a Motorola, Apple és IBM PowerPC jellemzői.

Ennek a kérdésnek a lefedésekor azonban nem lehet figyelmen kívül hagyni:

A MIPS architektúra R4000 családjának processzorai a MIPS-től

Processzorok SPARC architektúrával a Sun Microsystemstől

A Hewlett-Packard PA-RISC architektúrájú processzorai, bár ezeket a processzorokat ebben a munkában nem tárgyaljuk részletesen.

Ez a munka elemző információkat nyújt ezen architektúrák processzorairól.

Ez a munka nem ad elő abszolút nézeteket és véleményeket.

2. Processzorok 80x86 architektúrával és Pentium, Pentium II, Pentium III.

Tehát először egy kis történelem: Intel architektúra 8086 – 1978

1978-ban jelentették be az Intel 8086 architektúrát, mint az akkoriban sikeres 8 bites 8080 mikroprocesszor felfelé kompatibilis kiterjesztését. A 8086 egy 16 bites architektúra, minden belső regiszter 16 bit szélességű. A 8080-as mikroprocesszor egyszerűen egy akkumulátor köré épült, de a 8086-os architektúra további regiszterekkel bővült. Mivel ebben az architektúrában szinte minden regiszternek megvan a sajátos célja, a 8086 részben akkumulátor, részben pedig regisztergépek közé sorolható. Általános rendeltetésű, és nevezhetjük kiterjesztett akkumulátoros gépnek. A 8086-os mikroprocesszor (pontosabban a 8-bites külső busszal ellátott 8088-as verziója) lett az alapja a később az egész világot meghódító IBM PC számítógépek sorozatának, amelyen fut operációs rendszer
MS-DOS.

A 8087-es lebegőpontos koprocesszort 1980-ban jelentették be. Ez az architektúra a 8086-ot közel 60 lebegőpontos utasítással bővítette ki. Az építészek elhagyták a kiterjesztett akkumulátorokat, hogy létrehozzák a veremek és a regiszterek egyfajta hibridjét, lényegében egy kiterjesztett verem architektúrát. A verem utasítások teljes készletét egy korlátozott számú regiszter-memória utasítás egészíti ki.

1982-ben jelentették be a 80286-os mikroprocesszort, amely tovább bővítette a 8086-os architektúrát egy komplex memóriakiosztási és -védelmi modell létrehozásával, a címteret 24 bitesre bővítette, és kis számú további utasítással egészítette ki. Mivel nagyon fontos volt annak biztosítása, hogy a 8086-ra kifejlesztett programok módosítás nélkül fussanak,
A 80286-os valódi címmóddal rendelkezett, így a gép szinte 8086-osra hasonlított. 1984-ben az IBM bejelentette ennek a processzornak a használatát az új IBM PC/AT személyi számítógépek sorozatában.

1987-ben bemutatták a 80386 mikroprocesszort, amely a 80286 architektúrát 32 bitesre bővítette. A 32 bites regiszterekkel és 32 bites címtérrel rendelkező 32 bites architektúra mellett a mikroprocesszor
A 80386 új címzési módokat és további műveleteket vezetett be. Mindezek a bővítmények a 80386-ot olyan géppé varázsolták, amely ideológiailag közel áll az általános célú regiszterekkel rendelkező gépekhez. A memóriaszegmentációs mechanizmusok mellett a 80386-os mikroprocesszor a memória lapozását is támogatja. A 80286-hoz hasonlóan a 80386-os mikroprocesszorban is van mód a 8086-hoz írt programok végrehajtására. Bár akkoriban az MS-DOS maradt az alap operációs rendszer ezeknél a mikroprocesszoroknál, a 32 bites architektúra és a memórialapozás szolgált a UNIX portolásának alapjául. operációs rendszert erre a platformra. Fel kell idézni
Viktor Vladilenovich szerint a XENIX operációs rendszert a 80286-os processzorhoz hozták létre, de a UNIX-ot nem használták a 286-on (legalábbis „az én memóriámban”).

Ez a történet azt szemlélteti, hogy milyen hatással van a 80x86-os kompatibilitás biztosítására, mivel a meglévő szoftverbázis minden lépésnél túl kritikus volt. Szerencsére a következő processzorok (1989-ben a 80486 és 1993-ban a Pentium) a teljesítmény növelésére összpontosítottak, és csak három új paranccsal bővítették a felhasználó által látható utasításkészletet, hogy megkönnyítsék a többfeldolgozást. Bármit is mondjunk a 80x86-os architektúra kellemetlenségeiről, szem előtt kell tartani, hogy ez uralja a személyi számítógépek világát. A telepített kis rendszerek csaknem 80%-a erre az architektúrára épül. A CISC és RISC architektúrák előnyeiről szóló vita fokozatosan alábbhagy, mivel a modern mikroprocesszorok mindkét megközelítés legjobb tulajdonságait igyekeznek beépíteni. A régóta elavult, de mégis aktívan használt i486 processzorcsalád (468SX, 486DX, 486DX2 és 486DX4), amely megőrizte az i386 processzor utasításrendszerét és címzési módszereit, már rendelkezik a RISC mikroprocesszorok tulajdonságaival. Például a legáltalánosabb parancsokat egy órajel ciklusban hajtják végre. A processzorok teljesítményének értékelésére az Intel egy speciális jellemzőt vezetett be, az iCOMP minősítést. A cég abban reménykedett, hogy ez a jellemző standard benchmark lesz, és más mikroprocesszor-gyártók is használni fogják, utóbbiak azonban érthetően óvakodtak az Intel teljesítménymérő rendszerétől, és jó okkal.

Ha összehasonlítjuk az i486SX-25-öt és a Pentium-133-at, akkor teljesítményük az iCOMP értékelése szerint 1:12 volt. Ami persze azt jelezte, hogy a teljesítménynövekedést nem a processzor órajelének növelésével és a mag „kozmetikai nyalogatásával” sikerült elérni. Tehát nézzük meg őket egy kicsit részletesebben.

Az i486SX és i486DX processzorok 32 bites processzorok, belső 8 KB gyorsítótárral és 32 bites adatbusszal. A fő különbség köztük az, hogy az i486SX processzor nem rendelkezik integrált lebegőpontos társprocesszorral. Ezért alacsonyabb az ára, és olyan rendszerekben használják, amelyeknél a valós számok feldolgozásakor a teljesítmény nem túl fontos. Ezek a rendszerek általában külső i487SX társprocesszorral bővíthetők. Az Intel OverDrive és az i486DX2 processzorok szinte azonosak. Az OverDrive die-nek azonban van egy csomagja, amely az i486SX alapú PC-kben használt i487SX koprocesszor bővítő foglalatba telepíthető. Az OverDrive és az i486DX2 processzorok belső órajel-duplázó technológiát alkalmaznak a processzor teljesítményének közel 70%-os növelése érdekében. Az i486DX4/100 processzor órajel-frekvencia-háromszoros technológiát használ. 99 MHz-es belső órajelen működik, míg a külső órajel (az a frekvencia, amelyen a külső busz fut) 33 MHz. Ez a processzor közel azonos képességeket biztosít a 60 MHz-es osztályú gépekkel
A Pentium teljes értékű és megfizethető alternatívájuk.

Az 1993-ban megjelent Pentium processzor új állomást jelentett az x86 architektúra fejlődésében, ami a processzorok számos tulajdonságának a RISC architektúrához való adaptálásával járt. 0,8 mikronos BiCMOS technológiával gyártják, ami a modern időkben nevetséges, és 3,1 millió tranzisztort tartalmaz. Az eredeti megvalósítást úgy tervezték, hogy 60 és 66 MHz-es órajelen működjön. Jelenleg elérhető processzorok
A Pentium 75, 90, 100, 120, 133, 150, 200 órajelen működik,
233 MHz. A Pentium processzor számos továbbfejlesztett tulajdonsággal rendelkezik elődeihez képest. Főbb jellemzői: kétszálú szuperskaláris szervezés, amely lehetővé teszi egy pár egyszerű parancs párhuzamos végrehajtását; két független, kétcsatornás többszörös asszociatív gyorsítótár jelenléte az utasításokhoz és az adatokhoz, amelyek minden ciklusban két művelet adatmintavételét biztosítják; dinamikus átmenet előrejelzése; 8 fokozatú lebegőpontos eszköz csővezetékes szervezése; bináris kompatibilitás a meglévő 80x86-os család processzoraival.

A Pentium processzor blokkvázlata az 1. ábrán látható. Mindenekelőtt ennek a processzornak az új mikroarchitektúrája a szuperskaláris feldolgozás elvén alapul (bár bizonyos korlátozásokkal). A fő parancsok két független működtető egység között vannak elosztva (U és V szállítószalag). Az U-folyamat bármilyen x86-os utasításcsaládot képes végrehajtani, beleértve az egész és a lebegőpontos utasításokat. A V csővezeték egyszerű egész számú utasítások és néhány lebegőpontos utasítás végrehajtására szolgál. A parancsok mindegyikre egyidejűleg is küldhetők, és amikor a vezérlőeszköz egy órajel-ciklusban parancspárt ad ki, a bonyolultabb parancs az U, a kevésbé összetett pedig a V-folyamatba kerül.
A parancsok ilyen páronkénti kiadása csak az egész számú parancsok korlátozott részhalmazára lehetséges. A lebegőpontos aritmetikai utasítások nem futtathatók egész számú utasításokkal együtt. Két parancs egyidejű kiadása csak akkor lehetséges, ha nincsenek regiszterfüggőségek. Amikor egy parancs bármilyen okból leáll az egyik szállítószalagon, általában a második szállítószalag is leáll, ami után a számítógép boldogan lefagy.

A fennmaradó processzor eszközöket úgy tervezték, hogy a szükséges parancsokkal és adatokkal látják el a csővezetékeket. Ellentétben az i486 processzorokkal Pentium processzor Különálló, 8 KB kapacitású parancs- és adatgyorsítótárat használnak, amely biztosítja a független hozzáférést. Egy óraciklus alatt minden cache memóriából két szó olvasható ki. Az adatgyorsítótár ebben az esetben a kettős rétegezés elvén épül fel, amely biztosítja az azonos cache memória sorba tartozó két szó egyidejű olvasását.
A parancsgyorsítótár egyszerre három címkét tárol, ami lehetővé teszi, hogy egy óraciklus alatt két parancsszót olvassunk ki, amelyek vagy ugyanahhoz a sorhoz, vagy szomszédos sorokhoz tartoznak, így biztosítva a parancsok páronkénti kiadását, míg a címkék harmadik példányát szervezzen egy protokollt a gyorsítótár-memória állapotának koherenciájának figyelésére. A gyorsítótár újratöltési hatékonyságának javítása érdekében a processzor 64 bites külső adatbuszt használ

A processzor MÁR rendelkezik egy mechanizmussal az átmenetek irányának dinamikus előrejelzésére. Ebből a célból a chip egy kis gyorsítótárat tartalmaz, amelyet elágazó célpuffernek (BTB) neveznek, és két független pár utasítás-előletöltési puffert (folyamatonként két 32 bites puffer). Az ági célcím puffer az előzetes letöltési pufferekben lévő utasítások címeit tárolja. Az előzetes letöltési pufferek működése úgy van megszervezve, hogy adott időpontban az utasítások csak a megfelelő pár egyik pufferébe kerüljenek be. Ha egy elágazási műveletet észlel az utasításfolyamban, a kiszámított ágcímet összehasonlítja a pufferben tárolt címekkel.
BTB. Ha van egyezés, az elágazás előrejelzése megtörténik, és egy másik előzetes letöltési puffer engedélyezve van, és megkezdi a parancsok kiadását a megfelelő folyamathoz végrehajtás céljából. Ha eltérés van, akkor a rendszer feltételezi, hogy az ág nem kerül végrehajtásra, és az előzetes letöltési puffer nem vált át, folytatva a normál parancskiadási sorrendet. Ez lehetővé teszi a szállítószalagok leállásának elkerülését az átmenet irányának helyes előrejelzésével. A végső döntés az átmenet irányáról természetesen a feltételkód elemzése alapján születik. Ha az előrejelzés helytelenül történik, a folyamatok tartalma törlődik, és a parancsok kiadása a kívánt címről kezdődik. A hibás előrejelzés a szállítószalagok felfüggesztéséhez vezet 3-4 ciklusra. Megjegyzendő, hogy a Pentium processzor megnövekedett teljesítménye megkövetelte az erre épülő rendszer megfelelő megszervezését is. Az Intel ehhez az összes szükséges lapkakészletet kifejlesztette és szállította. Mindenekelőtt L2 gyorsítótárra van szükség ahhoz, hogy a sebességet a dinamikus főmemóriával egyezzen meg. A 82496-os gyorsítótár-vezérlő és a 82491-es statikus memóriachipek ilyen 256 KB-os gyorsítótárat biztosítanak, és órajelek nélkül futtatják a processzort. A rendszerek hatékony rendszerezése érdekében az Intel kifejlesztett egy szabványt a nagy teljesítményű PCI helyi buszhoz.
Chipkészleteket gyártanak nagy teljesítményű számítógépek építéséhez az alapján.

A Pentium vonalat folytató következő processzor a P6 ill
PentiumPro. 150:166:180 és 200 MHz órajelen működik.
A PentiumPro teljes kompatibilitást biztosít a processzorok korábbi generációival. Elsősorban a nagy teljesítményű 32 bites számítástechnika támogatására tervezték CAD, 3D grafika és multimédiában: és széleskörű kereskedelmi adatbázis-alkalmazások. SPEC tesztek vizsgálati eredményei alapján (8.58 SPECint95 és 6.48
SPECfp95), a PentiumPro processzor jelenleg a harmadik helyen áll a világranglistában az egész műveletek teljesítményét tekintve, csak a 180 MHz-es HP PA-8000 és a 400 MHz-es DEC Alpha mögött (2. ábra). Az ilyen teljesítmény eléréséhez olyan műszaki megoldásokat kell használni, amelyeket széles körben használnak a RISC processzorok felépítésében:

2. ábra. parancsok végrehajtása nem a program által előírt sorrendben, ami sok esetben kiküszöböli a csővezetékek felfüggesztését a műveletek operandusaira való várakozás miatt; regiszter átnevezési technikával, amely lehetővé teszi a regiszterfájl tényleges méretének növelését (a regiszterek kis száma az x86 architektúra egyik szűk keresztmetszete); a szuperskaláris képességek bővítése a Pentium processzorral kapcsolatban, amely csak két parancs egyidejű kiadását teszi lehetővé, ezek kombinációinak meglehetősen szigorú korlátozása mellett.

Emellett az új generációs x86-os processzorokért harcba szálltak azok a cégek, amelyek korábban Intel-kompatibilis processzorokat gyártottak.
Ezek a cégek az Advanced Micro Devices (AMD), a Cyrix Corp és a NexGen. Mikroarchitektúrát tekintve a cég M1-es processzora áll a legközelebb a Pentiumhoz
Cyrix, amely a közeljövőben megjelenik a piacon. Szintén
A Pentium két csővezetékkel rendelkezik, és akár két utasítást is végrehajthat egy órajelben. Az M1 processzorban azonban jelentősen megnő azoknak az eseteknek a száma, amikor a műveletek párban hajthatók végre. Ezen túlmenően bypass és adatgyorsítási technikákat alkalmaz, hogy sok olyan helyzetben kiküszöbölje a csővezeték leállását, amelyet nem tud kezelni.
Pentium. A processzor 32 fizikai regisztert tartalmaz (az x86 architektúra által biztosított 8 logikai regiszter helyett), és regiszter átnevezési technikát alkalmaz az adatfüggőségek kiküszöbölésére. Mint a Pentium, a processzor
Az M1 egy 256 elemű elágazási célokat tartalmazó puffert használ az elágazás irányának előrejelzésére, de fenntart egy speciális visszatérési veremet is, amely nyomon követi az eljáráshívásokat és az azt követő visszatéréseket.

Az AMD K5 és NexGen Nx586 processzorai teljesen más megközelítést alkalmaznak. Processzoraik alapja egy nagyon gyors RISC mag, amely rendkívül szabályos műveleteket hajt végre szuperskalár módban. A belső utasításformátumok (ROP az AMD-hez és RISC86 a NexGen-hez) megfelelnek a RISC processzorok hagyományos utasításrendszereinek. Minden parancs azonos hosszúságú, és normál formátumban vannak kódolva. A memória elérését speciális betöltési és írási parancsok hajtják végre. Mint tudják, az x86 architektúra nagyon összetett utasításrendszerrel rendelkezik a dekódoláshoz. K5-ben és
Az Nx586 megvalósítja az x86 parancsok hardveres fordítását belső formátumú parancsokká, ami jobb feltételeket biztosít a számítások párhuzamosításához. A K5 processzor 40, az Nx586 processzor 22 fizikai regiszterrel rendelkezik, amelyek megvalósítják az átnevezési technikát. A K5 processzorban az elágazás irányának előrejelzéséhez szükséges információkat közvetlenül az utasítás-gyorsítótárba írják, és minden gyorsítótár-sorral együtt tárolják. A processzorban
Az Nx586 96 elemből álló ugrócím-gyorsítótárat használ erre a célra.

Így az Intelnek nincs monopóliuma a nagy teljesítményű x86-os processzorok tervezési módszereivel kapcsolatban. Megjegyzendő, hogy maga az Intel is stratégiai megállapodást kötött a céggel
A Hewlett-Packard kifejleszti a mikroprocesszorok következő generációját, amely egyesíti az x86 architektúrát a Very Long Instruction Word (VLIW) architektúrával.

Most pedig simán áttérünk a Pentium II-re.

Az Intel és a Hewlett-Packard számára nem volt „Y2K probléma” – számukra ez az új lehetőségek éve volt. 1999 végén az Intel bemutatta a Mercedet, az első processzort, amely a két vállalat által közösen kifejlesztett következő generációs architektúrával készült.
Bár ez a 64 bites architektúra több éves kutatáson alapul
Intel, HP, más cégek és egyetemek, gyökeresen különbözik mindentől, amit előtte a piacon bemutattak.

Ez az architektúra, az Intel Architecture-64 (IA-
64), teljesen „szakított a múlttal”. Az IA-64 nem az Intel 32 bites x86 architektúrájának 64 bites kiterjesztése, és nem is az
HP 64 bites PA-RISC architektúra. Az IA-64 valami teljesen új – egy élvonalbeli architektúra, amely hosszú utasításszavakat (LIW), utasítás predikációt, elágazás megszüntetést, spekulatív betöltést és egyéb trükköket használ.
"kivonat több párhuzamosságot" a programkódból.

A kompatibilitást illetően érdemes megjegyezni, hogy a Mercedben valójában két parancsdekódolási mód van: a VLIW és a régi CISC. Azok. a programok a kívánt végrehajtási módba kapcsolnak. Az x86 architektúrában számos parancsot adtak hozzá az új módba váltáshoz, valamint az adatok átviteléhez. Az IA-64 natívan rendelkezik ilyen parancsokkal. Mielőtt belemerülnénk a technikai részletekbe, próbáljuk megérteni, hogy az Intel és a HP miért vállalta a kockázatot az ilyen drasztikus változtatások végrehajtásával. Az ok ebben rejlik: úgy gondolják, hogy a CISC és a RISC architektúrák is bejárták a maguk útját.

Rövid kirándulás a múltba. Az Intel x86 architektúrája egy CISC architektúra, amely 1978-ban jelent meg. Akkoriban a processzorok skaláris eszközök voltak (vagyis egyszerre csak egy utasítást tudtak végrehajtani), és gyakorlatilag nem léteztek csővezetékek. A processzorok több tízezer tranzisztort tartalmaztak.

A HP PA-RISC-jét 1986-ban fejlesztették ki, amikor a szuperskaláris csővezeték-technológia még csak kezdett kiforrotni. A processzorok több százezer tranzisztort tartalmaztak. A 90-es évek végén a legfejlettebb processzorok több millió tranzisztort tartalmaztak. Mire a Merced elkezdte gyártani, az Intel a jelenlegi 0,25 mikronos technológia helyett 0,18 mikronos technológiára váltott. Már az első IA-64 architektúra chipek több tízmillió tranzisztort tartalmaztak.

A problémát tovább bonyolítja, hogy a memóriachipek nem tudnak lépést tartani a processzorok órajelével. Amikor az Intel kifejlesztette az x86-os architektúrát, a processzor olyan gyorsan tudott adatokat gyűjteni a memóriából, ahogyan azokat feldolgozta. A mai processzor több száz órajelet tölt azzal, hogy betöltse az adatokat a memóriából, annak ellenére, hogy nagy, gyors gyorsítótárral rendelkezik.
Az IA-64 formátumú parancsok hármat egy 128 bites csomagba csomagolnak a leggyorsabb feldolgozás érdekében. Ezt általában "LIW kódolásnak" nevezik. (Nehéz orosz analógot találni. Véleményem szerint a legmegfelelőbb fordítás a „hosszú parancsszavakba kódolás”.) Az Intel azonban kerüli ezt a nevet, és kijelenti, hogy „negatív konnotációkat” társítanak hozzá.
Ugyanebből az okból kifolyólag az Intel nem szereti magát az utasításokat RISC-szerűnek nevezni, pedig fix hosszúságúak, és állítólag egyciklusos végrehajtásra optimalizálták egy mikrokódot nem igénylő magban. Az Intel előszeretettel nevezi új LIW technológiáját kifejezetten párhuzamos utasításszámításnak, vagy EPIC-nek.
Az utasítások kifejezett párhuzamossága, ahol az „explicit” azt jelenti, hogy a fordítás során kifejezetten meg van adva). Mindenesetre az IA-64 parancsformátumnak semmi köze az x86-hoz. Az x86-os utasítások 8-108 bites hosszúságúak lehetnek, és a processzornak minden utasítást szekvenciálisan dekódolnia kell, miután meghatározta a határait.
Minden 128 bites csomag tartalmaz egy, a fordító által belehelyezett, több bites sablont, amely megmondja a processzornak, hogy mely utasításokat lehet párhuzamosan végrehajtani. Mostantól a processzornak nem kell elemeznie az utasításfolyamot a végrehajtás során, hogy azonosítsa a „rejtett párhuzamosságot”. Ehelyett a fordító észleli a párhuzamosság jelenlétét, és elhelyezi az információt a programkódban. Minden utasítás (egész és lebegőpontos) három 7 bites általános célú regiszter (GPR) mezőt tartalmaz. Ebből következik, hogy az IA-64 processzorok 128 egész számú RON-t és 128 regisztert tartalmaznak a lebegőpontos számításokhoz. Mindegyik elérhető a programozó számára, és a programozó által látható véletlen hozzáférésű regiszterek. Az x86-os processzorokhoz képest, amelyeknek mindössze nyolc egész számú RON-ja és 8-as mélységű verem van a lebegőpontos számításokhoz, az IA-64 sokkal „szélesebb”, és ennek megfelelően sokkal kevésbé valószínű, hogy tétlen lesz.
"nyilvántartások hiánya".
Az IA-64 fordítói "megjelölt utasítás" technológiát fognak használni
(predikáció) a hibásan előrejelzett ágakból és az elágazások utáni kódszakaszok átugrása miatti teljesítményveszteségek kiküszöbölésére. Amikor a processzor egy "megjelölt" ággal találkozik a program végrehajtása során, akkor az összes ágat egyszerre kezdi végrehajtani. Az "igazi" ág meghatározása után a processzor eltárolja a szükséges eredményeket, a többit pedig eldobja.
Az IA-64 fordítói a forráskódot is átvizsgálják, hogy megtalálják a memóriaadatokat használó utasításokat. Miután találtak egy ilyen parancsot, hozzáadnak néhány parancsot - egy előtöltési parancsot (spekulatív betöltés) és egy betöltési ellenőrzést (spekulatív ellenőrzés). A program végrehajtása során az első utasítás betölti az adatokat a memóriába, mielőtt a programnak szüksége lenne rá. A második parancs ellenőrzi, hogy a letöltés sikeres volt-e, mielőtt engedélyezi a program számára az adatok használatát.
Az előzetes letöltés csökkentheti a memóriaelérési késleltetés miatti teljesítményveszteséget, és növelheti az egyidejűséget is.

3. A DEC Alpha architektúrájának jellemzői

Jelenleg az Alpha mikroprocesszor-családot több olyan chip képviseli, amelyek különböző teljesítménytartományokkal rendelkeznek, eltérő órajelen működnek és eltérő teljesítményt adnak le. A 64 bites Alpha mikroprocesszor jelent meg először a piacon.
(DECchip 21064) . Ez egy egychipes RISC processzor, amely egész számokat és lebegő aritmetikai eszközöket, valamint 16 KB-os gyorsítótárat tartalmaz. A kristályt úgy tervezték meg, hogy figyelembe vették a termelékenység növelésére szolgáló fejlett módszerek megvalósítását, beleértve az összes funkcionális eszköz csővezetékes szervezését, több parancs egyidejű kiadását a végrehajtáshoz, valamint a szimmetrikus többfeldolgozás megszervezéséhez szükséges eszközöket. A chipnek két regiszterfájlja van, mindegyik
32 db 64 bites regiszter: egy egész számokhoz, egy lebegőpontos számokhoz. A MIPS és VAX architektúrákkal való kompatibilitás biztosítása érdekében az Alpha architektúra az IEEE 754 szabvány és a vállalat belső VAX aritmetikai szabványa szerint egyaránt támogatja az egyszeres és kettős pontosságú aritmetikát. A legerősebb processzormodell, a 21064 200 MHz-en működik. 1993 végén megjelent a kristály továbbfejlesztett változata - a 21064A modell, amely dupla méretű gyorsítótárral rendelkezik a kristályon, és 275 MHz órajelen működik.
Ezután megjelentek a 21066 és 21068 modellek, amelyek a 166-os és 66-os frekvencián működtek.
MHz. Megkülönböztető tulajdonság Az Alpha processzorok ezen ága a PCI busz chipen belüli megvalósítása. Ez jelentősen leegyszerűsíti és csökkenti a számítógépek tervezésének és gyártásának költségeit. A 21068-as modell megkülönböztető jellemzője az alacsony energiafogyasztás (körülbelül 8 watt). Ennek a két új modellnek a fő célja a személyi számítógépek és az egylapos számítógépek. A 3. ábra a mikroprocesszor blokkvázlatát mutatja
21066. Ennek a processzornak a fő összetevői: utasítás-gyorsítótár, egészszámú eszköz, lebegőpontos eszköz, betöltő/író eszköz, adatgyorsítótár, memóriavezérlő és I/O vezérlő.

Az utasítás-gyorsítótár egy közvetlenül leképezett gyorsítótár, amelynek kapacitása:
8 KB. Az ebből a cache-memóriából kiválasztott utasítások párban adhatók ki végrehajtásra az egyik végrehajtó eszközön. A 8 KB-os adatgyorsítótár közvetlen leképezett gyorsítótárat is megvalósít. Amikor a memória írása történik, az adatok egyszerre íródnak ebbe a gyorsítótárba és az írási pufferbe. A memóriavezérlő vagy a PCI busz I/O vezérlő kezeli az összes hozzáférést, amely a chip L1 gyorsítótárán halad át. A memóriavezérlő először a külső, második szintű gyorsítótár tartalmát ellenőrzi, amely a közvetlen leképezés elvén épül fel, és írási műveletek végrehajtása során egy lusta másolás-visszamásolási algoritmust valósít meg. Ha hiányzást észlel, a vezérlő hozzáfér a fő memóriához a megfelelő gyorsítótár-sorok újratöltéséhez. A PCI busz I/O vezérlő kezeli az összes I/O-val kapcsolatos forgalmat. A központi processzor vezérlése alatt programozható bemeneti/kimeneti műveleteket hajt végre. A PCI busz DMA forgalmat a PCI vezérlő dolgozza fel a memóriavezérlővel együtt. DMA olvasási/írási műveletek végrehajtásakor az adatok nem kerülnek az L2 gyorsítótárba. A memória és a PCI interfészek kifejezetten egyprocesszoros konfigurációkhoz készültek, és nem támogatják a többprocesszoros architektúrák megvalósítását.
A 4. ábra egy mikroprocesszorra épített rendszer példáját mutatja be
21066. A bemutatott konfigurációban a memóriavezérlő mind a statikus memóriához, amely a második szintű gyorsítótárat valósítja meg, mind a dinamikus memóriához hozzáfér, amelyre a fő memória épül.
A címkék és adatok második szintű gyorsítótárban való tárolásához azonos olvasási és írási hozzáférési idővel rendelkező statikus memóriakristályokat használnak.

Magassebesség PCI busz számos vonzó tulajdonsággal rendelkezik. Amellett, hogy közvetlen memóriaeléréssel és programozható I/O-val dolgozik, speciális konfigurációs ciklusokat tesz lehetővé, 64 bitesre bővíthető, tápfeszültséggel működő alkatrészek
3,3 és 5 V, valamint gyorsabb órajel. Az alap PCI busz megvalósítás támogatja a cím- és adatmultiplexelést, és 33-on működik
MHz, 132 MB/s maximális adatátviteli sebességet biztosítva. Gumi
A PCI-t közvetlenül a mikroprocesszor vezérli. A 4. ábra néhány nagy sebességű perifériát mutat be: grafikus kártyák, SCSI vezérlők és hálózati adapterek, közvetlenül a buszhoz csatlakozik
PCI. Az ISA bridge interfész chip lehetővé teszi alacsony sebességű eszközök, például modem, flop stb. csatlakoztatását a rendszerhez. Később a processzort a modernizált változatra cserélték. Elődjéhez hasonlóan az új Alpha 21066A matrica a PCI interfészen kívül integrált memóriavezérlőt és grafikus gyorsítót is tartalmaz a matricán. Ezek a jellemzők jelentősen csökkenthetik az Alpha 21066A alapú rendszerek megvalósításának költségeit, valamint egyszerű és olcsó hozzáférést biztosítanak a külső memóriához és perifériás eszközök. Az Alpha 21066A frekvencia szerint két módosítással rendelkezik: 100 MHz és 233 MHz. A 233 MHz-es modell a tesztek szerint 94, illetve 100 egység teljesítményt nyújt
SPECint92 és SPECfp92. Az Alpha 21164 mikroprocesszor az Alpha architektúra második teljesen új megvalósítása. Az 1994 szeptemberében bemutatott 21164 mikroprocesszor 330 ill
500 egység a SPECint92 és SPECfp92 skálán, vagy körülbelül 1200
MIPS és legfeljebb négy utasítást hajt végre órajelenként. A 21164-es mikroprocesszoros chip körülbelül 9,3 millió tranzisztort tartalmaz, amelyek többsége a gyorsítótárat alkotja. A kristály a DEC 0,5 mikronos CMOS technológiájára épül. 499 tűs PGA-csomagokba van összeszerelve (205 érintkezővel az áramellátáshoz és a földeléshez), és 50 W-ot disszipál 3,3 V tápfeszültség mellett 300 MHz-en.
A 0,35 mikronos CMOS technológiára 1996-ban történt átállás a processzor órajelének és teljesítményének további növelését eredményezte.
A 21164-es processzorok 366 MHz-en jelentek meg (11,3 SPECint95,
15,4 SPECfp95) és 433 MHz (13,3 SPECint95, 18,3 SPECfp95). 1996 végén megkezdődött a 21164 tömeges szállítása 500 MHz órajellel (15,4
SPECint95, 21.1 SPECfp95). Így 1996-ban A DEC-nek volt a legerősebb processzora, 2 milliárd művelet/másodperc csúcsteljesítményével.

Kulcspontok a megvalósításhoz nagy teljesítményű egy szuperskaláris processzormód, amely órajelenként legfeljebb négy utasítást ad, egy nagy teljesítményű, nem blokkoló memória alrendszer nagy sebességű L1 gyorsítótárral, nagy chipen lévő L2 gyorsítótárral és csökkentett késleltetési műveletekkel minden funkcionális eszközön. Az 5. ábra egy processzor blokkvázlatát mutatja, amely öt funkcionális eszközt tartalmaz: egy utasításfolyam-vezérlő egységet (IBOX), egy egész szám egységet (EBOX) és egy lebegőpontos egységet.
(FBOX), memóriakezelő egység (MBOX) és gyorsítótár- és buszkezelő egység (CBOX). Az ábrán három chipen belüli gyorsítótár is látható. Az utasítás-gyorsítótár és az adatgyorsítótár a közvetlen leképezést megvalósító elsődleges gyorsítótár.
A többszörös asszociatív L2 gyorsítótár utasítások és adatok tárolására szolgál. A 21164-es processzor csővezetékek hossza változó
7 fokozat az egész számú utasítások végrehajtására és 9 fokozat a lebegőpontos utasítások végrehajtására, legfeljebb 12 fokozat a memóriaelérési utasítások végrehajtására a chipen, és változó számú fokozat a memóriaelérési utasítások végrehajtására a chipen kívül. Az utasításfolyamat-vezérlő eszköz lekéri és dekódolja az utasításokat az utasítás-gyorsítótárból, és végrehajtásra irányítja azokat a megfelelő végrehajtási egységekhez, miután az összes regiszter- és funkcionális egység-ütközést feloldották.
Felügyeli a programvégrehajtást és a kivétel-, csapda- és megszakításkezelés minden aspektusát. Ezenkívül biztosítja az összes működtető vezérlését, felügyeli az adatokat megkerülő és a regiszterfájlba író áramköröket. A vezérlőeszköz egy 8 KB-os utasítás-gyorsítótárat, utasítás-előletöltő áramköröket és a kapcsolódó újratöltési puffert, feltételes elágazási irány előrejelző áramköröket és egy utasításfordító puffert (ITB) tartalmaz. Az egész számú végrehajtási egység egész számú utasításokat hajt végre, virtuális címeket számít ki az összes betöltési és írási utasításhoz, végrehajtja az egész számú feltételes elágazási utasítást és az összes többi vezérlő utasítást. Tartalmaz egy regiszterfájlt és több funkcionális eszközt, amelyek két párhuzamos szállítószalag négy fokozatán helyezkednek el. Az első csővezeték egy összeadót, egy logikai műveleti egységet, egy váltót és egy szorzót tartalmaz. A második folyamat egy összeadót, egy logikai műveleti eszközt és egy vezérlőparancsok végrehajtására szolgáló eszközt tartalmaz.

A lebegőpontos eszköz két folyamatban lévő végrehajtási egységből áll: egy hozzáadási folyamatból, amely az összes lebegőpontos utasítást végrehajtja, kivéve a szorzási utasításokat, és egy szorzási folyamatból, amely a lebegőpontos szorzási utasításokat hajtja végre. Két dedikált betöltési folyamat és egy adatírási folyamat lehetővé teszi a betöltési/írási utasítások párhuzamos végrehajtását a lebegőpontos műveletekkel.
A szabványok által biztosított összes kerekítési mód hardveresen támogatott
IEEE és VAX.

A memóriakezelő eszköz végrehajtja az összes betöltési, írási és akadály-szinkronizálási parancsot. Tartalmaz egy teljesen asszociatív 64 soros címfordító puffert (DTB), egy 8 KB-os közvetlen leképezésű adatgyorsítótárat, egy hiányzó címfájlt és egy írási puffert. Az adatgyorsítótár sorhossza 32 bájt, két olvasási portja van, és átírási alapon valósul meg. Fizikai címbitek indexelik, és a fizikai címeket címkékben tárolják. A memóriakezelő eszköz legfeljebb két virtuális címet tud fogadni egy egész eszköztől minden óraciklusban. A DTB-nek két portja is van, így egyidejűleg két virtuális és fizikai cím fordítást tud végrehajtani. A betöltési utasítások hozzáférnek az adatgyorsítótárhoz, és visszaküldik az eredményt a regiszterfájlba, ha eltalálják. Ebben az esetben a késleltetés két órajel. Hiány esetén a fizikai címek elküldésre kerülnek a hiányzó címfájlba, ahol pufferelve vannak, és megvárják, amíg az L2 gyorsítótárhoz való hozzáférés befejeződik.
Az írási parancsok adatokat írnak az adatgyorsítótárba egy találatnál, és az adatokat mindig az írási pufferbe helyezik, ahol az L2 gyorsítótár általi elérésre vár. A 21164 mikroprocesszor megkülönböztető jellemzője egy 96 KB kapacitású másodlagos háromcsatornás többszörös asszociatív gyorsítótár elhelyezése a chipen. A másodlagos gyorsítótár élesen csökkenti a mikroprocesszor külső buszához való hozzáférések számát. A másodlagos chip-gyorsítótár mellett a külső, harmadik szintű gyorsítótárral való munkavégzés is támogatott.

A nagyszámú számítástechnikai eszköz kombinációja, a lebegőpontos műveletek gyorsabb végrehajtása (hat helyett négy órajel), több gyors hozzáférés az elsődleges gyorsítótárba (három helyett két órajel) biztosította a mikroprocesszornak az adott időre rekordteljesítményt.

4. IBM és PowerPC cégek POWER architektúrájának jellemzői

Motorola, Apple és IBM.

Mint már említettük, a RISC architektúra alapkoncepciójának egyik kidolgozója John Cook volt, az IBM Research Center munkatársa. Watson, aki a 70-es évek közepén ilyen irányú kutatásokat végzett, és megépítette az IBM 801 miniszámítógépet, amely soha nem került piacra. Ezen elképzelések továbbfejlesztése az IBM-nél a POWER architektúra fejlesztésében tükröződött a 80-as évek végén. POWER architektúra
(és annak POWER2 és PowerPC alirányzatai) jelenleg az IBM RISC System /6000 munkaállomás- és szervercsaládjának alapja.
Az IBM 801 architektúra fejlesztése a POWER irányába a következő irányokba ment: a szuperskaláris feldolgozás koncepciójának megvalósítása, az architektúra fejlesztése, mint pl. célobjektum fordítók, csökkentve a folyamat hosszát és az utasítás-végrehajtási időt, végül pedig a lebegőpontos műveletek hatékony végrehajtásának előtérbe helyezését.
POWER architektúra

A POWER architektúra sok tekintetben hagyományos RISC architektúra. Ragaszkodik a RISC legfontosabb megkülönböztető jegyeihez: rögzített utasításhossz, regiszter-regiszter architektúra, egyszerű módokon címzés, egyszerű (értelmezést nem igénylő) utasítások, nagy regiszterfájl és három operandus
(roncsolásmentes) parancsformátum. A POWER architektúrának azonban több is van további tulajdonságok, amelyek megkülönböztetik a többi RISC architektúrától.

Először is, az utasításkészlet a szuperskaláris feldolgozás ötletén alapult.
Az alap architektúrában a parancsok három független végrehajtási egység között vannak elosztva: egy elágazó egység, egy fixpontos egység és egy lebegőpontos egység. Ezeknek az eszközöknek egyidejűleg is el lehet küldeni a parancsokat, ahol azok egyidejűleg végrehajthatók, és meghibásodhatnak. A gyakorlatban elérhető párhuzamosság növelése érdekében az utasításkészlet-architektúra minden eszközhöz független regiszterkészletet határoz meg. Ez minimálisra csökkenti az eszközök közötti kommunikációt és szinkronizálást, ezáltal lehetővé téve a végrehajtó egységek számára, hogy alkalmazkodjanak a parancsok dinamikus keverékéhez. Az eszközök közötti esetleges adatkommunikációt a fordítónak elemeznie kell, és azt hatékonyan meg tudja tervezni. Meg kell jegyezni, hogy ez csak egy koncepcionális modell. Bármely adott POWER architektúra processzor kezelheti bármelyik koncepcionális eszközt több végrehajtási egységként, hogy támogassa az utasítások további párhuzamosságát. De a modell megléte egy olyan utasításkészlet következetes kialakításához vezet, amely természetesen támogatja a legalább három fokú párhuzamosságot.

Másodszor, a POWER architektúra több "vegyes" utasítással bővül a végrehajtási idők csökkentése érdekében. A RISC technológia talán egyetlen hátránya a CISC-hez képest az, hogy néha használ nagy mennyiség parancsokat ugyanazon feladat végrehajtásához. Azt találtuk, hogy sok esetben a kódméret növekedése elkerülhető az utasításkészlet kismértékű bővítésével, ami nem jelenti azt, hogy visszatérünk az olyan összetett utasításokhoz, mint a CISC. Például a kódnövekedés jelentős része az eljáráshívások során a regiszterek mentéséhez és visszaállításához kapcsolódó prológ- és epilóguskódban található. Ennek a tényezőnek a kiküszöbölésére az IBM bevezette a parancsokat
"kötegelt betöltés és írás", amely lehetővé teszi több regiszter áthelyezését a memóriába/memóriából egyetlen utasítással. A POWER fordítók által használt kötési konvenciók figyelembe veszik az ütemezési feladatokat, a megosztott könyvtárakat és dinamikus összekapcsolás egyszerű, egységes mechanizmusként. Ez egy tartalomjegyzéken (TOC - Table Of Contents) keresztüli indirekt címzéssel történt, amely a betöltés során módosul. A tömeges betöltés és az írási parancsok fontos elemei voltak ezeknek a kommunikációs konvencióknak.

A vegyes utasítások másik példája az a képesség, hogy az alapregisztert egy újonnan számított tényleges címmel módosítsuk betöltési vagy írási műveletek végrehajtásakor (az automatikus növekményes címzéshez hasonlóan). Ezek a parancsok szükségtelenné teszik további összeadási parancsok végrehajtását, amelyek egyébként szükségesek lennének az index növeléséhez a tömbök elérésekor. Ez ugyan hibrid művelet, de nem zavarja a hagyományos RISC pipeline működését, hiszen a módosított cím már ki lett számítva, és a regiszterfájl írási portja szabad a memóriaműveletre várva.

A POWER architektúra számos egyéb módot is kínál az utasítás-végrehajtási idő csökkentésére, például: bitmezős manipulációs utasítások kiterjedt készlete, vegyes lebegőpontos szorzás-összeadás utasítások, feltételregiszter beállítása a normál utasítás-végrehajtás mellékhatásaként és karakterlánc utasítások betöltése és írása (amelyek működnek). véletlenszerűen igazított bájtkarakterláncokkal).

A harmadik tényező, amely megkülönbözteti a POWER architektúrát sok mástól
A RISC architektúrákból hiányzik a „késleltetett átmenet” mechanizmus.
Általában ez a mechanizmus biztosítja, hogy a feltételes elágazási utasítást követő utasítás végrehajtásra kerüljön, mielőtt maga az elágazás végrehajtódna. Ez a mechanizmus hatékonyan működött a korai RISC gépeken, hogy kitöltse azt a "buborékot", amely az elágazási irány kiválasztásához és az új utasításfolyam lekéréséhez szükséges feltételek kiértékelésekor jelent meg. A fejlettebb, szuperskaláris gépeken azonban ez a mechanizmus hatástalan lehet, mivel egyetlen elágazási utasítás késleltetési ciklusa több buborékot eredményezhet, amelyeket nem lehet lefedni egyetlen architekturális késleltetési résszel. Szinte minden ilyen gép, hogy kiküszöbölje ezeknek a "buborékoknak" a hatását, további hardvert (például fiókcím-gyorsítótárat) kénytelen bevezetni. Az ilyen gépekben a késleltetett átmenet mechanizmusa nemcsak hatástalanná válik, hanem jelentős bonyolultságot is bevezet a parancssorozat feldolgozásának logikájába. Ehelyett a POWER átmeneti architektúrát úgy szervezték meg, hogy támogassa a " előnézet feltételes átmenetek" (ág-zárás) és a "hajtás-átmenetek" technikája (ág-hajtás).

Az építészetben használt feltételes ugrások megvalósításának módszertana
A POWER a negyedik egyedi funkció a többi RISC processzorhoz képest. A POWER architektúra határozza meg a feltételregiszter speciális tulajdonságait. A hagyományos feltételregiszterrel rendelkező architektúrákkal az a probléma, hogy a feltételbitek beállítása az utasítás-végrehajtás mellékhatásaként súlyosan korlátozza a fordító azon képességét, hogy módosítsa az utasítások sorrendjét. Ezenkívül a feltételregiszter az egyetlen olyan architekturális erőforrás, amely komoly szűk keresztmetszetet hoz létre egy olyan gépben, amely több utasítást hajt végre párhuzamosan, vagy nem a sorrendben hajtja végre az utasításokat a programban megjelenő sorrendben. Egyes RISC architektúrák úgy oldják meg ezt a problémát, hogy teljesen kiiktatják a feltételregisztert, és megkövetelik a feltételkód beállítását egy általános célú regiszter összehasonlítási utasításaival, vagy magába az ugrásutasításba belefoglalják az összehasonlítási műveletet. Ez utóbbi megközelítés potenciálisan túlterheli a parancsfolyamatot egy elágazás végrehajtásakor. Ezért a POWER architektúra a hagyományos feltételregiszter megközelítéssel kapcsolatos problémák kijavítása helyett a következőket javasolja: a) egy speciális bit jelenléte minden utasítás műveleti kódjában, amely módosítja a feltételregisztert. további lehetőség, és ezáltal visszaállítja a fordító azon képességét, hogy újrafaktorálja a kódot, és b) több (nyolc) feltételregiszter az egyetlen erőforrás-probléma megkerülése érdekében, és több feltételregiszter-nevet biztosítson, hogy a fordító az univerzálishoz hasonlóan le tudja foglalni és lefoglalni a feltételregiszter-erőforrásokat. regisztereket.

A kibővített állapotregiszter modell választásának másik oka az, hogy az összhangban van a gép független működtetőelemek formájában történő felépítésével. Elméletileg a feltételregiszter lokális az átmeneti eszközhöz. Ezért egy feltételes elágazás végrehajtási irányának kiértékeléséhez nem szükséges hozzáférni az univerzális regiszterfájlhoz (amely lokális a fixpontos eszközön). Amennyire a fordító előre meg tudja tervezni a feltételkód módosítását (és/vagy előre betölti az ugráscímregisztereket), addig a hardver előzetesen meg tudja tekinteni és összecsukja a feltételes ágakat, elválasztva azokat az utasításfolyamtól. Ez felszabadít egy parancskiadási időrést (ciklust) a folyamatban, amelyet általában egy ugrási parancs foglal el, és lehetővé teszi a parancskezelő számára, hogy folyamatos lineáris parancsfolyamot hozzon létre a számítási aktuátorok számára.

A POWER architektúra első megvalósítása 1990-ben jelent meg a piacon. Azóta az IBM bemutatta a POWER2 és POWER2+ processzorok további két verzióját, amelyek támogatják az L2 gyorsítótárat és egy kibővített utasításkészletet.

Az IBM szerint a POWER processzornak kevesebb mint egy órajelre van szüksége egyetlen utasítás végrehajtásához, szemben a processzor körülbelül 1,25 órajelével.
Motorola 68040, 1,45 órajel ciklus SPARC processzorhoz, 1,8 órajel ciklus Intel i486DX és
1.8 óra Hewlett-Packard PA-RISC. Az építészeti sorozat órajel-frekvenciája modelltől függően 25 MHz és 62 MHz között változik.

A POWER processzorok 33, 41,6, 45, 50 és 62,5 MHz-en működnek.
A POWER architektúra külön parancs- és adatgyorsítótárat tartalmaz (kivéve a munkaállomásokat és a munkacsoport-kiszolgálókat) belépő szint, amelyek egylapkás POWER processzor implementációval és megosztott utasítás- és adatgyorsítótárral, 64 vagy 128 bites memóriabusszal és 52 bites virtuális címmel rendelkeznek. Beépített lebegőpontos processzorral is rendelkezik, így kiválóan alkalmas a műszaki környezetben jellemző, számításigényes alkalmazásokhoz, bár a jelenlegi stratégia
Az RS/6000 kereskedelmi és műszaki alkalmazásokra egyaránt alkalmas.
Az RS/6000 jó lebegőpontos teljesítményt mutat: 134,6
SPECp92 a POWERstation/Powerserver 580-hoz. Ez alacsonyabb, mint a modellek szintje
Hewlett-Packard 9000 Series 800 G/H/I-50, amely eléri a 150-et
SPECfp92.

A gyors I/O feldolgozás megvalósításához a POWER architektúra 40 vagy 80 sávszélességű Micro Channel buszt használ.
MB/sec. A Micro Channel busz 64 bites adatbuszt tartalmaz, és több gazdagép busz adaptert is támogat. Ez a támogatás lehetővé teszi hálózati vezérlők, a videoadapterek és más okoseszközök a főprocesszortól függetlenül továbbítják az információkat a buszon, ami csökkenti a processzor terhelését és ennek megfelelően növeli a rendszer teljesítményét.
A POWER2 multi-chip készlet nyolc félig egyedi chipből áll
(eszközök):
Utasítás gyorsítótár egység (ICU) - 32 KB, két portja van 128 bites buszokkal;
Integer aritmetic unit (FXU) – két integer pipeline-t és két általános célú regiszterblokkot tartalmaz (32 darab 32 bites regiszter). Végrehajt minden egész és logikai műveletet, valamint minden memóriaelérési műveletet;
Lebegőpontos egység (FPU) - két csővezetéket tartalmaz dupla pontosságú lebegőpontos műveletek végrehajtására, valamint 54 64 bites lebegőpontos regisztert;
Négy blokk adatgyorsítótár – a maximális L1 gyorsítótár 256 KB. Minden blokknak két portja van. A készülék számos funkciót is megvalósít a memóriarendszerrel való interakció során fellépő hibák észlelésére és kijavítására;
Memóriakezelő egység (MMU).

A POWER2 szerszámkészlet körülbelül 23 millió tranzisztort tartalmaz 1217 négyzetmm-es területen, és CMOS technológiával gyártják, 0,45 mikronos tervezési szabványokkal. A teljesítmény disszipáció 66,5 MHz-en van
65 W.

A POWER2 processzor teljesítménye jelentősen megnőtt a POWER-hez képest: 71,5 MHz-es órajelnél eléri a 131 SPECint92 és 274
SPECfp92.

A POWER architektúra fejlődése a PowerPC architektúra felé

Az IBM a PowerPC platformmal kiterjeszti a POWER architektúra erejét kis rendszerekre is. A POWER architektúra ebben a formában olyan szintű teljesítményt és méretezhetőséget biztosít, amely meghaladja a mai személyi számítógépek képességeit. A PowerPC az RS/6000 platformon alapul, alacsony költségű konfigurációban. Építészeti szempontból a két fejlesztés közötti fő különbség csak az, hogy a PowerPC rendszerek a Motorola által gyártott POWER architektúra egychipes megvalósítását használják, míg a legtöbb rendszer
Az RS/6000 többlapkás megvalósítást használ. A PowerPC processzornak több változata is elérhető a hordozható termékek és asztali munkaállomások igényeinek kielégítésére, de ez nem zárja ki e processzorok nagyobb rendszerekben való használatát. Elsőként jelent meg a piacon a 601-es processzor, amelyet cégek asztali munkaállomásaira szántak
IBM és Apple. Ezt követte a belépő szintű hordozható és asztali rendszerekhez készült 603-as matrica, valamint a csúcskategóriás asztali rendszerekhez készült 604-es matrica. Végül a 620-as processzort kifejezetten szerverkonfigurációkhoz tervezték, és 64 bites felépítésével várhatóan kivételes magas szint termelékenység.

A PowerPC architektúra tervezésénél, hogy megfeleljen a három igényeinek különféle cégek(Apple, IBM és Motorola) az RS/6000-el való kompatibilitás megőrzése mellett a POWER architektúrán számos változtatás történt a következő irányokban: az architektúra egyszerűsítése annak érdekében, hogy az olcsó egychipes processzorok megvalósításához igazodjon; olyan parancsok kiküszöbölése, amelyek akadályozhatják az órajel frekvencia növelését; a szuperskaláris feldolgozás és az utasítások rendellenes végrehajtása előtti építészeti akadályok megszüntetése; a szimmetrikus többfeldolgozás támogatásához szükséges funkciók hozzáadása; új funkciók hozzáadása a jövőbeli alkalmazásokhoz; világosan meghatározza a választóvonalat az „építészet” és a „megvalósítás” között; az architektúra hosszú élettartamának biztosítása a 64 bitesre bővítéssel.

Az első PowerPC mikroprocesszort, a PowerPC 601-et jelenleg az IBM és a Motorola is gyártja. Ez egy középkategóriás processzor, amelyet alacsony és közepes költségű asztali számítógépes rendszerekben való használatra terveztek. Átmeneti modellként tervezték a POWER architektúrából a
PowerPC, és megvalósítja mindkét architektúra képességeit. Ebben az esetben bináris kódok
Az RS/6000 változatlan formában fut rajta, így további időt ad a fordítófejlesztőknek a PowerPC architektúra elsajátítására, valamint az alkalmazásfejlesztőknek, akiknek újra kell fordítaniuk programjaikat, hogy teljes mértékben kihasználhassák a PowerPC architektúra előnyeit.

A 601-es processzor az IBM egylapkás processzorára épült, amelyet a három vezető vállalat szövetségének létrejötte idején fejlesztettek ki. Elődjéhez képest azonban a PowerPC 601 jelentős változtatásokon ment keresztül a teljesítmény javítása és a költségek csökkentése érdekében.
Például tartalmazott egy összetettebb átmeneti eszközt, amelyet többprocesszoros képességekkel bővítettek, beleértve a nagy teljesítményű 88110 processzor busz interfészét. Motorola. A Power 601 szuperskaláris feldolgozást valósít meg, amely lehetővé teszi 3 parancs kiadását a végrehajtáshoz minden órajelben, esetleg nem abban a sorrendben, ahogyan a programkódban elhelyezkednek.

PowerPC 603 processzor

A PowerPC 603 az első olyan mikroprocesszor a PowerPC családban, amely teljes mértékben támogatja a PowerPC architektúrát (6. ábra). Öt funkcionális eszközt tartalmaz: ugróeszközt, integer eszközt, lebegőpontos eszközt, betöltő/író eszközt és rendszerregiszter eszközt, valamint két 8 KB-os chipen lévő utasítás- és adatgyorsítótárat. Mivel a PowerPC 603 egy szuperskaláris mikroprocesszor, órajelenként legfeljebb három utasítást tud kiadni és végrehajtani ezeknek a végrehajtó egységeknek. A teljesítmény növelése érdekében a PowerPC 603 lehetővé teszi a parancsok soron kívüli végrehajtását. Ezenkívül programozható energiacsökkentési módokat biztosít, amelyek rugalmasságot biztosítanak a rendszertervezőknek a különböző energiagazdálkodási technológiák megvalósításához.

A processzorban történő feldolgozás során a parancsok öt végrehajtó eszköz között vannak elosztva a program által meghatározott sorrendben. Ha nincs operandusfüggőség, akkor a végrehajtás azonnal megtörténik. Egy egész szám eszköz a legtöbb utasítást egyetlen óraciklusban hajtja végre. A lebegőpontos eszköz csővezetékes, és egyszeres és kettős pontosságú lebegőpontos műveleteket is végrehajt. A feltételes ugrási parancsok feldolgozása az ugróeszközben történik. Ha az átmenet feltételei rendelkezésre állnak, akkor azonnal megszületik a döntés az átmenet irányáról, ellenkező esetben a további utasítások végrehajtása feltételezéssel (spekulatívan) folytatódik.
A processzorvezérlő regiszterek állapotát módosító parancsokat a rendszerregiszter eszköz hajtja végre. Végül egyrészt az adatgyorsítótár, másrészt az általános célú és lebegőpontos regiszterek közötti adatátvitelt a betöltő/író eszköz kezeli.

Gyorsítótár hiánya esetén a főmemória az MC88110 mikroprocesszor buszhoz hasonló 64 bites nagy teljesítményű busz segítségével érhető el. Az átviteli sebesség és így az általános teljesítmény maximalizálása érdekében a gyorsítótár elsősorban kötegelt műveleteken keresztül kommunikál a fő memóriával, amelyek lehetővé teszik egy gyorsítótár-sor egyetlen tranzakcióval történő kitöltését.

Miután egy parancs befejezte a végrehajtást a végrehajtó eszközben, az eredményei a parancs-végrehajtási pufferbe (befejezési pufferbe) kerülnek, majd egymás után a megfelelő regiszterfájlba íródnak, ahogy a parancsok eltávolításra kerülnek a befejezési pufferből. A regiszterkonfliktusok minimalizálása érdekében a PowerPC 603 processzor 32 általános célú egész regiszterből és 32 lebegőpontos regiszterből álló különálló készleteket biztosít.
PowerPC 604

A PowerPC 604 szuperskalár processzor akár négy utasítás egyidejű kiadását teszi lehetővé. Ebben az esetben ciklusonként legfeljebb hat parancs hajtható végre párhuzamosan. Az 5.21. ábra a 604-es processzor blokkvázlatát mutatja A processzor hat végrehajtó egységet tartalmaz, amelyek párhuzamosan működhetnek: egy lebegőpontos egység (FPU); ág végrehajtó egység (BPU); betöltési/írási egység (LSU); három egész szám egység (IU): két egyciklusú egész egység (SCIU); egy többciklusú egész egység (MCIU).

Ez a párhuzamos kialakítás az utasítási specifikációval kombinálva
A gyorsított utasítás-végrehajtást lehetővé tevő PowerPC nagy hatékonyságot és nagy processzor-átviteli sebességet biztosít.
A 604-es regiszter átnevezési pufferei, foglalási puffer állomásai, dinamikus feltételes elágazási irány előrejelzése és utasításkiegészítő eszközei jelentősen növelik a rendszer áteresztőképességét, biztosítják az utasítások végrehajtását a program által előírt sorrendben, és precíziós megszakítási modellt biztosítanak.

A 604-es processzor külön memóriakezelő eszközökkel és külön 16 KB-os belső utasítás- és adatgyorsítótárral rendelkezik. Két virtuális címfordító puffert valósít meg a fizikai TLB-k számára
(külön a parancsokhoz és az adatokhoz), egyenként 128 sort tartalmaz. Mindkét puffer kétcsatornás set-asszociatív, és változó méretű virtuális memórialapokat biztosít. A gyorsítótár és a TLB pufferek az LRU algoritmust használják a blokkok cseréjére.

A 604-es processzor 64 bites külső adatbusszal és 32 bites címbusszal rendelkezik. A 604 processzor interfész protokoll lehetővé teszi, hogy több buszmester versenyezzen a rendszererőforrásokért egy központi külső döntőbíró jelenlétében. Ezenkívül a belső buszfigyelő logika fenntartja a gyorsítótár koherenciáját a többprocesszoros konfigurációkban. A 604 processzor egyszeri és csoportos adatátvitelt is biztosít a főmemória elérésekor.

1995 végére új PowerPC 620 processzor várható.
Elődeivel ellentétben teljesen 64 bites processzor lesz. 133 MHz-es órajelen üzemelve teljesítménye 225 SPECint92 és 300 SPECfp92 egység, ami 40, illetve 100%-kal több, mint a PowerPC 604 processzoré.

Más 64 bites processzorokhoz hasonlóan a PowerPC 620 is 64 bites általános célú és lebegőpontos regisztereket, valamint 64 bites virtuális címeket tartalmaz. Ugyanakkor megmarad a kompatibilitás a PowerPC család más modelljeiben megvalósított 32 bites üzemmóddal.

A processzor adat- és utasítás-gyorsítótárral rendelkezik, összesen 64 kapacitással
KB, második szintű gyorsítótár-kezelő interfész áramkörök, 128 bites adatbusz a processzor és a fő memória között, valamint logikai áramkörök a koherens memóriaállapot fenntartására többprocesszoros rendszer szervezésekor.

A PowerPC 620 processzor a nagy teljesítményű munkaállomások és szerverek piacát célozza meg.

Végezetül megjegyezzük, hogy a kurzus illusztrációi néhány fő jellemzőit mutatják be modern rendszerek, amely az ebben a részben tárgyalt processzorokra épül.

4. A MIPS technológia MIPS architektúrájának jellemzői

A MIPS architektúra volt az egyik első RISC architektúra, amely elnyerte az iparági elfogadottságot. 1986-ban jelentették be.
Eredetileg egy teljesen 32 bites architektúra volt, amely tartalmazta
32 általános célú regiszter, 16 lebegőpontos regiszter, valamint egy speciális regiszterpár egész számszorzási és osztási műveletek eredményeinek tárolására. Az utasítás mérete 32 bites volt, csak egy címzési módot támogatott, és a felhasználói címteret is 32 bit határozta meg. Az aritmetikai műveletek teljesítményét az IEEE 754 szabvány szabályozta, a számítástechnikai iparban a 32 bites R2000 és R3000 processzorok váltak széles körben népszerűvé, amelyek hosszú ideig a Silicon Graphics munkaállomások és szerverek építésének alapjául szolgáltak. Digital és Siemens cégek
Nixdorf és mások. R3000/R3010 processzorok 33 vagy 40 órajelen működnek
MHz, és teljesítményt nyújtott 20 SPECint92 és 23 SPECfp92 mellett.

Ezután az R3000 család mikroprocesszorait új, 64 bites R4000 és R4400 mikroprocesszorok váltották fel. (A MIPS Technology volt az első olyan vállalat, amely 64 bites architektúrájú processzorokat adott ki). Ezeknek a processzoroknak az utasításkészletét (MIPS II specifikáció) kibővítettük a 64 bites lebegőpontos betöltési és írási utasításokkal, az egyszeres és kettős pontosságú négyzetgyök utasításokkal, a feltételes megszakítási utasításokkal és a többprocesszoros konfigurációk támogatásához szükséges atomi műveletekkel. Az R4000 és R4400 processzorok 64 bites adatbuszokkal és 64 bites regiszterekkel rendelkeznek. Ezek a processzorok a belső órajel megduplázásának módszerét használják.

Az R2000 és R3000 processzorok szabványos, ötfokozatú utasításfolyamatokkal rendelkeztek. Az R4000 és R4400 processzorok hosszabb folyamatot használnak
(néha szuperpipelinek is nevezik). A szakaszok száma a processzorokban
Az R4000 és az R4400 nyolcra nőtt, ami elsősorban az órajel frekvenciájának növekedésével és a logika elosztásának szükségességével magyarázható az adott pipeline áteresztőképesség biztosításához. Az R4000 processzor 50/100 MHz-es órajelen tud működni, és 58 SPECint92 és 61 SPECfp92 teljesítményszintet biztosít. Az R4400 processzor 50/100 MHz-en vagy 75/150 MHz-en működhet, 94 SPECint92 és 105 SPECfp92 teljesítményszintet biztosítva.

Az R4000 processzor belső gyorsítótárának kapacitása 16 KB. Egy 8 KB-os utasítás-gyorsítótárra és egy 8 KB-os adatgyorsítótárra oszlik. A cache memória megvalósítását tekintve az R4400 processzor fejlettebb képességekkel rendelkezik. Három változatban érhető el: PC (Primary Cashe) - belső parancs- és adatgyorsítótárral rendelkezik, 16 KB kapacitással. Az ebben a konfigurációban lévő processzort elsősorban alacsony költségű munkaállomás-modellekhez szánják. Az SC (Secondary Cache) tartalmazza a második szintű gyorsítótár kezelésének logikáját. MC (többprocesszoros
Cash) - speciális algoritmusokat használ a koherencia és a konzisztens memóriaállapot biztosítására többprocesszoros konfigurációk esetén.

1994 közepén a MIPS bejelentette az R8000 processzort, amely elsősorban a lebegőpontos intenzív tudományos alkalmazásokra irányult. Ez a processzor két chipre épül (többchipes szerelvényként kapható), és a MIPS architektúra első szuperskaláris megvalósítását képviseli.
A processzor elméleti csúcsteljesítménye 75 órajelen
MHz 300 MFLOP (legfeljebb négy utasítás és hat lebegőpontos művelet minden órajelben). Nagy adatgyorsítótár megvalósítása 16-os kapacitással
MB, nagy adatátviteli sebesség (akár 1,2 GB/s) kombinálva Magassebesség műveletek lehetővé teszik az R8000 számára
75%-os elméleti teljesítmény nagy problémák megoldásakor is, mint pl
LINPACK 1000x1000 elemes mátrixméretekkel. A gyorsítótár koherenciájának hardveres támogatása a fordító párhuzamosítási eszközeivel együtt lehetővé teszi a nagy teljesítményű szimmetrikus többprocesszoros rendszerek felépítését. Például a Silicon Power Challenge rendszerében R8000 processzorokat használnak
A jól ismert Cray Y-MP szuperszámítógépekkel teljesítményében könnyen összehasonlítható grafika nagyságrenddel alacsonyabb költséggel és lényegesen alacsonyabb követelményeket támaszt az energiaellátási és hűtési alrendszerekkel szemben. Egyprocesszoros változatban ez a rendszer 310 SPECfp92 és 265 MFLOP teljesítményt biztosít a LINPACK csomagon
(1000x1000).

1994-ben a MIPS Technology bejelentette új szuperskalár processzorának, az R10000-nek a megalkotását is. A MIPS Technology R10000 800 MIPS csúcsteljesítményt biztosít 200 MHz-es belső órajelen, órajelciklusonként négy utasítás kiadásával. Ugyanakkor adatcserét biztosít a második szintű gyorsítótárral 3,2 GB/s sebességgel.

Rizs. 8. Az R10000 mikroprocesszor blokkvázlata

Az emlékezet hierarchiája

Az R10000 processzor fejlesztése során nagy figyelmet fordítottak a memóriahierarchia hatékony megvalósítására. Biztosítja a gyorsítótár hiányosságainak korai észlelését és a sorok párhuzamos újratöltését, miközben egy másik hasznos munka. A chipen lévő gyorsítótárak támogatják az utasítások egyidejű lekérését, a memóriabetöltési és -írási parancsokat, valamint a gyorsítótár-sor újratöltési műveleteit.
A gyorsítótár-sorok kitöltése „kérett szó először” alapon történik, ami jelentősen csökkentheti a processzor leállását a szükséges információkra való várakozás miatt. Minden gyorsítótár rendelkezik egy kétcsatornás, több-asszociatív szervezettel, LRU-cserealgoritmussal.

1. szintű adatgyorsítótár

Az R10000 L1 adatgyorsítótárának kapacitása 32
KB, és két egyforma, 16 KB kapacitású bankba szerveződik, amely kettős rétegezést biztosít a gyorsítótár elérésekor. Mindegyik bank egy kétcsatornás készlet-asszociatív gyorsítótár, amelynek sor (blokk) mérete 32 bájt. Az adatgyorsítótárat egy virtuális cím indexeli, és fizikai memóriacímcímkéket tárol. Ez az indexelési módszer lehetővé teszi a cache memória egy részhalmazának kiválasztását ugyanabban az óraciklusban, amelyben a virtuális cím keletkezik. Az L2 gyorsítótárral való koherencia fenntartása érdekében azonban az L1 gyorsítótár fizikai memóriacímcímkéket tárol.

Az egyes bankokban lévő adat- és címketömbök függetlenek. Ez a négy tömb a memóriacímgenerálási sor és a chip külső interfész áramköreinek közös vezérlése alatt működik. A címsor akár 16 betöltési és írási parancsot is tartalmazhat egyidejűleg, amelyek feldolgozása négy különálló folyamatban történik. Az ebből a sorból származó parancsok dinamikusan egy speciális csővezetékbe kerülnek végrehajtásra, amely biztosítja a végrehajtó virtuális cím kiszámítását és ennek a címnek a fizikai címre való átalakítását. Három másik párhuzamos folyamat egyidejűleg képes címkeellenőrzést végezni, adatokat továbbítani a betöltési parancsokhoz, és befejezni a memóriaírási parancsokat. Bár az utasításokat szigorú memória sorrendben hajtják végre, előfordulhat, hogy a betöltési utasítások címszámítása és adatátvitele nem megfelelő. A chipen lévő elülső áramkörök gyorsítótár-sorok kitöltését, visszamásolást vagy címkekeresési műveleteket hajthatnak végre. A legtöbb processzoros eszköz párhuzamos működése lehetővé teszi az R10000 számára, hogy hatékonyan futtasson valós többprocesszoros alkalmazásokat.

Az adatgyorsítótár-folyamatok szorosan összehangoltak. Például a load parancsok ugyanabban az óraciklusban végezhetnek címkeellenőrzést és adatolvasást, mint a címfordítás. Az írási parancsok azonnal megkezdik a címkék ellenőrzését, hogy a lehető legkorábban jelezzék a szükséges sor kitöltését az L2 gyorsítótárból, de az adatok tényleges írása a gyorsítótárba addig késik, amíg maga az írási parancs nem lesz a legrégebbi parancs az általános végrehajtási sorban. és felveheti az eredményét („kiadva”).
Az L1 adatgyorsítótár kihagyása elindítja egy sor kitöltését az L2 gyorsítótárból. Ha a betöltési parancsokat a cache sor kitöltésével egyidejűleg hajtják végre, az adatok átkerülhetők a regiszterfájlba.

Ha az adatgyorsítótár elérésekor hiányosságot észlel, annak működése nem blokkolódik, pl. folytathatja a jövőbeli kérések kiszolgálását.
Ez különösen hasznos a megvalósított architektúra minőségének olyan fontos mutatójának csökkentésére, mint az utasításonkénti óraciklusok átlagos száma (CPI). Az 5.14. ábra mutatja az R10000 működésének szimulációjának eredményeit a SPEC tesztcsomag több programjával.
Minden teszt esetében két eredményt adunk meg: az adatgyorsítótár zárolva van a hiányosság észlelésekor (felül), és a tényleges CPI-érték R10000 (alul).
A jobb oldali sötétebb terület a gyorsítótár kihagyása miatt elveszett időt jelzi. A legjobb eredmény a teljes késleltetést jelenti, ha az összes gyorsítótár-újratöltési műveletet szigorúan egymás után hajtották végre. Így a nyíl a zárolt gyorsítótárban előforduló időveszteséget jelöli. A nem blokkoló gyorsítótár használatának hatása nagymértékben függ maguknak a programoknak a jellemzőitől. Kisebb teszteknél, amelyek munkakészletei teljesen beleférnek az L1 gyorsítótárba, ez a hatás nem nagy. Az olyan valósághűbb programok esetében azonban, mint a tomcatv teszt vagy a gyorsítótár-nagy tömörítési teszt, a nyereség jelentős.

L2 gyorsítótár

Az R10000 processzor L2 cache interfészét támogatja
Akár 200 MHz órajelen üzemelhető 128 bites adatforgalmi autópálya, amely akár 3,2 GB/s átviteli sebességet biztosít (a memóriachipek sebességére vonatkozó követelmények csökkentése érdekében a frekvenciaosztás lehetősége a következő tényezőkkel) 1.5, 2, 2.5 és 3 is rendelkezésre áll). Minden szabványos szinkron statikus memóriavezérlő jelet a processzor belül generál. Nincs szükség külső interfész áramkörre. A második szintű gyorsítótár minimális mérete 512 KB, a maximális mérete 16 MB. Ennek a gyorsítótárnak a sormérete programozható, és 64 vagy 128 bájt lehet.

A gyorsítótár időzítésének javításának egyik módszere egy pszeudo-többszörös asszociatív gyorsítótár létrehozása. Ennek a gyorsítótárnak a kihagyási aránya hasonló a beállított asszociatív memóriáéhoz, és a találati idő a közvetlen leképezett gyorsítótáréhoz hasonló. Az R10000 cache memória pontosan így van felszerelve, megvalósításához szabványos szinkron memória chipeket (SRAM) használnak. Ugyanaz a memórialapkakészlet mindkét gyorsítótár csatornát tartalmazza. Az ezen csatornák használatának gyakoriságára vonatkozó információkat a processzorchip gyorsítótár-kezelő áramkörei tárolják.
Ezért az elsődleges gyorsítótár hiányának észlelése után a rendszer két négyszavas sort olvas ki a leggyakrabban használt másodlagos gyorsítótár-csatornából.
A címkéik az első négyszavas sorral együtt, az alternatív csatornacímkék pedig a második négyszavas sorral együtt kerülnek beolvasásra (ez a cím legjelentősebb bitjének egyszerűen megfordításával történik).

Ebben az esetben három eset lehetséges. Ha az első csatornán találat történik, az adatok azonnal elérhetőek. Ha találat érkezik az alternatív csatornán, a rendszer újra beolvassa a másodlagos gyorsítótárat. Ha mindkét csatornán hiányzik, a másodlagos gyorsítótárat újra kell tölteni a fő memóriából.

A nagy kapacitású gyorsítótárak adatintegritásának biztosítása érdekében általános gyakorlat az egyszeri hibajavító kódok (ECC) használata. Az R10000 minden négyszavas sorhoz egy 9 bites ECC kódot és egy paritásbitet tárol. Az extra paritásbit csökkenti a késleltetést, mivel a paritásellenőrzés nagyon gyorsan elvégezhető az érvénytelen adatok felhasználásának megakadályozása érdekében. Ebben az esetben, ha javítható hibát észlel, a leolvasás megismétlődik egy speciális push-pull hibajavító csővezetéken keresztül.

Utasítás gyorsítótár

A belső kétcsatornás többszörös asszociatív utasítás-gyorsítótár 32 KB. Betöltése során a parancsok részben dekódolásra kerülnek. Ebben az esetben minden parancshoz 4 további bit kerül hozzáadásra, amelyek jelzik a végrehajtó eszközt, amelyben a végrehajtásra kerül. Így az utasítások a cache memóriában 36 bites formátumban kerülnek tárolásra. Az utasítás-gyorsítótár sor mérete 64 bájt.

Ugrás parancsok feldolgozása

A pipeline feldolgozás megvalósítása során olyan helyzetek adódnak, amelyek megakadályozzák a parancsfolyamból a következő parancs végrehajtását a neki szánt óraciklusban. Az ilyen helyzeteket konfliktusnak nevezik.
A konfliktusok csökkentik a csővezeték tényleges termelékenységét, ami ideális esetben elérhető lenne. Az egyik típusú konfliktus, amellyel a nagy teljesítményű processzorok tervezőinek meg kell küzdeniük, a vezérlőkonfliktusok, amelyek az ugrásutasítások és más, a programszámláló értékét módosító utasítások feldolgozása során merülnek fel.

A vezérlési ütközések még nagyobb teljesítményveszteséget okozhatnak egy szuperskaláris processzoron, mint az adatütközések. A statisztikák szerint a programszámláló értékét megváltoztató vezérlőparancsok között a feltételes ugrási parancsok vannak túlsúlyban. Így a feltételes ágak veszteségének csökkentése kritikus kérdéssé válik. Számos technika létezik a folyamat leállásának csökkentésére, amelyek a feltételes ágvégrehajtási késések miatt következnek be. Az R10000 processzor a két leghatékonyabb módszert használja a feltételes elágazás végrehajtásának dinamikus optimalizálására: a hardveres feltételes elágazás irányának előrejelzését és
„végrehajtás feltételezéssel” (spekuláció).

Az R10000 processzor ugróegysége órajelenként csak egy ugrási utasítást tud dekódolni és végrehajtani. Mivel minden elágazási utasítást késleltetési rés követ, egyszerre legfeljebb két ág utasítást lehet lekérni, de egy adott időpontban csak egy korábbi elágazási utasítást lehet dekódolni. Az utasítás dekódolása során minden utasításhoz hozzáadódik egy ágjelző bit.
Ezeket a biteket az utasításlekérési folyamatban lévő elágazási utasítások megjelölésére használják.

A feltételes átmenet irányát egy 512 soros kapacitású speciális memória (elágazáselőzmény-tábla) jelzi előre, amely a múltbeli átmenetek történetét tárolja. Ez a táblázat a lekérés során az utasítás címével érhető el. A kétbites predikciós kód ebben a memóriában minden alkalommal frissül, amikor végleges döntés születik az átmenet irányáról. A szimulációk azt mutatják, hogy a SPEC benchmark kétbites előrejelzési sémájának pontossága 87%.

A feltételes elágazás parancs után kiválasztott összes parancsot feltételezés alapján (feltételesen) végrehajtottnak tekintjük. Ez azt jelenti, hogy lehívásukkor nem lehet előre tudni, hogy a végrehajtásuk befejeződik-e.
A processzor lehetővé teszi négy feltételes elágazási utasítás előfeldolgozását és irány előrejelzését, amelyek tetszőleges sorrendben feloldhatók. Ebben az esetben minden egyes feltételezéssel végrehajtott feltételes ugrási utasításhoz egy speciális átmeneti verembe írják azokat az információkat, amelyek a processzor állapotának visszaállításához szükségesek abban az esetben, ha az átmenet irányát hibásan jósolták meg. Az átmeneti verem 4 elemes mélységgel rendelkezik, és szükség esetén lehetővé teszi a csővezeték gyors és hatékony (egy órajelciklus alatt) történő helyreállítását.

Parancssor szerkezete

Az R10000 processzor három parancssort (puffert) tartalmaz (egy egész számú parancssort, egy lebegőpontos parancssort és egy címsort).
Ez a három sor dinamikusan ad ki parancsokat a megfelelő működtetőknek. Minden egyes parancsnál egy parancscímke kerül tárolásra a sorban, amely a paranccsal együtt mozog a folyamat szakaszai mentén.
Minden sor dinamikusan ütemezi az utasítások áramlását, és meg tudja határozni, hogy mikor válnak elérhetővé az egyes utasítások végrehajtásához szükséges operandusok. Ezenkívül a sor meghatározza a parancsok végrehajtási sorrendjét a megfelelő működtetőelemek állapotának elemzése alapján. Amint az erőforrás szabaddá válik, a sor parancsot ad ki a megfelelő végrehajtó eszköznek.

Egész számú parancssor

Az egész számú parancssor 16 sort tartalmaz, és két aritmetikai logikai egységnek ad ki parancsokat. Ennek a sornak a szabad soraiban érkeznek az egész számú parancsok, és ciklusonként legfeljebb 4 parancs írható rá. Az egész számú utasítások addig maradnak a sorban, amíg ki nem adják őket valamelyik ALU-nak.

Lebegőpontos parancssor

A lebegőpontos parancssor 16 sort is tartalmaz, és parancsokat ad ki a lebegőpontos összeadás és szorzás működtetőinek. A lebegőpontos parancsok a sor szabad soraira kerülnek, és ciklusonként legfeljebb 4 parancs írható rá. A parancsok addig maradnak a sorban, amíg ki nem adják őket valamelyik végrehajtó eszköznek. A lebegőpontos parancssor logikát is tartalmaz a szorzás-összeadás parancsok vezérléséhez. Ezt a parancsot először a szorzóeszköznek, majd közvetlenül az add eszköznek küldi el.

Címsor

A cím parancssor parancsokat ad ki a betöltési/írási eszköznek, és 16 sort tartalmaz. A várólista kör alakú FIFO pufferként van megszervezve
(első be első-ki). A parancsok tetszőleges sorrendben adhatók ki, de szigorúan egymás után kell sorba állítani és onnan eltávolítani. Minden ciklusban legfeljebb 4 parancs léphet be a sorba. A FIFO puffer megőrzi az eredeti utasítássorozatot, megkönnyítve a címfüggőségek felfedezését. Előfordulhat, hogy a kiadott parancs nem fejeződik be, ha címfüggőséget, gyorsítótár hiányát vagy erőforrás-ütközést észlel. Ezekben az esetekben a címsornak újra ki kell adnia a parancsot, amíg az be nem fejeződik.

Regiszterek átnevezése

Az adatütközések minimalizálásának egyik hardveres módszere a regiszter átnevezési módszer. Nevét a fordítókban széles körben használt átnevezési módszerről kapta – egy adatelhelyezési módszerről, amely segít csökkenteni a függőségek számát, és ezáltal növelni a teljesítményt a forrásprogram által szükséges objektumok (például változók) hardvererőforrásokhoz való leképezésekor.
(például memóriacellák és regiszterek).

A regiszter átnevezési módszer hardveres megvalósítása során logikai regisztereket osztanak ki, amelyekhez a megfelelő parancsmezők segítségével lehet hozzáférni, és fizikai regisztereket, amelyek a processzor hardveres regiszterfájljában találhatók. A logikai regiszterszámok dinamikusan leképeződnek a fizikai regiszterszámokra a leképezési táblázatokon keresztül, amelyek minden utasítás dekódolása után frissülnek. Minden új eredmény egy új fizikai regiszterbe kerül. Az egyes logikai regiszterek korábbi értéke azonban megmarad, és visszaállítható abban az esetben, ha egy kivétel vagy egy feltételes elágazás irányának téves előrejelzése miatt az utasítás végrehajtását meg kell szakítani.

A program végrehajtása során számos ideiglenes regisztereredmény keletkezik. Ezek az ideiglenes értékek a fájlok regisztrálására vannak írva az állandó értékekkel együtt. Az ideiglenes érték lesz az új állandó érték, amikor a parancs befejeződik (eredménye rögzítésre kerül). A parancs végrehajtása viszont akkor következik be, amikor az összes korábbi parancs sikeresen befejeződött a program által meghatározott sorrendben.
A programozó (vagy fordító) csak logikai regiszterekkel foglalkozik.
A fizikai regiszterek megvalósítása rejtve van előtte.

Így az R10000 processzorban használt hardverregiszter-átnevezési módszernek három fő előnye van. Először is, a „találatosan végrehajtott” utasítások eredményei közvetlenül egy regiszterfájlba írhatók. Másodszor, ez a módszer kiküszöböli az összes írási olvasás után és írás utáni konfliktust, amelyek gyakran akkor merülnek fel, amikor a parancsokat nem megfelelően hajtják végre. Végül a regiszter átnevezési módszer megkönnyíti az adatfüggőségek szabályozását.
Mivel a processzor akár négy utasítást is kiadhat a végrehajtáshoz minden órajelben, a regiszter átnevezési folyamat összehasonlítja azok logikai számait, hogy meghatározza az ugyanabban az órajelben dekódolt négy utasítás közötti függőséget.

Az R10000 mikroprocesszorban megvalósított utasításleképezési séma két leképezési táblából, az aktív utasítások listájából és a szabad regiszterek két listájából áll (az integer utasításokhoz és a lebegőpontos utasításokhoz külön leképezési táblák és a szabad regiszterek listái vannak). A parancsvégrehajtás szekvenciális sorrendjének fenntartásához csak egy aktív parancslista létezik, amely egész számokat és lebegőpontos parancsokat is tartalmaz.

Az R10000 mikroprocesszor 64 fizikai regisztert tartalmaz
(egész és lebegőpontos). Egy fizikai regiszter értéke bármikor megtalálható a fenti listák egyikében. Az 5.15. ábra az egész számú utasításleképezés egyszerűsített blokkdiagramját mutatja.

A parancsok a parancs-gyorsítótárból kerülnek le és a leképezési táblába kerülnek.
Egy adott időpontban a 64 fizikai regiszterszám mindegyike az ábrán látható három blokk egyikében található.

Egy 32 elemből álló aktív parancslista tárolhatja a parancsok program által rendezett sorozatát, amelyek bármikor folyamatban lehetnek. Az egész utasítássorban lévő utasítások soron kívül is végrehajthatók, és eredményeket írhatnak a fizikai regiszterekbe, de a végrehajtás sorrendjét az aktív utasítások listája határozza meg.

A MIPS-el kapcsolatban itt most megállhatunk. Most ugyanilyen simán térjünk át a SPARC architektúrájú processzorokra.

5. A Sun Microsystems SPARC architektúrájú processzorainak jellemzői

Skálázható processzor architektúra SPARC (Scalable Processor
A Sun Microsystems architektúrája) a legszélesebb körben alkalmazott RISC architektúra, amely tükrözi a vállalat domináns pozícióját a UNIX munkaállomások és szerverek piacán. A SPARC processzorokat számos gyártó, köztük Texas is engedélyezte és gyártja a Sun specifikációi szerint
Műszerek, Fujitsu, LSI Logic, Bipolar International Technology, Philips,
Cypress Semiconductor és Ross Technologies. Ezek a cégek nem csak magának a Sun Microsystemsnek szállítanak SPARC processzorokat, hanem más ismert számítógéprendszer-gyártóknak is, például a Solbourne-nak,
Toshiba, Matsushita, Tatung és Cray Research.

A SPARC architektúrát eredetileg a 32 bites processzor megvalósításának egyszerűsítésére tervezték. Később az integrált áramkörök gyártási technológiájának fejlődésével fokozatosan fejlődött, és jelenleg ennek az architektúrának van egy 64 bites változata (SPARC-V9), amely az új mikroprocesszorok, ún.
UltraSPARC. Az első SPARC processzort a Fujitsu gyártotta egy 16,67 MHz-es frekvencián működő kaputömb alapján. Erre a processzorra alapozva fejlesztették ki az első 10 MIPS teljesítményű Sun-4 munkaállomást, amelyet 1987 őszén jelentettek be (ezelőtt a Sun Motorola 680X0 mikroprocesszorokat használt termékeiben).
1988 márciusában a Fujitsu 25 MHz-re növelte az órajelet, így 15 MIPS teljesítményű processzort hozott létre.

Később a Sun ügyesen kihasználta az integrált áramkörök beszállítói közötti versenyt, és a legsikeresebb terveket választotta SPARCstation 1, 1+, IPC, ELC, IPX, 2 termékeinek, valamint 4xx és 6xx sorozatú szervereinek értékesítéséhez. A SPARC processzorok órajele 40-re nőtt
MHz, a teljesítmény pedig akár 28 MIPS.

Az architektúrával rendelkező processzorok teljesítményének további növelése
A SPARC a szuperskaláris feldolgozási elvek chipen történő megvalósításával jött létre a Texas Instruments és a Cypress által. CPU
A Texas Instruments SuperSPARC a SPARCstation/SPARCserver 10 és 20 sorozatú munkaállomások és szerverek alapja, amely a parancsmixtől függően akár három parancsot is kiadhat gépi órajel-ciklusonként. CPU
A SuperSPARC kiegyensúlyozott teljesítményt nyújt a fixpontos és a lebegőpontos műveleteknél. 36 KB belső gyorsítótárral rendelkezik
(20 KB utasítás-gyorsítótár és 16 KB adatgyorsítótár), külön integer és valós aritmetikai csővezetékek és 75 MHz-es órajel-frekvencia körülbelül 205 MIPS teljesítményt biztosít.

Bár a SPARC architektúra sokáig domináns maradt a RISC processzorok piacán, különösen a munkaállomás szektorban, a processzorok órajelének növekedése 1992 és 1994 között lassabb ütemben ment végbe, mint a konkurens processzorarchitektúrák órajelének növekedése. E szakadék áthidalására és a 64 bites processzorok piaci megjelenésére válaszul a Sun ötéves modernizációs programot dolgozott ki és hajt végre. E program keretében a Sun 1994-ben 100 MHz-re tervezte a MicroSPARC processzorok órajelét (a 110 MHz-es MicroSPARC II processzort SPARCstation 4 és 5 munkaállomásokon és szervereken használják). A végén
1994-ben és 1995-ben megjelentek a piacon a hyperSPARC mikroprocesszorok és a SPARCstation 20 egy- és többprocesszoros munkaállomások 100, 125 és 150 MHz-es processzor órajellel. 1995 közepére a SuperSPARC processzorok órajele 85 MHz-re emelkedett (60, 75 és
Ennek a processzornak a 85 MHz-es verzióját jelenleg a Sun SPARCstation 20, SPARCserver 1000 és SPARCcenter 2000 munkaállomásai és szerverei, valamint a Cray Research 64 processzoros szervere használják. Végül 1995 novemberében megjelentek a 64 bites UltraSPARC-I processzorok 143, 167 és 200 MHz órajellel, valamint UltraSPARC-II processzorok 250-300 MHz órajellel, amelyek tömeggyártása 1996 közepén kezdődött. Ezt követően UltraSPARC-III processzorok gyártása maximum frekvenciájú
500 MHz.

Ennek a processzornak több változata is létezik, amely a parancsok keverékétől függően akár három, órajel-frekvenciában (50, 60, 75 és 85 MHz) eltérő parancs feldolgozását teszi lehetővé egy gépi ciklusban. SuperSPARC processzor
(9. ábra) kiegyensúlyozott teljesítményt nyújt a fixpontos és a lebegőpontos műveleteknél. 36 KB belső gyorsítótárral rendelkezik
(20 KB utasítás-gyorsítótár és 16 KB adatgyorsítótár), külön integer és valós aritmetikai csővezetékek és 75 MHz-es órajel-frekvencia körülbelül 205 MIPS teljesítményt biztosít. A SuperSPARC processzort a cég SPARCserver 1000 és SPARCcenter 2000 szerverei is használják
Nap.

Szerkezetileg a kristály háromféle cserélhető processzormodulra van felszerelve, amelyek különböznek a második szintű gyorsítótár jelenlétében és méretében, valamint az órajel frekvenciájában. A modellben használt M-bus SuperSPARC modul
Az 50 50 MHz-es SuperSPARC processzort tartalmaz, belső 36 KB gyorsítótárral
(20 KB utasítás-gyorsítótár és 16 KB adatgyorsítótár). M-bus SuperSPARC modulok modellekben
Az 51, 61 és 71 egy-egy SuperSPARC processzort tartalmaz 50, 60 és 75 MHz-en, valamint egy gyorsítótár-vezérlő chipet
(az úgynevezett SuperCache), valamint egy 1 MB kapacitású külső gyorsítótárat. Az 502-es, 612-es, 712-es és 514-es modellek M-bus moduljai két SuperSPARC processzort és két-két gyorsítótár-vezérlőt tartalmaznak, az utolsó három modell pedig processzoronként egy 1 MB-os külső gyorsítótárat tartalmaz. A cache memória használata lehetővé teszi, hogy a CPU-modulok az alaplapi órajeltől eltérő órajelen működjenek; Az összes modell használói ezért a teljes alaplap frissítése helyett a meglévő CPU-modulok cseréjével javíthatják rendszerük teljesítményét.

Rizs. 9. hyperSPARC

A hyperSPARC mikroprocesszor fejlesztői előtt álló egyik fő kihívás a teljesítmény javítása volt, különösen a lebegőpontos műveletek végrehajtása során. Ezért a fejlesztők különös figyelmet fordítottak arra, hogy egyszerű és kiegyensúlyozott, hatlépcsős csővezetékeket hozzanak létre egész aritmetikai és lebegőpontos számításokhoz. Ezeknek a csővezetékeknek a logikai áramköreit gondosan megtervezték, a fokozatok közötti kapuk logikai szintjeit kiegyenlítették, hogy leegyszerűsítsék az órajel-frekvencia további növelésének kérdéseit.

A hyperSPARC processzorok teljesítménye a külső busz (MBus) sebességétől függetlenül változhat. A hyperSPARC szerszámkészlet lehetővé teszi mind a szinkron, mind az aszinkron műveleteket az egyedi RT625 szerszámlogikával. A belső processzorbusz és a külső busz leválasztása lehetővé teszi a processzor órajelének növelését a memória és az I/O alrendszerek frekvenciájától függetlenül. Ez hosszabb életciklust biztosít, mivel a nagyobb teljesítményű hyperSPARC modulokra való frissítés nem igényli a teljes rendszer átdolgozását.

A hyperSPARC 100 MHz-es processzorkészlet CMOS folyamattechnológiára épül, három szintű fémezéssel és 0,5 mikronos tervezési szabványokkal. A belső logika 3,3 V tápfeszültséggel működik.

A hyperSPARC processzor több chipből álló mikroösszeállításként valósult meg
(5.4. ábra), amely egy szuperskaláris folyamatrészt és egy szorosan kapcsolódó második szintű gyorsítótárat tartalmaz. A kristálykészlet tartalmazza
Az RT620 (CPU) a központi feldolgozó egység, az RT625 (CMTU) a gyorsítótár-vezérlő, a memóriakezelő egység és a címkeegység, négy RT627 (CDU) adatgyorsítótár pedig 256 KB-os L2 gyorsítótárat valósít meg.
Az RT625 interfészt is biztosít az MBushoz. CPU RT620
(10. ábra) egy egész szám eszközből, egy lebegőpontos eszközből, egy betöltő/író eszközből, egy ugróeszközből és egy kétcsatornás, 8 KB kapacitású halmazasszociatív utasításmemóriából áll. Az egész eszköz tartalmaz egy ALU-t és egy külön adatútvonalat a betöltési/írási műveletekhez, amelyek a processzor négy végrehajtási egysége közül kettő. Az átmeneti eszköz vezérlőátviteli parancsokat dolgoz fel, és a lebegőpontos eszköz valójában két független csővezetékből áll - a lebegőpontos számok összeadásából és szorzásából. A processzor átviteli sebességének növelése érdekében a lebegőpontos utasítások áthaladnak az egész folyamaton, és belépnek egy sorba, ahol a lebegőpontos folyamatok egyikében várják, hogy lefussanak. Minden ciklusban két csapat kerül kiválasztásra. BAN BEN általános eset, mindaddig, amíg ez a két parancs adatfüggőségek hiányában különböző végrehajtó eszközöket igényel, egyidejűleg is elindíthatók. Az RT620 két regiszterfájlt tartalmaz: 136 egész regisztert nyolc regiszter ablakként konfigurálva, és 32 egyedi lebegőpontos regisztert, amelyek a lebegőpontos eszközben találhatók. A hyperSPARC processzor L2 gyorsítótára az RT625 CMTU-n alapul, amely egy olyan kombinált chip, amely gyorsítótár-vezérlőt és memóriakezelő egységet tartalmaz, amely támogatja a megosztott külső memóriát és a szimmetrikus többfeldolgozást. A gyorsítótár-vezérlő egy 256 KB-os gyorsítótárat támogat, amely négy RT627 CDU-ból áll. A gyorsítótár közvetlen leképezéssel és 4K címkékkel rendelkezik. A gyorsítótárban lévő címkék fizikai címeket tartalmaznak, így az RT625-ben található többprocesszoros gyorsítótár-koherencia logika gyorsan képes észlelni a találatokat vagy kihagyásokat, ha az előtérbuszról nézzük, anélkül, hogy a CPU gyorsítótár-hozzáférését leállítaná.
Mind az átírási, mind a visszamásolási mód támogatott.

A memóriakezelő eszköz egy teljesen asszociatív cache memóriát tartalmaz a virtuális címek fizikai címekké alakításához
(TLB), amely 64 sorból áll, amely 4096 kontextust támogat. Az RT625 tartalmaz egy 32 bájtos olvasási puffert a betöltéshez és egy 64 bájtos írási puffert az L2 gyorsítótár kiürítéséhez. A gyorsítótár sor mérete 32 bájt. Ezenkívül az RT625 időzítési logikát is tartalmaz, amely interfészt biztosít a processzor belső busza és a SPARC MBus között, amikor aszinkron műveleteket hajt végre.

Az RT627 egy 16K(32K) SRAM, amelyet kifejezetten a hyperSPARC követelményeinek kielégítésére terveztek. Négy csatornás SRAM-ként van felszerelve, négy tömbbe, bájtos írási logikával és bemeneti és kimeneti reteszelő regiszterekkel. A CPU RT627 egy nulla- állapotváró gyorsítótár csővezetékes veszteségek nélkül (azaz leállások nélkül) a gyorsítótárat elérő összes betöltés és írás esetén.Az RT627-et kifejezetten a hyperSPARC processzorhoz tervezték, így nincs szükség további áramkörre az RT620 és RT625 interfészhez.

A szerszámkészlet lehetővé teszi, hogy kihasználja a processzor és a gyorsítótár közötti szoros kapcsolat előnyeit. Az RT620-at úgy tervezték, hogy lehetővé tegye egy óraciklus elvesztését az L1 gyorsítótár kihagyása esetén. Az L2 cache-memória eléréséhez az RT620 egy speciális folyamatszakasszal rendelkezik. Ha hiányzik az L1 gyorsítótár, és találat van az L2 gyorsítótárban, a CPU nem áll le.

Az utasítások betöltése és írása egyidejűleg két hozzáférést generál: egyet a 8 KB-os L1 utasítás-gyorsítótárhoz, egyet pedig az L2-gyorsítótárhoz. Ha az utasításcím megtalálható az első szintű gyorsítótárban, akkor a második szintű gyorsítótárhoz való hozzáférés megszakad, és az utasítás elérhetővé válik a folyamat dekódolási szakaszában. Ha a belső gyorsítótárban hiba van, és a második szintű gyorsítótárban találatot észlel, akkor az utasítás egy órajel elvesztésével válik elérhetővé, amely a folyamatba van beépítve. Ez a képesség lehetővé teszi, hogy a folyamat folyamatosan működjön mindaddig, amíg L1 vagy L2 gyorsítótár találatok vannak, amelyek 90%-os, illetve 98%-osak a tipikus alkalmazásoknál. munkaállomás. Az építészeti egyensúly elérése és a kivételkezelés egyszerűsítése érdekében az egész számok és a lebegőpontos csővezetékek mindegyikének öt működési szakasza van. Ez a kialakítás lehetővé teszi, hogy az RT620 maximális átviteli sebességet biztosítson, amely egyébként nem érhető el.

A processzor áttekintésével befejezhetjük a SPARK architektúrájú processzorokról szóló tárgyalásunkat.

6. PA-RISC processzorok a Hewlett-Packardtól

A modern Hewlett-Packard termékek fejlesztésének alapja a PA-RISC architektúra. A cég 1986-ban fejlesztette ki, és azóta a fejlesztés több szakaszán ment keresztül az integrált technológia sikerének köszönhetően a többchipestől az egychipes tervezésig. Szeptemberben
1992-ben a Hewlett-Packard bejelentette PA-7100 szuperskalár processzorának megalkotását, amely azóta a HP 9000 Series 700 munkaállomáscsalád és a HP 9000 Series 800 üzleti szervercsalád alapja lett. Jelenleg 33, 50 darab van belőle. -, és a PA-7100 kristály 99 MHz-es megvalósítása. Ezenkívül megjelentek a módosított PA-7100LC kristályok, amelyek órajel-frekvenciája 64, sok szempontból továbbfejlesztve.
80 és 100 MHz, valamint PA-7150 125 MHz órajellel, valamint PA-7200 90 és 100 MHz órajellel. A cég aktívan fejleszti a következő generációs HP 8000 processzort, amely órajelen fog működni
200 MHz, és 360 egység SPECint92 és 550 egység SPECfp92 szintet biztosít.
Ennek a kristálynak a megjelenése 1996-ban várható. Emellett Hewlett-
A Packard az Intellel együttműködve létrehozta új processzor nagyon hosszú parancsszóval (VLIW architektúra), amely mind a családdal kompatibilis
Intel x86 és a PA-RISC család. Ennek a processzornak a gyártása 1998-ban kezdődött. Szemléltető példaként válasszuk a PA-7100/

A PA-RISC architektúra jellemzője a gyorsítótár chipen kívüli megvalósítása, amely lehetővé teszi különböző mennyiségű cache memória megvalósítását és a tervezés optimalizálását az alkalmazás feltételeitől függően (ábra
12.). Az utasításokat és az adatokat külön gyorsítótárban tárolják, és a processzor nagysebességű 64 bites buszok segítségével csatlakozik hozzájuk. A gyorsítótárat nagy sebességű statikus memóriakristályokon valósítják meg
(SRAM), amelyek közvetlenül a processzor órajelével szinkronizálódnak. 100 MHz-en minden gyorsítótár 800 MB/s olvasási és 400 MB/s írási sávszélességgel rendelkezik. A mikroprocesszoros hardver különböző mennyiségű gyorsítótárat támogat: az utasítás-gyorsítótár mérete 4 KB-tól 1 KB-ig terjedhet
MB, adatgyorsítótár - 4 KB-tól 2 MB-ig. A kihagyási arány csökkentésére egy címkivonatoló mechanizmust használnak. Mindkét gyorsítótár további ellenőrző biteket használ a megbízhatóság növelése érdekében, az utasítás-gyorsítótár hibáit pedig hardver javítja.

A lebegőpontos egység (13. ábra) az IEEE 754 szabványban egyszeres és kettős precíziós aritmetikát valósít meg, szorzóegysége egész szám szorzási műveletek végrehajtására is szolgál. Az osztás és a négyzetgyök egységek kétszeres processzorsebességgel működnek. Az aritmetikai logikai egység adatformátumok összeadási, kivonási és átalakítási műveleteit hajtja végre. A regiszterfájl 28 64 bites regiszterből áll, amelyek mindegyike két 32 bites regiszterként használható egyetlen precíziós lebegőpontos műveletek végrehajtására. A regiszterfájl öt olvasási és három írási porttal rendelkezik, amelyek lehetővé teszik az egyidejű szorzást, összeadást és betöltési/írási műveleteket. A legtöbb CPU teljesítményjavulás az órajel 100-ra való növeléséből származik
MHz-hez képest elődje 66 MHz-éhez képest.

Az egész eszköz folyamatának hat szakasza van: Utasítás gyorsítótár olvasása (IR), Operandus olvasás (OR), Végrehajtás/Adat gyorsítótár olvasása
(DR), Data Cache Read Complete (DRC), Register Write (RW) és Data Cache Write (DW). Az azonosítás szakaszában az utasítások lekérésre kerülnek. A kétutasításos mechanizmus megvalósításához egy kis előletöltési pufferre van szükség, amely biztosítja, hogy az utasításokat két órajel ciklussal az IR szakasz működése előtt lekérjék. A VAGY szakaszban történő végrehajtás során minden aktuátor dekódolja az utasítás operandusmezőit, és elkezdi kiszámítani a művelet eredményét. A DR szakaszban az egész eszköz befejezi működését. Ezenkívül az adatgyorsítótár olvasást hajt végre, de nem érkezik adat, amíg a DRC szakasz be nem fejeződik. Az összeadás (ADD) és szorzás (MULTIPLY) műveletek eredményei is érvényesek lesznek a DRC szakasz végén. Az általános célú és lebegőpontos regiszterekbe írás az RW szakaszban történik. Az adatgyorsítótárba írás (STORE) parancsokkal történő íráshoz két óraciklus szükséges. A legkorábbi push-pull STORE parancsablak az RW és DW szakaszokban jelenik meg. Ez az ablak azonban eltolódhat, mert az adatgyorsítótárba írás csak a következő írási parancs megjelenésekor történik. A lebegőpontos számok osztási és négyzetgyök műveletei sok óraciklust fejeznek be a DW szakasz után.

A folyamatot úgy tervezték, hogy maximalizálja a külső SRAM-adatgyorsítótárból történő olvasás befejezéséhez szükséges időt. Ez lehetővé teszi a processzor frekvenciájának maximalizálását egy adott SRAM sebességhez. Az összes betöltési (LOAD) utasítás egy órajelben fut le, és csak egy óraciklust igényel az adatgyorsítótár sávszélességéhez. Mivel a parancs- és adatgyorsítótár különböző buszokon található, a folyamatban nincsenek veszteségek az adatgyorsítótár és a parancs-gyorsítótár hívásai közötti ütközések miatt.

A processzor minden órajelben egy egész számú utasítást és egy lebegőpontos utasítást adhat ki a végrehajtáshoz. Az utasítás-gyorsítótár sávszélessége elegendő ahhoz, hogy támogassa két utasítás folyamatos kiadását órajelenként. Nincsenek korlátozások az együtt végrehajtott parancspárok igazítására vagy sorrendjére. Ezen túlmenően, nincsenek óraciklusok, amelyek két utasítás végrehajtásáról egy utasítás végrehajtására váltanak. Különös gondot fordítottak arra, hogy egy órajelben két parancs kiadása ne korlátozza az órajel frekvenciáját. Ennek elérése érdekében egy dedikált előre dekódolható bitet implementáltak az utasítás-gyorsítótárban, hogy elválasztsák az egész számú eszköz utasításait a lebegőpontos eszközutasításoktól. Ez a parancs-elődekódoló bit minimálisra csökkenti a parancsok megfelelő szétválasztásához szükséges időt.

Az adat- és vezérlésfüggőségekkel kapcsolatos veszteségek minimálisak ebben a folyamatban. A betöltési utasítások egy óraciklus alatt futnak le, kivéve, ha a következő utasítás a LOAD utasítás célregiszterét használja. A fordító általában lehetővé teszi egy ciklus ilyen veszteségének megkerülését. A feltételes elágazási utasításokkal kapcsolatos veszteségek csökkentése érdekében a processzor egy algoritmus segítségével megjósolja a vezérlés átvitelének irányát. A hurkok teljesítményének optimalizálása érdekében a programon keresztüli előremenő vezérlési átvitelek előre nem végrehajtott ágakként, a programon keresztüli visszafelé irányuló vezérlések pedig végrehajtott ágakként vannak előre.
A helyesen megjósolt feltételes ágak egy órajel ciklusban végrehajtásra kerülnek.

A STORE paranccsal egy szó vagy dupla szó írásához szükséges pipák száma háromról kettőre csökkent. A PA-RISC architektúra korábbi megvalósításaiban egy további óraciklusra volt szükség a gyorsítótár-címke beolvasásához, hogy biztosítsa a találatot, valamint a régi adat-gyorsítótár-sor adatainak összevonása az írandó adatokkal. A PA 7100 külön címcímke buszt használ a címke beolvasásának időzítésére az előző STORE parancsadatok írásával. Ezen túlmenően, ha a gyorsítótár sorának minden egyes szavára külön írásengedélyező jelek vannak, szükségtelenné válik a régi adatok egyesítése a word vagy dword írási parancsokból származó új adatokkal. Ez az algoritmus megköveteli, hogy az SRAM-chipekre való írás csak azután történjen, hogy ezt megállapították ezt a bejegyzést gyorsítótár-leütés kíséri, és nem okoz megszakítást. Ehhez egy további folyamatlépésre van szükség a címke beolvasása és az adatok írása között. Ez a folyamat nem jár további elvesztegetett órajelciklusokkal, mivel a processzor speciális bypass áramköröket valósít meg, amelyek lehetővé teszik a késleltetett írási parancs adatok továbbítását a következő betöltési parancsokhoz vagy a szónak csak egy részét kiíró STORE parancsokhoz. Mert ennek a processzornak A szó- vagy duplaszavas írási utasítások csővezeték-feladata nullára csökken, kivéve, ha a közvetlenül ezt követő utasítás betöltési vagy írási utasítás. Ellenkező esetben a veszteségek egy ciklusnak felelnek meg. A szó egy részének rögzítésének veszteségei nullától két órajelig terjedhetnek. A szimulációk azt mutatják, hogy az írási parancsok túlnyomó többsége valójában egyszavas vagy kétszavas formátumban működik.

Minden lebegőpontos művelet, az osztás és a négyzetgyök utasítások kivételével, teljesen csővezetékes, és push-pull késleltetéssel rendelkezik mind egyszeri, mind kettős precíziós módban.
A processzor független lebegőpontos utasításokat tud kiadni a végrehajtáshoz minden órajelben veszteség nélkül. A regiszterfüggőségekkel végzett egymást követő műveletek egy ciklus elvesztését eredményezik.
Az osztás és a négyzetgyök parancsok 8 órajel ciklusban hajtódnak végre az egyszeri pontosság és 15 órajel ciklusban a kettős pontosság érdekében. Az utasítás végrehajtását nem állítják le az osztás/négyzetgyök utasítások mindaddig, amíg az eredményregiszterre nincs szükség, vagy a következő osztás/négyzetgyök utasítást ki nem adják.

A processzor egy egész számú és egy lebegőpontos utasítást tud párhuzamosan végrehajtani. Ebben az esetben az „egész számú utasítások” a lebegőpontos regiszterek betöltésére és írására vonatkozó utasításokat is tartalmazzák, a „lebegőpontos utasítások” pedig az FMPYADD és az FMPYSUB utasításokat tartalmazzák. Ez utóbbi utasítások kombinálják a szorzást a párhuzamosan végrehajtott összeadási, illetve kivonási műveletekkel. A csúcsteljesítmény 200 MFLOPS egy olyan FMPYADD utasítássorozat esetén, amelyben a szomszédos utasítások regiszterfüggetlenek.

A LOAD utasítással operandus-előtöltést használó lebegőpontos műveletek többletterhelése egy órajelciklus, ha a terhelés és a lebegőpontos utasítások összefüggőek, és két órajelciklus, ha egyidejűleg adják ki őket végrehajtásra. Egy lebegőpontos művelet eredményét használó írási utasítás esetén nincs veszteség, még akkor sem, ha párhuzamosan hajtják végre.

Az adatgyorsítótár kihagyásainak többletterhelése minimálisra csökkenthető négy különböző technika használatával: a LOAD és STORE utasításokhoz való hit-on-miss, az adatgyorsítótár szálfűzése, az írási parancsok speciális kódolása a kihagyott sor másolásának elkerülése érdekében, valamint szemafor műveletek cache memória. Az első tulajdonság lehetővé teszi bármilyen más parancs végrehajtását az adatgyorsítótár-kihagyás feldolgozása közben. A LOAD utasítás során előforduló kihagyások esetén a következő utasítások feldolgozása addig folytatódhat, amíg a LOAD utasítás eredményregisztere nem szükséges egy másik utasítás operandusregisztereként. A fordító ezt a tulajdonságot használhatja a szükséges adatok előzetes lekérésére a gyorsítótárba, jóval azelőtt, hogy ténylegesen szükség lenne rá. A STORE utasítás során előforduló kihagyások esetén a következő betöltési parancsok vagy egy szórész írásának feldolgozása addig folytatódik, amíg nincs hivatkozás arra a sorra, ahol a kihagyás történt. A fordító ezt a tulajdonságot használhatja parancsok végrehajtására, miközben rögzíti a korábbi számítások eredményeit. A kihagyásos feldolgozási késleltetés alatt az adatgyorsítótárat elérő egyéb LOAD és STORE utasítások ugyanúgy végrehajthatók, mint a többi egész és lebegőpontos utasítás. A STORE utasítás kihagyásának teljes feldolgozási ideje alatt más írási utasítások is előfordulhatnak ugyanabba a gyorsítótár-sorba további időveszteség nélkül. A gyorsítótár sorában lévő minden egyes szóhoz a processzor rendelkezik egy speciális jelzőbittel, amely megakadályozza, hogy a sorból a STORE utasítások által írt szavakat másolják a memóriából. Ez a funkció az egész és float LOAD és STORE műveletekre vonatkozik.

A parancs végrehajtása leáll, amikor a parancs célállomása regisztrál
A sikertelen LOAD egy másik utasítás operandusaként szükséges. A szálfűzési tulajdonság lehetővé teszi a végrehajtás folytatását, amint a kívánt szó vagy kettős szó visszakerül a memóriából. Így a parancs végrehajtása folytatódhat mind a kihagyás feldolgozásával kapcsolatos késleltetés alatt, mind pedig addig, amíg a megfelelő sor kitöltésre kerül, amikor a kihagyás bekövetkezik.

Az adatok blokkmásolásakor bizonyos esetekben a fordító előre tudja, hogy az írást a gyorsítótár teljes sorára kell végrehajtani.
Az ilyen helyzetek kezelésének optimalizálása érdekében a PA-RISC 1.1 architektúra az írási parancsok speciális kódolását határozza meg ("blokkmásolat"), ami azt jelenti, hogy a hardvernek nem kell olyan sort lekérnie a memóriából, amely gyorsítótár-kihagyást okozhat. Ebben az esetben az adatgyorsítótárhoz való hozzáférési idő annak az időnek az összege, amely alatt a régi gyorsítótár sorát a memóriába másolják a gyorsítótár ugyanazon a címén.
(ha piszkos) és az új gyorsítótár-címke írásához szükséges idő. A PA 7100 processzor ezt a képességet biztosítja mind a privilegizált, mind a nem jogosult utasításokhoz.

Az adatgyorsítótár-kezelés legújabb fejlesztése a „nulla terhelésű” szemaforműveletek közvetlenül a gyorsítótárba való implementálása.
Ha egy szemafor műveletet hajtanak végre a gyorsítótárban, akkor a végrehajtás során elveszett idő nem haladja meg a normál írási műveletek elvesztését. Ez nemcsak a csővezeték többletterhelését csökkenti, hanem a memóriabusz-forgalmat is. A PA-RISC 1.1 architektúra egy másik típusú speciális utasításkódolást is biztosít, amely kiküszöböli a szemafor műveletek I/O eszközökkel történő szinkronizálását.

A parancs-gyorsítótár-memória kezelése lehetővé teszi, hogy kihagyás esetén azonnal folytassuk a parancsok végrehajtását, miután a gyorsítótárban nem lévő parancs megérkezik a memóriából. Az utasítás-gyorsítótár blokkok feltöltésére használt 64 bites adatbusz 400 MB/s maximális külső memóriabusz sávszélességnek felel meg 100 MHz-en.

A processzor számos intézkedést is kínál a virtuális címek fizikai címekké alakításával járó veszteségek minimalizálására.

A processzor kialakítása kétféle módon valósítja meg a többprocesszoros rendszerek felépítését. Az első módszernél minden processzor egy interfész chiphez csatlakozik, amely a fő memóriabuszon lévő összes tranzakciót figyeli. Egy ilyen rendszerben a gyorsítótár koherens állapotának fenntartására szolgáló összes funkció az interfészkristályhoz van hozzárendelve, amely elküldi a megfelelő tranzakciókat a processzornak. Az adatgyorsítótár lazy-back elvekre épül, és minden gyorsítótár-blokkhoz privát állapotbiteket tart fenn.
„piszkos” és „érvényes”, amelyek értéke a processzor által kibocsátott vagy elfogadott tranzakcióknak megfelelően változik.

A többprocesszoros rendszer megszervezésének második módszere lehetővé teszi két processzor és egy memória és egy I/O vezérlő kombinálását ugyanazon a helyi memóriabuszon. Ez a konfiguráció nem igényel további interfész chipeket, és kompatibilis a meglévő memóriarendszerrel.
A gyorsítótár koherenciáját a helyi memóriabusz figyelése biztosítja. A gyorsítótárak közötti vonalátvitel a memóriavezérlő és az I/O részvétele nélkül történik. Ez a konfiguráció lehetővé teszi nagyon alacsony költségű, nagy teljesítményű többprocesszoros rendszerek építését.

A processzor számos olyan műveletet támogat, amelyek a 700-as sorozatú munkaállomások grafikus teljesítményének javításához szükségesek: blokkátvitel, Z-pufferelés, színinterpoláció és lebegőpontos adatátviteli parancsok az I/O térrel való cseréhez.

A processzor a CMOS folyamattechnológiára épül, 0,8 mikronos tervezési szabványokkal, amely 100 MHz-es órajelet biztosít.

Viktor Vladilenovics, lényegében ennyit szerettem volna nyújtani ebben a kérdésben.

7. Irodalom.

1. M. Guk Modern mikroprocesszorok Pentium, Pentium II, Pentium III.

„Peter” kiadó 2000
M. Guk IBM PC hardver Kiadó "PiterCom" St.-P. 1999
Zharov A. IBM 2000 hardver vagy minden amiről szól modern számítógép M.2000
"Microart" kiadó.
A www.Ixbt.com www.informix.ru www.banknet.kz www.hardware.ru www.fcentr.com oldalakon közzétett anyagokat is felhasználtuk
Folyóiratokban megjelent cikkekből felhasznált anyagok:
"PC World", "Computerworld", "Computerra".

Automatizált Információs Rendszerek és Technológiák Tanszék

"Alkalmazott informatika a közgazdaságtanban" szakterület

TANFOLYAM MUNKA

a „Számítástechnikai rendszerek, hálózatok és távközlés” tanfolyamon

HOLDING

Bevezetés. 3

A mikroprocesszor definíciója. 4

A modern mikroprocesszorok fejlődésének története. 10

A modern mikroprocesszorok piaci szerkezete. 13

Modern INTEL processzorok. 15

Mikroprocesszor PentiumM..16

Intel Core 2 Quad. 19

Modern mikroprocesszorok az AMD-től... 21

Mikroprocesszor K5. 22

Mikroprocesszor K6. 24

Mikroprocesszor K7. 25

Következtetés. 28

Hivatkozások.. 29

Bevezetés

A személyi számítógépek fejlődése a világban mikroprocesszorok kialakulásához vezetett. Fejlesztési trendek modern technológiák A processzorok és alkalmazásaik gyártása évről évre felgyorsul. Új nanotechnológiákat alkalmaznak, növekszik az egy chipen lévő magok száma, növekszik a processzorok bitkapacitása, minden szinten növekszik a cache memória, új utasításkészleteket használnak, és még sok más. Éppen ezért ezt a témát tekintik jelenleg a legrelevánsabbnak ebben a kurzusmunkában. Munkám célja a mikroprocesszorok tervezésének tanulmányozása, gyártási technológiáinak megismerése, valamint a modern mikroprocesszorok típusainak átgondolása. A vizsgálat tárgya a mikroprocesszor és fő funkciói. A tanulmány tárgya a modern mikroprocesszorok típusai.

Minden számítógép alapja a mikroprocesszorok használata. Pontosan ezt fontos eszköz bármilyen számítógép. Bármely számítógép teljesítményszintje, nem csak a személyesé, attól függ. A mikroprocesszorok mindenhol körülveszik az embereket. A modern társadalom bármely elektronikája fel van szerelve saját mikroprocesszorral.

Tanfolyami munkám célja:

1. Elemezze a modern mikroprocesszorok fejlődési irányait!

2. Határozza meg jelentőségüket a társadalom számára.

3. Próbáljon hozzávetőleges jóslatokat tenni jövőbeli fejlődésükkel kapcsolatban.

A mikroprocesszor definíciója

A mikroprocesszor a számítógép (vagy számítástechnikai rendszer) központi eszköze (vagy eszközkészlete), amely információkonverziós programmal meghatározott aritmetikai és logikai műveleteket hajt végre, vezérli a számítási folyamatot és koordinálja a rendszer eszközeinek működését (tárolás, rendezés, bevitel). -kimenet, adatelőkészítés stb.). Egy számítógépes rendszerben több processzor futhat párhuzamosan; Az ilyen rendszereket többprocesszoros rendszernek nevezzük. Több processzor jelenléte felgyorsítja egy nagy vagy több (köztük egymással összefüggő) program végrehajtását. A mikroprocesszor fő jellemzői a sebesség és a bitmélység. A teljesítmény a másodpercenként végrehajtott műveletek száma. A bitkapacitás a mikroprocesszor által egy műveletben feldolgozott információ mennyiségét jellemzi: egy 8 bites processzor 8 bit információt dolgoz fel egy műveletben, egy 32 bites processzor 32 bitet, egy 64 bites processzor 64 bitet dolgoz fel. A mikroprocesszor sebessége nagymértékben meghatározza a számítógép sebességét. A számítógépbe belépő és a memóriájában tárolt adatok minden feldolgozását a memóriában is tárolt program vezérlése mellett végzi. A személyi számítógépek különféle kapacitású központi processzorokkal vannak felszerelve.

Processzor funkciói:

· adatfeldolgozás által adott program aritmetikai és logikai műveletek végrehajtásával;

· számítógépes eszközök működésének szoftveres vezérlése.

A processzormodellek a következő együttműködő eszközöket tartalmazzák:

· Vezérlőeszköz (CU). Koordinálja az összes többi eszköz működését, eszközkezelési funkciókat lát el, számítógépes számításokat kezel.

· Aritmetikai logikai egység (ALU). Ez az eszköz neve egész számokkal végzett műveletekhez. Az aritmetikai műveletek, mint az összeadás, szorzás és osztás, valamint a logikai műveletek (OR, AND, ASL, ROL stb.) feldolgozása ALU segítségével történik. Ezek a műveletek teszik ki a legtöbb program kódjának túlnyomó részét. Az ALU-ban minden műveletet regiszterekben hajtanak végre - az ALU speciálisan kijelölt celláiban. Egy processzornak több ALU is lehet. Mindegyik képes a többitől függetlenül aritmetikai vagy logikai műveletek végrehajtására, lehetővé téve több művelet egyidejű végrehajtását. Egy aritmetikai logikai egység aritmetikai és logikai műveleteket hajt végre. A logikai műveletek két egyszerű műveletre oszlanak: "Igen" és "Nem" ("1" és "0"). Általában ezt a két eszközt pusztán feltételesen különböztetjük meg, szerkezetileg nincsenek elválasztva.

· AGU (címgeneráló egység)- címgeneráló eszköz. Ez az eszköz nem kevésbé fontos, mint az ALU, mert felelős a helyes címzésért az adatok betöltésekor vagy mentésekor. Az abszolút címzést a programokban csak ritka kivételek esetén alkalmazzák. Az adattömbök felvételekor a programkódban indirekt címzés kerül alkalmazásra, ami az AGU működését eredményezi.

· Matematikai társprocesszor ( FPU ). A processzor több matematikai társprocesszort is tartalmazhat. Mindegyik képes legalább egy lebegőpontos művelet végrehajtására, függetlenül attól, hogy a többi ALU mit csinál. A feldolgozási módszer lehetővé teszi, hogy egy matematikai társprocesszor több műveletet hajtson végre egyidejűleg. A társprocesszor támogatja a nagy pontosságú számításokat, mind az egész, mind a lebegőpontos számításokat, és tartalmaz egy sor hasznos állandót is, amelyek felgyorsítják a számításokat. A társprocesszor párhuzamosan működik központi processzor, így biztosítva a magas teljesítményt. A rendszer a társprocesszor utasításait abban a sorrendben hajtja végre, ahogyan azok a szálban megjelennek. Matematikai társprocesszor személyi számítógép Az IBM PC segítségével nagy sebességű aritmetikai és logaritmikus műveleteket, valamint trigonometrikus függvényeket hajthat végre nagy pontossággal.

· Utasítás (parancs) dekóder. Elemzi az utasításokat az operandusok és a címek kinyeréséhez, ahol az eredmények találhatók. Ezt követi egy üzenet egy másik független eszköznek arról, hogy mit kell tenni az utasítás végrehajtásához. A dekóder lehetővé teszi több utasítás egyidejű végrehajtását az összes végrehajtó eszköz betöltéséhez.

· Cache memória. Speciális nagy sebességű processzormemória. A gyorsítótár pufferként szolgál a processzor és a processzor közötti adatcsere felgyorsítására RAM, valamint a processzor által nemrégiben használt utasítások és adatok másolatainak tárolására. Az értékek a gyorsítótárból közvetlenül, a fő memória elérése nélkül kerülnek lekérésre. A programok jellemzőinek tanulmányozása során kiderült, hogy a memória bizonyos területeit eltérő frekvenciával érik el, nevezetesen: a program által nemrégiben elért memóriacellák nagy valószínűséggel újra felhasználhatók. Tegyük fel, hogy a mikroprocesszor képes ezen utasítások másolatait a helyi memóriájában tárolni. Ebben az esetben a processzor a ciklus során minden alkalommal használhatja ezen utasítások másolatát. Már az elején hozzá kell férnie a memóriához. Nagyon kis mennyiségű memória szükséges ezen utasítások tárolásához. Ha az utasítások elég gyorsan megérkeznek a processzorhoz, akkor a mikroprocesszor nem vesztegeti az időt a várakozással. Ezzel időt takaríthat meg az utasítások követésével. De a leggyorsabb mikroprocesszorokhoz ez nem elég. A probléma megoldása a memória szervezésének javítása. A mikroprocesszorban lévő memória magának a folyamatnak a sebességével tud működni

1. Első szintű gyorsítótár (L1 gyorsítótár). A processzor belsejében található gyorsítótár. Gyorsabb, mint minden más típusú memória, de kisebb méretű. Tárolja a legutóbb használt információkat, amelyeket rövid programciklusok végrehajtásakor használhat fel.

2. Második szintű gyorsítótár ( L 2 gyorsítótár ). A processzor belsejében is található. A benne tárolt információkat ritkábban használják fel, mint az első szintű gyorsítótárban tárolt információkat, de nagyobb a memóriakapacitása. Ezenkívül a processzorok jelenleg harmadik szintű gyorsítótárat használnak.

3. Fő memória. Sokkal nagyobb méretű, mint a gyorsítótár, és sokkal lassabb.

A többszintű cache memória lehetővé teszi a legerősebb mikroprocesszorok teljesítménykövetelményeinek csökkentését a fő dinamikus memória számára. Tehát, ha 30%-kal csökkenti a főmemória elérési idejét, akkor egy jól megtervezett cache memória teljesítménye csak 10-15%-kal nő. A gyorsítótár, mint ismeretes, a végrehajtott műveletek típusától függően jelentős hatással lehet a processzor teljesítményére, de ennek növelése nem feltétlenül növeli a processzor teljes teljesítményét. Minden attól függ, hogy az alkalmazás mennyire van optimalizálva az adott struktúrára és használja a gyorsítótárat, illetve attól is, hogy a különböző programszegmensek teljes egészében vagy darabokban vannak-e gyorsítótárazva.

Az AMD termékek sikeresen versenyeznek az Intel mikroprocesszorokkal. Számos mutató szerint ennek a cégnek a mikroprocesszorai vezető szerepet töltenek be. Néhány érdekes építészeti és műszaki megoldás, amelyet először az AMD mikroprocesszorokban használtak, később széles körben elterjedt más gyártók termékeiben, beleértve az Intel mikroprocesszorait is.

Mikroprocesszor K5

Az AMD, az Intel mögött legalább egy mikroprocesszorgeneráció, éveken át elsősorban licencelt technológiára támaszkodott, és kisebb tervezési változtatásokat hajtott végre mikroprocesszorain. A Pentium mikroprocesszor megjelenése közvetlen veszélyt jelentett az AMD számára, hogy kiszorul a piacról, ami arra ösztönözte a vállalatot, hogy intenzívebben dolgozzon az x86-kompatibilis mikroprocesszorok új családjának létrehozásán. A K5-ön való munka akkor kezdődött, amikor a Pentium processzor részletei még nem ismertek. Az AMD mérnökeinek saját mikroarchitektúrát kellett kifejleszteniük, miközben biztosítaniuk kellett az x86-os processzorok meglévő szoftvereivel való kompatibilitást.

Az AMD eredetileg 1995-ben tervezte 100–120 MHz-es mikroprocesszorának leszállítását, de ezekből a processzorokból csak néhány ezret gyártottak és mindössze 75 MHz-en működtek. A K5 jelentősebb szállításai 1996 első negyedévében kezdődtek, miután a vállalat áttért a Hewlett-Packarddal közösen kifejlesztett 0,35 mikronos technológiára. Ez lehetővé tette a tranzisztorok számának 4,2 millióra való növelését egy 167 mm 2 területű chipen.

A K5 ]68] az első olyan AMD mikroprocesszor, amely nem az Intel szellemi tulajdonának felhasználásával készült (kivéve a mikrokódot), ugyanakkor a legjobb Intel processzorok termelékenység. Számos alkalmazás, mint például a Microsoft Excel, a Word, a CorelDRAW, 30%-kal gyorsabban futott a K5 sorozatú processzorokon, mint az azonos órajelű Pentiumokon. Ezt a teljesítményt elsősorban a megnövelt gyorsítótár-memória és a fejlettebb szuperskaláris architektúra érte el. Az AMD mikroprocesszorokban használt RISC86 architektúra.

Mint ismeretes, az x86 utasításokat változó hosszúságú és összetett szerkezet jellemzi, ami megnehezíti az utasítások közötti meglévő adatfüggőségek dekódolását és elemzését. Az AMD architektúrájában a dekódoló, a mikroprocesszor legösszetettebb része, a hosszú CISC utasításokat kis RISC-szerű komponensekre, úgynevezett ROP-okra (RISC műveletek) bontja.

A ROP-ok az x86-os mikroprocesszorok mikrokódparancsaira emlékeztetnek. Az első x86 architektúrájú mikroprocesszorok a belső csak olvasható memóriából mikrokód kiválasztásával hajtották végre összetett mikroutasításkészletüket. A legújabb x86-os mikroprocesszorokban a mikrokód használata minimálisra csökkenthető egyszerű parancsok használatával és azok hardveres megvalósításával.

A Pentiummal ellentétben a két egész művelet párhuzamos végrehajtására szolgáló két folyamat helyett a K5-nek hat párhuzamos működési blokkja van. A lebegőpontos, a betöltés/tárolás vagy az ugrás utasítások végrehajthatók egyidejűleg az egész műveletekkel. A betöltés/tárolás blokk két utasítást tud lekérni a memóriából egy ciklusban. Egy másik különbség a Pentiumhoz képest, hogy a K5 képes megváltoztatni a végrehajtott parancsok sorrendjét.

A lebegőpontos egység (FPU) megfelel az x86-os szabványoknak, de teljesítményében némileg gyengébb, mint a Pentium processzor FPU-ja.

A K5 architektúrában használt CISC és RISC elvek kombinációja lehetővé tette az x86 utasításkészlet korlátainak leküzdését. A bonyolultság növekedése árán AMD processzor sikerült növelnie teljesítményét az x86 utasításrendszerrel való kompatibilitás megőrzése mellett. Ez utóbbi nagyon fontos, tekintettel az elterjedtségre szoftver ehhez a mikroprocesszoros architektúrához.

Mikroprocesszor K6

A K6 mikroprocesszort 1997-ben adták ki 0,35 mikronos CMOS technológiával ötrétegű fémezéssel, 8,8 millió tranzisztort tartalmazott egy 162 mm 2 területű chipen, 166, 200 és 233 MHz órajelekkel működött, és a Socket 7 csatlakozó.

A K5-höz hasonlóan a K6 is a RISC86 szuperskaláris architektúrát használta külön utasításdekódolással/végrehajtással, biztosítva a folytonosságot az x86 utasításkészlettel és a hatodik generációs mikroprocesszorokra jellemző nagy teljesítményt. A K6 a parancsrendszer multimédiás kiterjesztésével volt felszerelve - MMX. Teljesítményét tekintve a K6 ugyanazon az órajel-frekvencián jelentősen felülmúlta a Pentium MMX-et, és összehasonlítható volt a Pentium Pro-val. A Pentium Pro-val ellentétben a K6 egyformán jól működött 32 bites és 16 bites alkalmazásokkal is.

A nagy processzorteljesítményt számos új építészeti és technológiai megoldás biztosította.

· A processzor előre dekódolja az x86-os utasításokat, amikor lekéri azokat a gyorsítótárból. Az L1 gyorsítótár minden utasítása fel van szerelve elődekódolási bitekkel, amelyek jelzik a gyorsítótárban lévő következő utasítás kezdetének eltolását (I-től 15 bájtig).

· A K6 belső, különálló, 32 KB-os L1 gyorsítótárat tartalmaz az adatok és a parancsok számára.

· A processzor nagy teljesítményű lebegőpontos számítási egységet valósít meg.

· Az MMX szabványnak megfelelő multimédiás műveletek nagy teljesítményű blokkja található.

· Az x86 utasítások többszörös dekódolása egyciklusú RISC műveletekké (ROP).

· A processzor párhuzamos dekódolókat, központi műveletütemezőt és hét végrehajtási egységet tartalmaz, amelyek az utasítások szuperskaláris végrehajtását biztosítják egy hatlépcsős folyamatban.

· A processzor spekulatív végrehajtást alkalmaz az utasítások sorrendjének megváltoztatásával, az adatok előzetes küldésével és a regiszterek átnevezésével.

1998 elején megjelentek a 0,25 mikronos technológián alapuló, ötrétegű fémezésű processzorváltozatok 266 MHz és 300 MHz órajelre.

Mikroprocesszor K7

A következő generációs mikroprocesszor - K7 (kódnév Athlon) 1999 júniusában jelent meg. A K7 több mint 22 millió tranzisztort tartalmaz egy 184 mm2-es szerszámon, és eredetileg 0,25 mikronos technológiával, 6 rétegű fémezéssel* gyártották 500, 550, 600 és 650 MHz-es órajelekhez. Ezt követően a 0,18 mikronos technológiára való átállással a frekvencia 1 GHz-re és magasabbra nőtt. A mikroprocesszor tápfeszültsége 1,6 V.

A processzor egy kazettában található, és az AMD által fejlesztett A sloton keresztül csatlakozik az alaplaphoz. Az Athlon és az A Slot a Digital Alpha EV6 buszprotokollt használja, amely számos előnnyel rendelkezik az Intel által használt GTL+-hoz képest. Így az EV6 lehetőséget biztosít a „pont-pont” topológia használatára a többprocesszoros rendszerek számára. Ezenkívül az EV6 az órajel felfutó és lefutó élén működik, amely 100 MHz-es frekvencián 200 MHz-es effektív adatátviteli frekvenciát és 1,6 GB / s interfész sávszélességet biztosít. A következő processzormodellekben a busz működési frekvenciája (effektív frekvencia) elérte a 133 (266), majd a 200 (400) MHz-et.

Az Athlon architektúra neve QuantiSpeed™, és szuperskaláris, szupercsővezetékes végrehajtást, csővezetékes lebegőpontos egységet, hardver gyorsítótár előzetes letöltését és fejlett elágazás-előrejelzési technológiát tartalmaz.

Az Athlon kilenc végrehajtási egységgel rendelkezik: három egész számú végrehajtási egységgel (IEU), három címszámítási egységgel (AGU), valamint három lebegőpontos és adathordozó feldolgozó egységgel (egy lebegőpontos betöltés/tárolás (FSTORE) és két csővezetékes blokk az FPU végrehajtásához). /MMX/3DNOW parancsok).

Az Athlon három x86-os utasítást hat RISC-műveletté tud dekódolni. A dekódolás után a ROP-ok egy pufferbe kerülnek, ahol a processzor egyik funkcionális blokkjában várják a sorukat a végrehajtásra. A K7 puffer 72 műveletet tartalmaz (háromszor többet, mint KB), és 9 ROP-t állít elő 9 működtetőhöz.

Az Athlon 128 KB L1 gyorsítótárral rendelkezik (64 KB az adatokhoz és 64 KB az utasításokhoz). A második szintű gyorsítótárral való interakcióhoz egy speciális busz áll rendelkezésre (mint az Intel P6 architektúra). Az 512 KB méretű második szintű gyorsítótár a processzormagon kívül, a processzorkazettában található, és a magfrekvencia felével működik. .

A következő, Thunderbird magon alapuló K7 architektúrájú mikroprocesszor a Duron volt -- költségvetési lehetőség alacsony költségű PC-ket célzó mikroprocesszor. Fő különbsége a 64 KB-ra csökkentett második szintű gyorsítótár. A Duron 25 millió tranzisztort tartalmaz egy 100 mm 2 -es chipen, és 600 és 1200 MHz közötti frekvenciákra tervezték.

A gyorsítótár-memória chipre helyezése lehetővé tette a fejlesztők számára, hogy felhagyjanak a kazetta használatával, és visszatérhessenek a foglalat típusú csatlakozóhoz (462 tűs Socket A csatlakozó). BAN BEN Athlon processzorokés Duron, a cache memória működése olyan algoritmus szerint történik, amely biztosítja az adatok gyorsítótárban való megjelenítésének kizárólagosságát (az adatok nem duplikálódnak az első és második szintű gyorsítótárban), ami növeli a gyorsítótárazott adatok tényleges mennyiségét.

A K7-ben alkalmazott új építészeti és műszaki megoldásoknak köszönhetően az AMD mikroprocesszoroknak 7-10%-kal sikerült felülmúlniuk a Pentium III teljesítményét. órajelek.

A K7 családon belüli mikroprocesszorok architektúrájának és gyártási technológiájának további fejlesztései az Athlon két új verziójának megjelenéséhez vezettek: az Athlon XP és az Athlon MP.

A fő különbség a processzorok között AMD Athlon Az AMD Athlon XP MP-je a Smart MP technológiát használja, amely a nagy sebességű kettős rendszerbusz és a MOESI koherens gyorsítótár-protokoll kombinációja, amely vezérli a memória sávszélességét, amely szükséges a processzorok közötti optimális egyensúly eléréséhez többprocesszoros rendszerekben. Sávszélesség A busz kapacitása processzoronként 2,1 GB/s.

A processzor I GHz-től (0,18 mikronos technológia) 2,133 GHz-ig (0,13 mikronos technológia, Thoroughbred mag) elérhető órajel-frekvenciákkal.

A modern mikroprocesszorok a világ leggyorsabb és legokosabb chipjei. Akár 4 milliárd műveletet is képesek végrehajtani másodpercenként, és számos különböző technológia felhasználásával készülnek. A huszadik század 90-es éveinek eleje óta, amikor a processzorok tömeges használatba kerültek, több fejlődési szakaszon mentek keresztül. A meglévő 6. generációs mikroprocesszor-technológiákat alkalmazó mikroprocesszor-struktúrák fejlesztésének csúcspontját 2002-nek tekintik, amikor lehetővé vált a szilícium összes alapvető tulajdonságának felhasználása magas frekvenciák eléréséhez minimális veszteséggel a gyártás és létrehozás során. logikai áramkörök. Most az új processzorok hatékonysága valamelyest csökken a kristályok működési gyakoriságának folyamatos növekedése ellenére, mivel a szilíciumtechnológiák közelednek képességeik határához.

A mikroprocesszor egy kis szilícium chipen kialakított integrált áramkör. A szilíciumot a mikroáramkörökben azért használják, mert félvezető tulajdonságokkal rendelkezik: elektromos vezetőképessége nagyobb, mint a dielektrikumé, de kisebb, mint a fémeké. A szilícium szigetelőként is készíthető, amely megakadályozza az elektromos töltések mozgását, és vezetővé is elektromos töltések szabadon fog áthaladni rajta. A félvezető vezetőképessége szennyeződések bejuttatásával szabályozható.

A mikroprocesszor több millió tranzisztort tartalmaz, amelyek alumíniumból vagy rézből készült vékony vezetékekkel kapcsolódnak egymáshoz, és adatfeldolgozásra szolgálnak. Így keletkeznek a belső abroncsok. Ennek eredményeként a mikroprocesszor számos funkciót lát el - a matematikai és logikai műveletektől a többi chip és az egész számítógép működésének vezérléséig.

A processzor egyik fő paramétere a kristály frekvenciája, amely meghatározza az időegységenkénti műveletek számát, a rendszerbusz frekvenciáját, valamint a belső SRAM cache memória méretét. A processzor a kristály működési frekvenciája szerint van címkézve. A kristály működési frekvenciáját az a sebesség határozza meg, amellyel a tranzisztorok zárt állapotból nyitott állapotba kapcsolnak. A tranzisztorok gyorsabb kapcsolási képességét a chipeket előállító szilícium lapkák gyártási technológiája határozza meg. A technológiai folyamat meghatározza a tranzisztor méreteit (vastagságát és kapuhosszát). Például a 2004 elején bevezetett 90 nm-es folyamattechnológiát alkalmazva a tranzisztor mérete 90 nm, a kapu hossza pedig 50 nm.

Minden modern processzor térhatású tranzisztort használ. Az új műszaki eljárásra való átállás lehetővé teszi magasabb kapcsolási frekvenciájú, kisebb szivárgási áramú és kisebb méretű tranzisztorok létrehozását. A méretcsökkentés egyúttal csökkenti a szerszám felületét és ezáltal a hőleadást, a vékonyabb kapu pedig alacsonyabb kapcsolási feszültség ellátását teszi lehetővé, ami szintén csökkenti az energiafogyasztást és a hőleadást.

Technológiák és piac

Most egy érdekes tendencia figyelhető meg a piacon: egyrészt a gyártó cégek igyekeznek a lehető leggyorsabban új technikai folyamatokat, technológiákat bevezetni új termékeikbe, másrészt mesterséges visszafogás tapasztalható a processzorok növekedésében. frekvenciák. Először is, a marketingesek úgy érzik, hogy a piac még nincs teljesen készen a következő processzorcsalád-váltásra, és a cégek még nem értek el kellő profitot a jelenleg gyártott CPU-k eladási volumenéből – a kínálat még nem száradt ki. A késztermék árának fontossága a vállalatok minden egyéb érdekével szemben meglehetősen szembetűnő. Másodszor, a „frekvenciaverseny” ütemének jelentős mérséklése azzal jár, hogy megértjük, hogy olyan új technológiákat kell bevezetni, amelyek ténylegesen növelik a termelékenységet minimális technológiai költségek mellett. Mint már említettük, a gyártók problémákba ütköztek az új műszaki eljárásokra való átállás során.

A 90 nm-es technológiai norma sok chipgyártó számára meglehetősen komoly technológiai akadálynak bizonyult. Ezt erősíti meg a TSMC is, amely számos piaci óriás számára gyárt chipeket, mint például az AMD, nVidia, ATI, VIA. Hosszú ideig nem tudta megszervezni a chipek gyártását 0,09 mikronos technológiával, ami a felhasználható kristályok alacsony hozamához vezetett. Ez az egyik oka annak, hogy az AMD sokáig halogatta SOI (Silicon-on-Insulator) technológiát alkalmazó processzorainak kiadását. A késések annak tudhatók be, hogy pontosan az elemek ezen dimenziójában kezdtek erőteljesen megnyilvánulni mindenféle korábban nem túl észrevehető negatív tényező: szivárgási áramok, a paraméterek nagy szórása és a hőtermelés exponenciális növekedése. Találjuk ki sorban.

Mint tudják, két szivárgási áram létezik: a kapu szivárgási árama és a küszöb alatti szivárgás. Az elsőt az elektronok spontán mozgása okozza a szilíciumcsatorna szubsztrát és a poliszilícium kapu között. A második az elektronok spontán mozgása a tranzisztor forrásából a lefolyóba. Mindkét hatás szükségessé teszi a tápfeszültség növelését a tranzisztor áramainak szabályozásához, és ez negatívan befolyásolja a hőelvezetést. Tehát a tranzisztor méretének csökkentésével mindenekelőtt a kapuját és a szilícium-dioxid (SiO2) rétegét csökkentjük, amely természetes akadály a kapu és a csatorna között. Ez egyrészt javítja a tranzisztor sebességi teljesítményét (kapcsolási ideje), másrészt növeli a szivárgást. Vagyis egyfajta ördögi körnek bizonyul. Tehát a 90 nm-re való áttérés a dioxid réteg vastagságának újabb csökkenése, és egyben a szivárgás növekedése. A szivárgások elleni küzdelem ismét a vezérlőfeszültségek növekedését, és ennek megfelelően a hőtermelés jelentős növekedését jelenti. Mindez késleltetett egy új technikai folyamat bevezetését a mikroprocesszorok piacán a versenytársak - az Intel és az AMD - által.

Az egyik alternatíva a SOI (silicon on izolator) technológia alkalmazása, amelyet az AMD nemrégiben vezetett be 64 bites processzoraiban. Ez azonban sok erőfeszítésébe és számos kapcsolódó nehézség leküzdésébe került. De maga a technológia hatalmas számú előnnyel rendelkezik, viszonylag kis számú hátránnyal. A technológia lényege általában meglehetősen logikus - a tranzisztort egy másik választja el a szilícium hordozótól vékonyréteg szigetelő. Nagyon sok előnye van. Nincs szabályozatlan elektronmozgás a tranzisztor csatornája alatt, ami befolyásolná azt elektromos jellemzők- ezúttal. A nyitóáramnak a kapura adása után a csatorna működési állapotba való ionizálásának ideje (amíg az üzemi áram át nem folyik rajta) lecsökken, azaz javul a tranzisztor teljesítményének második kulcsparamétere, a be-/kikapcsolási ideje. kettő van. Vagy ugyanazzal a sebességgel egyszerűen csökkentheti a feloldó áramot - ez három. Vagy találjon valami kompromisszumot a működési sebesség növelése és a feszültség csökkentése között. Ugyanazon kapuáram fenntartása mellett a tranzisztor teljesítményének növekedése akár 30% is lehet; ha a frekvenciát változatlan marad, az energiatakarékosságra összpontosítva, akkor a plusz nagy lehet - akár 50%. Végül a csatorna karakterisztikája kiszámíthatóbbá válik, és maga a tranzisztor ellenállóbbá válik a szórványos hibákkal szemben, például azokkal szemben, amelyeket a kozmikus részecskék okoznak, amelyek a csatorna szubsztrátjához ütköznek és azt váratlanul ionizálják. Most, amikor a szigetelőréteg alatt található hordozóba kerülnek, semmilyen módon nem befolyásolják a tranzisztor működését. A SOI egyetlen hátránya, hogy csökkenteni kell az emitter/kollektor régió mélységét, ami közvetlenül és közvetlenül befolyásolja az ellenállásának növekedését a vastagság csökkenésével.

És végül, a harmadik ok, amely hozzájárult a frekvencia növekedés lassulásához, a versenytársak alacsony aktivitása a piacon. Mondhatni mindenki a saját dolgával volt elfoglalva. Az AMD a 64 bites processzorok széleskörű bevezetésével foglalkozott; az Intel számára ez az új technikai folyamat javításának időszaka volt, hibakereséssel a használható kristályok megnövekedett hozamáért.

Az év eleje sok újdonságot hozhat számunkra a technológia területéről, idén ugyanis mindkét cégnek át kell térnie a 90 nm-es technológiai szabványokra. De ez egyáltalán nem jelenti a processzorfrekvenciák újabb gyors növekedését, hanem az ellenkezőjét. Eleinte szünet lesz a piacon: a versenytársak új technikai eljárásokkal, de régi frekvenciákkal kezdenek CPU-kat gyártani. Ahogy a gyártási folyamat uralja, a chipek gyakorisága enyhén növekedni fog. Valószínűleg nem lesz olyan észrevehető, mint korábban. 2004 végére, amikor a 90 nm-es folyamattechnológiát használó kristályok hozama jelentősen megnő, az Intel a 4 GHz-es vagy még ennél is magasabb csúcs meghódítására számít. Az AMD processzorok hagyományos frekvencia késéssel fognak érkezni, ami általában nem befolyásolja annyira a teljesítményt, mint a mikroarchitektúra jellemzőit.

Az új technikai folyamatokra való átállás szükségessége tehát nyilvánvaló, de ez a technológusok számára minden alkalommal egyre nehezebbé válik. Az első Pentium mikroprocesszorok (1993) 0,8 mikronos, majd 0,6 mikronos technológiai technológiával készültek. 1995-ben alkalmazták először a 0,35 mikronos technológiai technológiát a 6. generációs processzoroknál. 1997-ben 0,25 mikronra, 1999-ben 0,18 mikronra változott. A modern processzorok 0,13 és 0,09 mikronos technológián alapulnak, utóbbit 2004-ben vezették be. Mint látható, ezeknél a technikai folyamatoknál a Moore-törvény érvényesül, amely kimondja, hogy kétévente a kristályok frekvenciája megduplázódik, ahogy a tranzisztorok száma növekszik. A technikai folyamat ugyanilyen ütemben változik. Igaz, a jövőben a „frekvenciaverseny” túlszárnyalja ezt a törvényt. 2006-ra az Intel egy 65 nm-es, 2009-re pedig egy 32 nm-es technológia kifejlesztését tervezi.

Itt az ideje, hogy emlékezzünk a tranzisztor szerkezetére, nevezetesen egy vékony szilícium-dioxid rétegre, egy szigetelőre, amely a kapu és a csatorna között helyezkedik el, és amely teljesen érthető funkciót lát el - az elektronok gátja, amely megakadályozza a kapu áramának szivárgását. Nyilvánvaló, hogy minél vastagabb ez a réteg, annál jobban ellátja szigetelő funkcióját. De ő az szerves része csatorna, és nem kevésbé nyilvánvaló, hogy ha csökkenteni akarjuk a csatorna hosszát (a tranzisztor méretét), akkor a vastagságát kell csökkenteni, mégpedig nagyon gyors ütemben. Egyébként az elmúlt néhány évtizedben ennek a rétegnek a vastagsága átlagosan a csatorna teljes hosszának körülbelül 1/45-e volt. Ennek a folyamatnak azonban vége van – ahogy ugyanez az Intel öt évvel ezelőtt kijelentette, ha továbbra is SiO2-t használunk, mint az elmúlt 30 évben, akkor a minimális rétegvastagság 2,3 nm lesz, ellenkező esetben a kapuáram szivárgó árama egyszerűen irreális lesz.

Egészen a közelmúltig semmit sem tettek az alcsatorna-szivárgás csökkentése érdekében. Most kezd megváltozni a helyzet, mivel az üzemi áram a kapu válaszidejével együtt a tranzisztor működési sebességét jellemző két fő paraméter egyike, és a kikapcsolt állapotban lévő szivárgás közvetlenül befolyásolja - a fenntartás érdekében a tranzisztor szükséges hatásfoka, ennek megfelelően növelni kell az üzemi áramot, minden ebből következő feltétel mellett.

Mikroprocesszor gyártás

A mikroprocesszor gyártása összetett folyamat, amely több mint 300 lépésből áll. A mikroprocesszorok vékony, kör alakú szilícium lapkák - szubsztrátumok - felületén jönnek létre, vegyszereket, gázokat és ultraibolya sugárzást alkalmazó különféle feldolgozási folyamatok bizonyos sorozata eredményeként.

A hordozók átmérője általában 200 milliméter vagy 8 hüvelyk. Az Intel azonban már átállt a 300 mm-es, azaz 12 hüvelykes átmérőjű lapkákra. Az új lemezek közel 4-szer több kristály előállítását teszik lehetővé, és a hozam sokkal magasabb. Az ostyák szilíciumból készülnek, amelyet megtisztítanak, megolvasztanak és hosszú, hengeres kristályokká növesztenek. A kristályokat ezután vékony szeletekre vágják, és addig polírozzák, amíg a felületük tükörsima és hibamentes lesz. Ezután egymást követően, ciklikusan megismételve, termikus oxidációt (SiO2 film kialakítása), fotolitográfiát, szennyeződés diffúziót (foszfor) és epitaxiát (rétegnövesztés) hajtanak végre.

A mikroáramkörök gyártási folyamata során a legvékonyabb anyagrétegeket gondosan kiszámított minták formájában viszik fel az üres lemezekre. Egy ostyára akár több száz mikroprocesszor is elhelyezhető, amelynek előállítása több mint 300 műveletet igényel. A processzorok teljes gyártási folyamata több szakaszra osztható: szilícium-dioxid termesztése és vezető régiók létrehozása, tesztelés, csomag gyártás és szállítás.

Szilícium-dioxid termesztése és vezető régiók létrehozása. A mikroprocesszor gyártási folyamata azzal kezdődik, hogy egy szigetelő szilícium-dioxid réteget „növesztünk” egy polírozott ostya felületére. Ezt a szakaszt elektromos sütőben, nagyon magas hőmérsékleten hajtják végre. Az oxidréteg vastagsága a hőmérséklettől és az időtől függ, amelyet a lemez a kemencében tölt.

Ezt követi a fotolitográfia, egy olyan folyamat, amely során az ostya felületén mintázat képződik. Először egy ideiglenes fényérzékeny anyagréteget, egy fotorezisztet visznek fel a lemezre, amelyre ultraibolya sugárzással a sablon átlátszó szakaszainak képét, vagyis a fotomaszkot vetítik. A maszkokat a processzor tervezése során készítik, és áramköri mintákat alakítanak ki a processzor minden rétegében. Sugárzás hatására a fotoréteg szabaddá vált részei oldódnak, és oldószerrel (fluorsav) távolítják el, felfedve alatta a szilícium-dioxidot.

A szabaddá tett szilícium-dioxidot "maratásnak" nevezett eljárással távolítják el. A maradék fotoréteget ezután eltávolítják, és szilícium-dioxid mintát hagynak a félvezető lapkán. Egy sor további fotolitográfiás és maratási művelettel polikristályos szilíciumot is felvittek az ostyára, amely vezető tulajdonságokkal rendelkezik. A következő műveletben, amelyet "doppingnak" neveznek, a szilícium lapka szabadon lévő területeit különféle típusú ionokkal bombázzák. kémiai elemek, amelyek negatív és pozitív töltések, megváltoztatva ezen területek elektromos vezetőképességét.

Az új rétegek felhordása, majd az áramkör maratása többször megtörténik, míg a rétegközi csatlakozásoknál „ablakok” maradnak a rétegekben, amelyek fémmel vannak feltöltve, elektromos kapcsolatokat hozva létre a rétegek között. Az Intel a 0,13 mikronos folyamattechnológiájában rézvezetőket használt. 0,18 mikronos gyártási folyamatban és korábbi folyamatokban Intel generációk használt alumínium. Réz és alumínium egyaránt - kiváló útmutatók elektromosság. A 0,18 μm-es technológia alkalmazásakor 6 réteg, a 90 nm-es technológia 2004-es bevezetésekor 7 réteg szilícium került felhasználásra.

A processzor minden rétegének saját mintázata van, ezek a rétegek együtt háromdimenziót alkotnak elektronikus áramkör. A rétegek felhordása több héten keresztül 20-25 alkalommal megismétlődik.

Tesztelés. A rétegezési folyamat során a szubsztrátumok által kifejtett igénybevételnek ellenálló szilíciumlapkáknak kezdetben elég vastagnak kell lenniük. Ezért, mielőtt az ostyát egyedi mikroprocesszorokra vágná, használja a vastagságát speciális folyamatok csökkentse 33%-kal, és távolítsa el a szennyeződéseket a hátoldalról. Ezután a „vékonyabb” lemez hátoldalára egy speciális anyagréteget visznek fel, amely javítja a kristály utólagos rögzítését a testhez. Ezenkívül ez a réteg elektromos érintkezést biztosít között hátsó felület integrált áramkör és ház összeszerelés után.

Ezt követően az ostyákat tesztelik az összes megmunkálási művelet minőségének ellenőrzésére. Annak megállapítására, hogy a processzorok megfelelően működnek-e, az egyes összetevőket tesztelik. Hibák észlelése esetén a rájuk vonatkozó adatokat elemzik, hogy megértsék, a feldolgozás mely szakaszában fordult elő a hiba.

Ezután elektromos szondákat csatlakoztatnak minden processzorhoz, és áramot kapnak. A processzorokat számítógép teszteli, amely meghatározza, hogy a legyártott processzorok jellemzői megfelelnek-e a meghatározott követelményeknek.

A karosszéria gyártása. A tesztelés után az ostyákat az összeszerelő üzembe küldik, ahol kis téglalapokra vágják, amelyek mindegyike tartalmaz egy integrált áramkört. A lemez szétválasztásához speciális precíziós fűrészt használnak. A nem működő kristályokat elutasítják.

Ezután minden kristályt egyedi tokba helyeznek. A tok megvédi a kristályt külső hatásokés biztosítja az elektromos csatlakozását a táblához, amelyre később felszerelik. A chip meghatározott pontjain apró forrasztógolyókat forrasztanak a csomag elektromos csatlakozóira. Most az elektromos jelek áramolhatnak a tábláról a chipre és vissza.

A jövő processzoraiban az Intel BBUL technológiát alkalmaz majd, ami lehetővé teszi, hogy alapvetően új, kisebb hőtermeléssel és kapacitással rendelkező házakat hozzanak létre a CPU lábak között.

Miután a chipet behelyezték a házba, a processzort újra tesztelik annak megállapítására, hogy működik-e. A hibás processzorokat elutasítják, a működőket pedig terhelési teszteknek vetik alá: különböző hőmérsékleti és páratartalomnak való kitettség, valamint elektrosztatikus kisülések. Minden terhelési teszt után a processzort tesztelik, hogy meghatározzák működési állapotát. A processzorokat ezután a különböző órajeleken és tápfeszültségeken tanúsított viselkedésük alapján rendezik.

Szállítás. A tesztelésen átesett processzorok a végső ellenőrzésre kerülnek, akiknek az a feladata, hogy megbizonyosodjanak arról, hogy az összes korábbi teszt eredménye helyes volt, és az integrált áramkör paraméterei megfelelnek, sőt meg is haladják a megállapított szabványokat. Minden feldolgozó, amely átment a végső ellenőrzésen, meg van jelölve és be van csomagolva az ügyfelekhez történő szállításhoz.

Jövő mikroprocesszor-technológiái

Ismeretes, hogy a meglévő CMOS tranzisztoroknak számos korlátja van, és a közeljövőben nem teszik lehetővé a processzorfrekvenciák ilyen fájdalommentes emelését. 2003 végén, a tokiói konferencián az Intel szakemberei nagyon fontos nyilatkozatot tettek a jövő félvezető tranzisztorainak új anyagainak fejlesztéséről. Mindenekelőtt egy új, nagy dielektromos állandójú tranzisztor-kapu dielektrikumról (az ún. „high-k” anyagról) beszélünk, amely a ma használatos szilícium-dioxid (SiO2) helyettesítésére szolgál majd, valamint új az új kapu dielektrikummal kompatibilis fémötvözetek . A kutatók által javasolt megoldás 100-szorosára csökkenti a szivárgó áramot, így közel 45 nanométeres tervezési normával közelíthető meg a gyártási folyamat megvalósítása. A szakértők kis forradalomnak tartják a mikroelektronikai technológia világában.

Hogy megértsük, miről beszélünk, először vessünk egy pillantást egy normál MOS tranzisztorra, amely alapján a legbonyolultabb CPU-k készülnek.

Ebben a vezetőképes poliszilícium kaput vékony (mindössze 1,2 nm vagy 5 atom vastagságú) szilícium-dioxid réteg választja el a tranzisztor csatornától (ezt az anyagot évtizedek óta használják kapudielektrikumként).

A dielektrikum ilyen kis vastagsága szükséges nemcsak a tranzisztor egészének kis méreteinek eléréséhez, hanem a legmagasabb teljesítményéhez is (a feltöltött részecskék gyorsabban mozognak a kapun keresztül, aminek következtében egy ilyen VT fel tud kapcsolni 10 milliárdszor másodpercenként). Leegyszerűsítve: minél közelebb van a kapu a tranzisztor csatornájához (vagyis minél vékonyabb a dielektrikum), annál „nagyobb befolyást” gyakorol a sebességre a tranzisztorcsatornában lévő elektronokra és lyukakra.

Ezért nem lehet alábecsülni az Intel tudósai felfedezésének fontosságát. Öt év laboratóriumi kutatás után a vállalatok olyan speciális anyagot fejlesztettek ki, amely a hagyományos chipgyártás során helyettesítheti a hagyományos szilícium-dioxidot. Az ilyen anyagokkal szemben támasztott követelmények nagyon komolyak: magas kémiai és mechanikai (atomi szinten) kompatibilitás a szilíciummal, egyszerű gyártás a hagyományos szilícium eljárás egyetlen ciklusában, de ami a legfontosabb, alacsony szivárgás és magas dielektromos állandó.

Ha szivárgással küszködünk, akkor a dielektrikum vastagságát legalább 2-3 nm-re kell növelni (lásd a fenti ábrát). A tranzisztor azonos meredekségének (az áram feszültségfüggősége) fenntartása érdekében a dielektromos anyag dielektromos állandóját arányosan növelni kell. Ha az ömlesztett szilícium-dioxid permeabilitása 4 (ultravékony rétegben valamivel kevesebb), akkor az új „Intel” dielektrikum dielektromos állandójának ésszerű értéke 10-12 körülinek tekinthető. Annak ellenére, hogy sok ilyen dielektromos állandóval rendelkező anyag létezik (kondenzátorkerámia vagy egykristályos szilícium), az anyagok technológiai kompatibilitásának tényezői itt nem kevésbé fontosak. Ezért az új, nagy k-értékkel rendelkező anyaghoz egy nagy pontosságú leválasztási eljárást fejlesztettek ki, amely során ebből az anyagból egy ciklusban egy molekuláris réteg keletkezik.

A kép alapján feltételezhetjük, hogy az új anyag is oxid. Sőt, a monooxid, ami főleg a második csoportba tartozó anyagok, például magnézium, cink vagy akár réz felhasználását jelenti.

De a kérdés nem korlátozódott a dielektrikumra. Meg kellett változtatni magának a redőnynek az anyagát is - a szokásos polikristályos szilíciumot. Az a tény, hogy a szilícium-dioxid nagy k-értékű dielektrikummal való helyettesítése problémákhoz vezet a polikristályos szilíciummal való kölcsönhatásban (a tranzisztor sávszélessége határozza meg a számára lehetséges minimális feszültséget). Ezek a problémák kiküszöbölhetők, ha mindkét típusú tranzisztor (n-MOS és p-MOS) kapujához speciális fémeket használnak speciális és speciális eszközökkel kombinálva. technológiai folyamat. Ez az anyagkombináció rekord tranzisztorteljesítményt és egyedülállóan alacsony szivárgási áramot ér el, 100-szor kisebbet, mint a jelenlegi anyagok (lásd a grafikont). Ebben az esetben már nincs kísértés arra, hogy a jóval drágább SOI (szilícium szigetelőn) technológiát alkalmazzák a szivárgások leküzdésére, ahogy azt egyes nagy mikroprocesszorgyártók teszik.

Megjegyezzük az Intel másik technológiai újítását is - a feszült szilícium technológiát, amelyet először alkalmaznak 90 nanométeres Prescott és Dothan processzorokban. Végül az Intel részletesen feltárta, hogy a CMOS-struktúrákban pontosan hogyan alakulnak ki a feszült szilíciumrétegek. Egy CMOS cella két tranzisztorból áll - n-MOS és p-MOS (lásd az ábrát).

Az elsőben (n-MOS) a tranzisztorcsatorna (n-csatorna) elektronok (negatív töltésű részecskék) segítségével vezeti az áramot, a másodikban (p-MOS) pedig lyukak (feltételesen pozitív töltésű részecskék) segítségével. Ennek megfelelően a feszített szilícium képződésének mechanizmusa ebben a két esetben eltérő. Az n-MOS tranzisztorhoz külső bevonatot használnak szilícium-nitrid (Si3N4) réteggel, amely a mechanikai igénybevételek hatására enyhén (egy százalék töredéke) megnyújtja (az áram áramlásának irányában) a szilícium kristályrácsot. a kapu alatt, aminek következtében a csatorna üzemi árama 10%-kal megnő (relatíve tágabbá válik az elektronok mozgása a csatorna irányába). A p-MOS tranzisztoroknál ennek az ellenkezője igaz: hordozóanyagként szilícium-germánium vegyületet (SiGe) használnak (pontosabban csak a lefolyó és forrás régiót), amely enyhén összenyomja a kapu alatti szilícium kristályrácsot az irányba. a csatorna. Ezért „könnyebb” a lyukak „mozgása” az akceptor szennyezőatomokon keresztül, és a csatorna üzemi árama 25%-kal nő. A két technológia kombinációja 20-30 százalékos áramnövekedést eredményez. Így a feszült szilícium technológia alkalmazása mindkét típusú eszközben (n-MOS és p-MOS) a tranzisztorok teljesítményének jelentős növekedéséhez vezet, miközben csak ~2%-kal növeli a gyártási költségüket, és lehetővé teszi kisebb tranzisztorok létrehozását. következő generációk. Az Intel azt tervezi, hogy feszített szilíciumot használ minden jövőbeli folyamattechnológiához 22 nm-ig.

A modern mikroprocesszorok a világ leggyorsabb és legokosabb chipjei. Akár 4 milliárd műveletet is képesek végrehajtani másodpercenként, és számos különböző technológia felhasználásával készülnek. A huszadik század 90-es éveinek eleje óta, amikor a processzorok tömeges használatba kerültek, több fejlődési szakaszon mentek keresztül. A meglévő 6. generációs mikroprocesszor-technológiákat alkalmazó mikroprocesszor-struktúrák fejlesztésének csúcspontját 2002-nek tekintik, amikor a logikai áramkörök gyártása és létrehozása során lehetővé vált a szilícium összes alapvető tulajdonságának felhasználása magas frekvenciák minimális veszteség melletti elérésére. Most az új processzorok hatékonysága némileg csökken, annak ellenére, hogy a kristályok működési gyakorisága folyamatosan növekszik, mivel a szilícium technológiák közelednek képességeik határához.

Otthoni felhasználó szempontjából nem minden funkcionalitás a processzorok nagyon keresettek. Igen, azért otthoni használatra A virtualizációs technológia teljesen felesleges, ezért nincs értelme arra koncentrálni, hogy a számítógépbe telepített processzor támogatja-e azt.

Ttechnológiák és piac

Most egy érdekes tendencia figyelhető meg a piacon: egyrészt a gyártó cégek igyekeznek a lehető leggyorsabban új technikai folyamatokat, technológiákat bevezetni új termékeikbe, másrészt mesterséges visszafogás tapasztalható a processzorok növekedésében. frekvenciák. Először is, a marketingesek úgy érzik, hogy a piac még nincs teljesen készen a következő processzorcsalád-váltásra, és a cégek még nem értek el kellő profitot a jelenleg gyártott CPU-k eladási volumenéből – a készlet még nem száradt ki. A késztermék árának fontossága a vállalatok minden egyéb érdekével szemben meglehetősen szembetűnő. Másodszor, az arány jelentős csökkentése A „frekvenciaverseny” annak megértéséhez kapcsolódik, hogy szükség van olyan új technológiák bevezetésére, amelyek ténylegesen növelik a termelékenységet minimális technológiai költségek mellett. Mint már említettük, a gyártók problémákba ütköztek az új műszaki eljárásokra való átállás során. mikroprocesszoros számítógépes programozás

A 90 nm-es technológiai norma sok chipgyártó számára meglehetősen komoly technológiai akadálynak bizonyult. Ezt erősíti meg a TSMC is, amely számos piaci óriás számára gyárt chipeket, mint például az AMD, nVidia, ATI, VIA. Hosszú ideig nem tudta megszervezni a chipek gyártását 0,09 mikronos technológiával, ami a felhasználható kristályok alacsony hozamához vezetett. Ez az egyik oka annak, hogy az AMD sokáig halogatta SOI (Silicon-on-Insulator) technológiát alkalmazó processzorainak kiadását. A késések annak tudhatók be, hogy az elemeknek ezen a dimenziójában kezdett erőteljesen megnyilvánulni mindenféle korábban nem feltűnő negatív tényező: szivárgási áramok, a paraméterek nagy szórása és a hőtermelés exponenciális növekedése. Találjuk ki sorban.

Mint tudják, két szivárgási áram létezik: a kapu szivárgási árama és a küszöb alatti szivárgás. Az elsőt az elektronok spontán mozgása okozza a szilíciumcsatorna szubsztrát és a poliszilícium kapu között. A második az elektronok spontán mozgása a tranzisztor forrásából a lefolyóba. Mindkét hatás szükségessé teszi a tápfeszültség növelését a tranzisztor áramainak szabályozásához, és ez negatívan befolyásolja a hőelvezetést. Tehát a tranzisztor méretének csökkentésével mindenekelőtt a kapuját és a szilícium-dioxid (SiO2) rétegét csökkentjük, amely természetes akadály a kapu és a csatorna között. Ez egyrészt javítja a tranzisztor sebességi teljesítményét (kapcsolási ideje), másrészt növeli a szivárgást. Vagyis egyfajta ördögi körnek bizonyul. Tehát a 90 nm-re való áttérés a dioxid réteg vastagságának újabb csökkenése, és egyben a szivárgások növekedése. A szivárgások elleni küzdelem ismét a vezérlőfeszültségek növekedését, és ennek megfelelően a hőtermelés jelentős növekedését jelenti. Mindez késleltetett egy új technikai folyamat bevezetését a mikroprocesszorok piacán a versenytársak - az Intel és az AMD - által.

Az egyik alternatíva a SOI (silicon on izolator) technológia alkalmazása, amelyet az AMD nemrégiben vezetett be 64 bites processzoraiban. Ez azonban sok erőfeszítésébe és számos kapcsolódó nehézség leküzdésébe került. De maga a technológia hatalmas számú előnnyel rendelkezik, viszonylag kis számú hátránnyal. A technológia lényege általában meglehetősen logikus - a tranzisztort egy másik vékony szigetelőréteg választja el a szilícium hordozótól. Nagyon sok előnye van. A tranzisztor csatorna alatt nincs ellenőrizetlen elektronmozgás, ami befolyásolja annak elektromos jellemzőit - ezúttal. A nyitóáramnak a kapura adása után a csatorna működési állapotba való ionizálásának ideje (amíg az üzemi áram át nem folyik rajta) lecsökken, azaz javul a tranzisztor teljesítményének második kulcsparamétere, a be-/kikapcsolási ideje. kettő van. Vagy ugyanazzal a sebességgel egyszerűen csökkentheti a feloldó áramot - ez három. Vagy találjon valami kompromisszumot a működési sebesség növelése és a feszültség csökkentése között. Ugyanazon kapuáram fenntartása mellett a tranzisztor teljesítményének növekedése akár 30% is lehet; ha a frekvenciát változatlan marad, az energiatakarékosságra összpontosítva, akkor a plusz nagy lehet - akár 50%. Végül a csatorna karakterisztikája kiszámíthatóbbá válik, és maga a tranzisztor ellenállóbbá válik a szórványos hibákkal szemben, például azokkal szemben, amelyeket a kozmikus részecskék okoznak, amelyek a csatorna szubsztrátjához ütköznek és azt váratlanul ionizálják. Most, amikor a szigetelőréteg alatt található hordozóba kerülnek, semmilyen módon nem befolyásolják a tranzisztor működését. A SOI egyetlen hátránya, hogy csökkenteni kell az emitter/kollektor régió mélységét, ami közvetlenül és közvetlenül befolyásolja az ellenállásának növekedését a vastagság csökkenésével.

És végül, a harmadik ok, amely hozzájárult a frekvencia növekedés lassulásához, a versenytársak alacsony aktivitása a piacon. Mondhatni mindenki a saját dolgával volt elfoglalva. Az AMD a 64 bites processzorok széles körű bevezetésével foglalkozott; az Intel számára ez az új technikai folyamat javításának és a használható kristályok hozamának növelése érdekében végzett hibakeresés időszaka volt.

Jövő mikroprocesszor-technológiái

Mindenekelőtt egy új, nagy dielektromos állandójú tranzisztor-kapu dielektrikumról (az ún. „high-k” anyagról) beszélünk, amely a ma használatos szilícium-dioxid (SiO2) helyettesítésére szolgál majd, valamint új az új kapu dielektrikummal kompatibilis fémötvözetek .

A kutatók által javasolt megoldás 100-szorosára csökkenti a szivárgó áramot, így közel 45 nanométeres tervezési normával közelíthető meg a gyártási folyamat megvalósítása. A szakértők kis forradalomnak tartják a mikroelektronikai technológia világában. Hogy megértsük, miről beszélünk, először vessünk egy pillantást egy normál MOS tranzisztorra (1. ábra), amely alapján a legbonyolultabb CPU-k készülnek.

1. ábra - MOSFET tranzisztor

Ha szivárgással küszködünk, akkor a dielektrikum vastagságát legalább 2-3 nm-re kell növelni (lásd a fenti ábrát). A tranzisztor azonos meredekségének (az áram feszültségfüggősége) fenntartása érdekében a dielektromos anyag dielektromos állandóját arányosan növelni kell. Ha az ömlesztett szilícium-dioxid permeabilitása 4 (ultravékony rétegben valamivel kevesebb), akkor az új „Intel” dielektrikum dielektromos állandójának ésszerű értéke 10-12 körülinek tekinthető. Annak ellenére, hogy sok ilyen dielektromos állandóval rendelkező anyag létezik (kondenzátorkerámia vagy egykristályos szilícium), az anyagok technológiai kompatibilitásának tényezői itt nem kevésbé fontosak. Ezért az új, nagy k-értékkel rendelkező anyaghoz egy nagy pontosságú leválasztási eljárást dolgoztak ki, amelynek során egy ciklus alatt ebből az anyagból egy molekuláris réteg keletkezik (2. ábra).

2. ábra - Egy molekularéteg kialakulása egy ciklusban

A 2. ábra alapján feltételezhető, hogy az új anyag is oxid. Sőt, a monooxid, ami főleg a második csoportba tartozó anyagok, például magnézium, cink vagy akár réz felhasználását jelenti.

De a kérdés nem korlátozódott a dielektrikumra. Meg kellett változtatni magának a redőnynek az anyagát is - a szokásos polikristályos szilíciumot. Az a tény, hogy a szilícium-dioxid cseréje magas k dielektrikummal problémákat okoz a polikristályos szilíciummal való kölcsönhatásban (a tranzisztor sávszélessége határozza meg a minimális lehetséges feszültséget). Ezek a problémák kiküszöbölhetők, ha mindkét típusú tranzisztor kapujához speciális fémeket használnak speciális technológiai eljárással kombinálva. Ez az anyagkombináció rekord tranzisztorteljesítményt és egyedülállóan alacsony szivárgási áramot ér el, amely 100-szor alacsonyabb, mint a jelenlegi anyagok. Ebben az esetben már nincs kísértés, hogy jóval drágább SOI technológiát alkalmazzanak a szivárgások leküzdésére, ahogy azt egyes nagy mikroprocesszorgyártók teszik.