Apple julkaisi M1-järjestelmäpiirin Mac-tietokoneisiin

BlackWolf · 11.11.2020

vemkki sanoi:
Tässä kannattaa muistaa muutama asia:
- Apple on tehnyt omia ARM-suorittimia jo 10 vuotta, joten kokemusta on. Tästä ARM-prosessorien käyttöönotosta Maceissa on huhuttu jo vuosikausia.
- Tämä M1 on tehty 5 nm valmistustekniikalla, eli se on ainakin 2 pykälää Inteliä ja yhden pykälän AMD:tä edellä.
- Piiri on valtavan kokoinen, 16 miljardia transistoria. Lähes yhtä paljon kuin RTX 3070:ssa.
- Apple käyttää uudenlaista muistiratkaisua, joka tuo lisää suorituskykyä.
- ARM-arkkitehtuuri ilmeisesti on helpompi optimoitava prosessorisuunnittelun kannalta kuin x86-64.

Siinä kannattaa muistaa sellainen asia, että kun päättää verrata omenoita appelsiineihin ja vesimeloneihin niin saa juurikin sellaista mehua kuin omenista tulee. Sitten kun pitäisikin siiderin sijaan tehdä kiljua niin ei se nyt vain olekkaan enää niin mukavaa jos on vain omenoita ja kaverilla appelsiineja ja vesimeloneita. On näitä nähty ennenkin, että itse valitaan vertailukohdat ja sopivasti poimitaan testit ja kaskummaa lopputulos sattumalta sopii itselle. Vaan sitten kun aletaankin katsomaa todellisuutta ja oikean elämän testejä niin ei olekkaan enää yhtään niin kivaa.

eternality · 11.11.2020

Lämpöpumppu sanoi:
Applen sivuilla ainakin mainittu useaan otteeseen HBM.

Ainakaan täältä en löytänyt kuin maininnan "high‑bandwidth, low‑latency memory" joka nyt voi tarkoittaa mitä vaan?

Lämpöpumppu · 11.11.2020

eternality sanoi:
Ainakaan täältä en löytänyt kuin maininnan "high‑bandwidth, low‑latency memory" joka nyt voi tarkoittaa mitä vaan?

Jännä, suomenkielisillä Apple-sivuilla puhutaan suoraan HBM-muistista.

Lämpöpumppu · 11.11.2020

BlackWolf sanoi:
Siinä kannattaa muistaa sellainen asia, että kun päättää verrata omenoita appelsiineihin ja vesimeloneihin niin saa juurikin sellaista mehua kuin omenista tulee. Sitten kun pitäisikin siiderin sijaan tehdä kiljua niin ei se nyt vain olekkaan enää niin mukavaa jos on vain omenoita ja kaverilla appelsiineja ja vesimeloneita. On näitä nähty ennenkin, että itse valitaan vertailukohdat ja sopivasti poimitaan testit ja kaskummaa lopputulos sattumalta sopii itselle. Vaan sitten kun aletaankin katsomaa todellisuutta ja oikean elämän testejä niin ei olekkaan enää yhtään niin kivaa.

Apple on ARM-prossuineen pärjännyt mobiilipuolella varsin erinomaisesti oikean elämän testeissä, joten aika kova luotto että pärjää myös tämän uuden M1:n kanssa. Ja kyllä eilisen esityksen perusteella tulee pärjäämäänkin. Mutta se nähdään ensi viikolla, kun ensimmäiset koneet saapuvat kuluttajille.

eternality · 11.11.2020

Lämpöpumppu sanoi:
Jännä, suomenkielisillä Apple-sivuilla puhutaan suoraan HBM-muistista.

Joo, näköjään.
Englanninkielisellä sivulla lukee. "The do‑it‑all notebook gets do‑the‑unbelievable memory. The M1 chip brings up to 16GB of superfast unified memory. This single pool of high‑bandwidth, low‑latency memory allows apps to share data between the CPU, GPU, and Neural Engine efficiently — so everything you do is fast and fluid."
Ja suomenkielisellä: "Kaiken tekevä kannettava saa kaverikseen ihmeitä tekevän muistin. M1-siru mahdollistaa jopa 16 Gt:n supernopean yhteismuistin. Vähäisen viiveen HBM-muisti on integroitu yhteen komponenttiin, minkä ansiosta apit voivat jakaa dataa tehokkaasti prosessorin, näytönohjaimen ja Neural Enginen kesken, joten kaikki tekemäsi asiat hoituvat nopeasti ja sulavasti."

Vaikuttaa vähän käännösvirheeltä kyllä.

BlackWolf · 11.11.2020

Lämpöpumppu sanoi:
Apple on ARM-prossuineen pärjännyt mobiilipuolella varsin erinomaisesti oikean elämän testeissä, joten aika kova luotto että pärjää myös tämän uuden M1:n kanssa. Ja kyllä eilisen esityksen perusteella tulee pärjäämäänkin. Mutta se nähdään ensi viikolla, kun ensimmäiset koneet saapuvat kuluttajille.

Niin mobiilipuolella. Vaan kun nyt puhutaan PC-puolesta. Silti väitteet on sitä luokkaa, että sieltä vain tullaan ja ollaan nopein, paras ja kaunein PC ikinä. Energiatehokkaita ne on, koska ne on mobiilipiirejä, mutta vähän rajaa toivoisi fanipoikailulle ja Anandtechin väitteille, että x86 aika mennyt jo jada jada.

tuoppi´ · 11.11.2020

Andan sanoi:
Lähinnä puutuin siihen, että ei tuo nyt ensimmäinen _merkittävä_ ponnistus ole ARM:in tuomiseksi mobiilipuolen ulkopuolelle loppukäyttäjille. Pienempiä ponnistuksia en viitsinyt edes mainita. Tietty Applella on enemmän pakotusvoimaa, koska muita valmistajia ei ekosysteemissä ole vs. Windows ekosysteemi.

Onhan se aika eri juttu vaihtaa koko linjasto ARM:eihin kuin se että Microsoft teki pienen kokeilun että ottaisko tuulta alleen. Tuskin MS:llä edes oli tarkoitus saada x86 -> ARM vaihdosta sen kummemmin tapahtumaan, kunhan huvikseen tekivät. Apple sen sijaan tulee nimenomaan pakottamaan nämä sisään.

Ja sinäänsä kyllä hyvä, että Applen kaltaisia pelureita on markkinoilla. Tietokoneissa vähän turhankin paljon mietitään legacy-tukea ja jonkun pitää olla se rohkea, joka pudottaa ne legacyt pois että päästään eteenpäin. Vaikka se lyhyellä tähtäimellä osaa käyttäjistä haittaakin.

Lämpöpumppu · 11.11.2020

eternality sanoi:
Joo, näköjään.
Englanninkielisellä sivulla lukee. "The do‑it‑all notebook gets do‑the‑unbelievable memory. The M1 chip brings up to 16GB of superfast unified memory. This single pool of high‑bandwidth, low‑latency memory allows apps to share data between the CPU, GPU, and Neural Engine efficiently — so everything you do is fast and fluid."
Ja suomenkielisellä: "Kaiken tekevä kannettava saa kaverikseen ihmeitä tekevän muistin. M1-siru mahdollistaa jopa 16 Gt:n supernopean yhteismuistin. Vähäisen viiveen HBM-muisti on integroitu yhteen komponenttiin, minkä ansiosta apit voivat jakaa dataa tehokkaasti prosessorin, näytönohjaimen ja Neural Enginen kesken, joten kaikki tekemäsi asiat hoituvat nopeasti ja sulavasti."

Vaikuttaa vähän käännösvirheeltä kyllä.

Sitä en tiedä onko käännösvirhe vai ei, mutta kaikki merkit viittaavat kuitenkin HBM-muistiin myös tuossa englanninkielisessä tekstissä.

Later · 11.11.2020

Andan sanoi:
En tiedä mihin nyt viittaat Applen olleen lopulta se, jolla muskelit tähän riitti. Microsoft teki ARM ja Windows pohjaisia Surface tuotteita jo vuosia sitten ja näyttää niitä pukkaavan edelleen ulos. Jos sattuu olemaan Apple lasit päässä, niin ei muita näe Siitä voi tietty olla montaa mieltä kuinka hyvin niitä on softan puolesta tuettu.

Luvut viestissäni eivät ole tarkkoja, mutta suuruusluokka on oikein. Qualcomm kertoi joskus Anandtechille, että kannettaviin tarkoitettuja siruja menee luokkaa tuhat kappaletta päivässä. Tämä tarkoittaa, että ARM-arkkitehtuuria käyttävien Windows-tietokoneiden markkinaosuus on jotakuinkin prosentin kymmenys.

Applella lienee suunnilleen kymmenen prosentin markkinaosuus tietokoneista. Tämä tarkoittaa, että ARM:ää käyttävien tietokoneiden myynnit tulevat seuraavan kahden vuoden aikana satakertaistumaan pelkästään Applen ansiosta. Selvästikin on oikein sanoa, että Apple on ensimmäinen jolla muskelit siirtymiseen riittivät.

vemkki · 11.11.2020

Lämpöpumppu sanoi:
Sitä en tiedä onko käännösvirhe vai ei, mutta kaikki merkit viittaavat kuitenkin HBM-muistiin myös tuossa englanninkielisessä tekstissä.

Veikkaan että englanninkielisessä versiossa on alun perin lukenut HBM, mutta se on avattu, kun HBM ei ole terminä kovin monelle tuttu.

Andan · 11.11.2020

tuoppi´ sanoi:
Onhan se aika eri juttu vaihtaa koko linjasto ARM:eihin kuin se että Microsoft teki pienen kokeilun että ottaisko tuulta alleen. Tuskin MS:llä edes oli tarkoitus saada x86 -> ARM vaihdosta sen kummemmin tapahtumaan, kunhan huvikseen tekivät. Apple sen sijaan tulee nimenomaan pakottamaan nämä sisään.

Sen verran korjaan, että ei tuo kyllä Microsoftilta ollut pieni yksittäinen kokeilu. Tarkoitusperiä voi tietty miettiä, mutta niissä voi olla kaikennäköistä toimittajien välisestä kilpailutuksesta ja ulkoisten riippuvuuksien vähentämisestä lähtien. Jos vaikka vilkaiset esim. tätä uutta: Microsoft Surface X Pro -tablet, musta, Win 10 1 791,90 niin voi vilaista cpu/gpu puolen nimiä ja miettiä

Mutta joo, Applella on omassa ekosysteemissä täysi valta pakottaa ja käyttää mitä haluavat. Teoriassa MSFT voisi tietty poistaa Windowsista esim. x86 tuen, mutta hyöty olisi hyvinkin kyseenalainen, koska eivät toimita ekosysteemin kaikkia laitteita.

tuoppi´ sanoi:
Ja sinäänsä kyllä hyvä, että Applen kaltaisia pelureita on markkinoilla. Tietokoneissa vähän turhankin paljon mietitään legacy-tukea ja jonkun pitää olla se rohkea, joka pudottaa ne legacyt pois että päästään eteenpäin. Vaikka se lyhyellä tähtäimellä osaa käyttäjistä haittaakin.

Applella on kyllä tuossa ihan muut intressit edellä, tietty teknologian on pakko olla kilpailukykyistä, koska muuten tuotteiden myynti tulee heikkenemään. Sen verran on kokemusta noista piirivalmistajien kanssakin toimimisesta, että pääasiallinen syy Applella on päästä eroon ulkopuolisista toimittajista, mitä on tehnyt myös mobiilipuolella. Esim. Nokia teki tuossa aikanaan yhden isoista virheistään, kun ulkoisti erään tärkeimmistä kilpailukyvyn antajistaan, kun taas Apple hankki piiriosaamista firmaansa, minkä tuloksia tässä sitten on nähty vuosien saatossa.

eternality · 11.11.2020

Lämpöpumppu sanoi:
Sitä en tiedä onko käännösvirhe vai ei, mutta kaikki merkit viittaavat kuitenkin HBM-muistiin myös tuossa englanninkielisessä tekstissä.

Mitkä merkit?
Joku oli tästä suomenkielisestä sivusta maininnut Anandtechin puolella ja siellä ainakin vastasivat:
"Just to be clear, that product page is wrong.

The M1 is running on 128-bit LPDDR4X."
Heillä kuitenkin on tästä ihan kunnolla tietotaitoa ja varmaan sisäpiirin tietoakin jonkun verran, niin taipuisin uskomaan tuota.

Lämpöpumppu · 11.11.2020

eternality sanoi:
Mitkä merkit?
Joku oli tästä suomenkielisestä sivusta maininnut Anandtechin puolella ja siellä ainakin vastasivat:
"Just to be clear, that product page is wrong.

The M1 is running on 128-bit LPDDR4X."
Heillä kuitenkin on tästä ihan kunnolla tietotaitoa ja varmaan sisäpiirin tietoakin jonkun verran, niin taipuisin uskomaan tuota.

Voi toki näinkin olla, mutta hyvin tuo "This single pool of high‑bandwidth, low‑latency memory allows apps to share data between the CPU, GPU, and Neural Engine efficiently — so everything you do is fast and fluid" voisi viitata HBM-muistiinkin. Asiaan varmaan saadaan vahvistus lähipäivinä.

Andan · 11.11.2020

Later sanoi:
Luvut viestissäni eivät ole tarkkoja, mutta suuruusluokka on oikein. Qualcomm kertoi joskus Anandtechille, että kannettaviin tarkoitettuja siruja menee luokkaa tuhat kappaletta päivässä. Tämä tarkoittaa, että ARM-arkkitehtuuria käyttävien Windows-tietokoneiden markkinaosuus on jotakuinkin prosentin kymmenys.

Applella lienee suunnilleen kymmenen prosentin markkinaosuus tietokoneista. Tämä tarkoittaa, että ARM:ää käyttävien tietokoneiden myynnit tulevat seuraavan kahden vuoden aikana satakertaistumaan pelkästään Applen ansiosta. Selvästikin on oikein sanoa, että Apple on ensimmäinen jolla muskelit siirtymiseen riittivät.

Katsotaan sitten kahden vuoden päästä, nythän ei voi vielä oikein sanoa imperfektissä, että riittivät

Mutta pakollahan tuo tietysti johonkin asti menee, jos ei nyt ole tuotteet niin kuraa (tuskin), että kukaan ei osta. Sitten voidaan seuraavaksi pohtia, mikä on sen siirtymisen mittari. Applen ekosysteemi siirtynee joltain osin, jos tuotteet eivät ole fiasko, mutta koko tietokonemarkkinan osalta jää kysymysmerkiksi. Esim. tuo 16GB muistiraja verottaa ostajia ammattipuolella, jos ei tuonne ole tulossa jotain lisää.

tuoppi´ · 11.11.2020

Andan sanoi:
Sen verran korjaan, että ei tuo kyllä Microsoftilta ollut pieni yksittäinen kokeilu. Tarkoitusperiä voi tietty miettiä, mutta niissä voi olla kaikennäköistä toimittajien välisestä kilpailutuksesta ja ulkoisten riippuvuuksien vähentämisestä lähtien. Jos vaikka vilkaiset esim. tätä uutta: Microsoft Surface X Pro -tablet, musta, Win 10 1 791,90 niin voi vilaista cpu/gpu puolen nimiä ja miettiä

Niin, Snapdragon pultattu sinne omalla brändäyksellä?

List of Qualcomm Snapdragon systems on chips - Wikipedia

en.wikipedia.org

"Technically, it's a Snapdragon 8cx SoC with faster Adreno 685 GPU"

Andan sanoi:
Mutta joo, Applella on omassa ekosysteemissä täysi valta pakottaa ja käyttää mitä haluavat. Teoriassa MSFT voisi tietty poistaa Windowsista esim. x86 tuen, mutta hyöty olisi hyvinkin kyseenalainen, koska eivät toimita ekosysteemin kaikkia laitteita.

Applella on kyllä tuossa ihan muut intressit edellä, tietty teknologian on pakko olla kilpailukykyistä, koska muuten tuotteiden myynti tulee heikkenemään. Sen verran on kokemusta noista piirivalmistajien kanssakin toimimisesta, että pääasiallinen syy Applella on päästä eroon ulkopuolisista toimittajista, mitä on tehnyt myös mobiilipuolella. Esim. Nokia teki tuossa aikanaan yhden isoista virheistään, kun ulkoisti erään tärkeimmistä kilpailukyvyn antajistaan, kun taas Apple hankki piiriosaamista firmaansa, minkä tuloksia tässä sitten on nähty vuosien saatossa.

Toki tuossa voi olla muitakin tarkoitusperiä. Mutta sivuvaikutuksena ja/tai esteenä on tuo legacy-tuen putoaminen pois.

tuoppi´ · 11.11.2020

Andan sanoi:
Katsotaan sitten kahden vuoden päästä, nythän ei voi vielä oikein sanoa imperfektissä, että riittivät Mutta pakollahan tuo tietysti johonkin asti menee, jos ei nyt ole tuotteet niin kuraa (tuskin), että kukaan ei osta. Sitten voidaan seuraavaksi pohtia, mikä on sen siirtymisen mittari. Applen ekosysteemi siirtynee joltain osin, jos tuotteet eivät ole fiasko, mutta koko tietokonemarkkinan osalta jää kysymysmerkiksi. Esim. tuo 16GB muistiraja verottaa ostajia ammattipuolella, jos ei tuonne ole tulossa jotain lisää.

Eiköhän Applellakin olla tajuttu ettei pelkkä yksi piiri riitä kaikkeen. Noihin tehokkaamman pään vehkeisiin tulee sitten useampi M1:n tai sitten muuten vaan erilainen versio. Oikeastaan vähän yllättikin että nyt tuli kaikkii sama, olis voinut luulla että MBP:hen olis tullut vaikka kaksi M1:stä.

weetabix · 11.11.2020

4800u sisältää noin 10 miljardia transistoria, joten 16 kuulostaa isolta. Mutta onhan tuohon toisaalta pultattu vaikka mitä muuta roinaa ja näköjään Inteliltä opeteltu 'up to' kielenkäyttöä dioihin.

Seeteufel · 11.11.2020

tuoppi´ sanoi:
Niin, Snapdragon pultattu sinne omalla brändäyksellä?

List of Qualcomm Snapdragon systems on chips - Wikipedia

en.wikipedia.org

"Technically, it's a Snapdragon 8cx SoC with faster Adreno 685 GPU"

Toki tuossa voi olla muitakin tarkoitusperiä. Mutta sivuvaikutuksena ja/tai esteenä on tuo legacy-tuen putoaminen pois.

No se ei ole kauhean suuri salaisuus, etteikö Mikkisofta haluaisi Win32 (ja DOS) rippeistä eroon, mutta maailma pyörii legacy-softalla ja -raudalla. Windowshan on vielä modernia kamaa enterprise-puolella

vemkki · 11.11.2020

tuoppi´ sanoi:
Eiköhän Applellakin olla tajuttu ettei pelkkä yksi piiri riitä kaikkeen. Noihin tehokkaamman pään vehkeisiin tulee sitten useampi M1:n tai sitten muuten vaan erilainen versio. Oikeastaan vähän yllättikin että nyt tuli kaikkii sama, olis voinut luulla että MBP:hen olis tullut vaikka kaksi M1:stä.

Aiemmin on liikkunut huhuja 12-ytimisestä (8+4) Macbookista, eli se lienee varmaan sitten seuraava malli.

Andan · 11.11.2020

tuoppi´ sanoi:
Niin, Snapdragon pultattu sinne omalla brändäyksellä?

List of Qualcomm Snapdragon systems on chips - Wikipedia

en.wikipedia.org

"Technically, it's a Snapdragon 8cx SoC with faster Adreno 685 GPU"

Jep, eli joku QC:n kanssa kustomoitu versio. Seuraava askel tuosta voisi olla sitten oma ARM pohjainen ratkaisu ja QC tippuu pois. Tosin en ole seurannut onko MSFT kuinka vahvistanut tuota omaa piiriosaamistaan eli onko siihen kuinka kapaa.

weetabix · 11.11.2020

Seeteufel sanoi:
Nykyään käsittääkseni menee turvapiirin takia Macistä koko emolevy vaihtoon, jos joku yksittäinen komponentti sanoo poks. Eli varsinaisesti mikään ei muutu, ts. koneesta tulee SER:iä, jos et viitsi maksaa emolevyn vaihtoa (jos ei mene takuuseen).

Nuo ilmoitetut benchmarkit on kyllä taas melkoisia.

No siis kyllähän sinne emolle voi osaa komponenteista vaihtaa juottamalla (osa on saatavilla julkisesti, osa pitää poistetuista emoista juottaa irti) eikä turvapiiri käsittääkseni estä ihan kaikkea vielä kuitenkaan. Kieltämättä suurempaa osaa jatkuvasti kyllä ja jos esim. akut ja näyttöpaneelitkin ovat mahdottomia vaihdettavia jatkossa niin kyllähän se SER:iä aika pitkälle sitten on. Odotan mielenkiinnolla eteneekö tuo right-to-repair liike riittävästi jenkeissä ja EU:ssa että korjaamisen salliminen taataan jollain tasolla (toki Apple potkii vastaan hamaan ikuisuuteen asti varmasti ja vähintään haluaa pitää korjaamisen itsellään tähtitieteelliseen hintaan). Jenkeissähän jossakin osavaltiossa juuri puututtiin autojen kohdalla tuohon että auton valmistaja ei voi pitää autoon kertynyttä dataa itsellään (ja kryptaten haluaamansa osat) ja täten estää kolmansilta osapuolilta auton korjaamisen (joku oikeustapaus).

mango · 11.11.2020

Mielenkiintoista, että Apple on ensimmäinen prosessorivalmistaja, joka istuttaa HBM-muistit ja prosessorin samaan pakettiin (ja vielä täysin ilman DDR-kampoja?). Tälläisellä ratkaisulla näytönohjaimellekin pitäis riittää muistikaistaa hyvin, toisin kuin DDR-muisteja käyttävissä ratkaisuissa.

Olin odottanut tälläistä AMD:ltä parin vuoden sisällä. Jännä juttu, vaikuttaa että Apple on ihan oikeasti alkamassa prosessorivalmistajaksi ja heti tuo käyttöön aivan uuden tavan tehdä asioita.

Kaotik · 11.11.2020

mango sanoi:
Mielenkiintoista, että Apple on ensimmäinen prosessorivalmistaja, joka istuttaa HBM-muistit ja prosessorin samaan pakettiin (ja vielä täysin ilman DDR-kampoja?). Tälläisellä ratkaisulla näytönohjaimellekin pitäis riittää muistikaistaa hyvin, toisin kuin DDR-muisteja käyttävissä ratkaisuissa.

Olin odottanut tälläistä AMD:ltä parin vuoden sisällä. Jännä juttu, vaikuttaa että Apple on ihan oikeasti alkamassa prosessorivalmistajaksi ja heti tuo käyttöön aivan uuden tavan tehdä asioita.

Ilmeisesti tämä Applen Suomen sivuilta löytynyt tieto oli virheellinen ja kyse onkin LPDDR4X-muisteista.

zepi · 11.11.2020

eternality sanoi:
Onko tämän siis jossain vahvistettu käyttävän HMB? Ainakin Anandtechissä näytettiin puhuvan 128-bittisestä dramista?

Anandin testi on A14:sesta jossa on lpddr4x:ää 128bit väylän perässä.

saan · 11.11.2020

mango sanoi:
Mielenkiintoista, että Apple on ensimmäinen prosessorivalmistaja, joka istuttaa HBM-muistit ja prosessorin samaan pakettiin (ja vielä täysin ilman DDR-kampoja?). Tälläisellä ratkaisulla näytönohjaimellekin pitäis riittää muistikaistaa hyvin, toisin kuin DDR-muisteja käyttävissä ratkaisuissa.

Olin odottanut tälläistä AMD:ltä parin vuoden sisällä. Jännä juttu, vaikuttaa että Apple on ihan oikeasti alkamassa prosessorivalmistajaksi ja heti tuo käyttöön aivan uuden tavan tehdä asioita.

AMD:llä taitaa olla melko vastaava ratkaisu GDDR6:llä toteutettuna uusissa konsoleissa.

Kaotik · 11.11.2020

saan sanoi:
AMD:llä taitaa olla melko vastaava ratkaisu GDDR6:llä toteutettuna uusissa konsoleissa.

Ei ne samassa paketoinnissa ole, samalla emolevyllä vain niin kuin ennenkin.

jive · 11.11.2020

Olen luullut että MCM HBM muistin kanssa vaatii aina interposer -tekniikan käyttöä. Jos piirien integrointi orgaaniselle alustalle pitää paikkansa niin tuskin on HBM muistia. Mahtaisiko 16GB HBM muistia edes mahtua 10W tehobudjettiin?

Kaotik · 11.11.2020

jive sanoi:
Olen luullut että MCM HBM muistin kanssa vaatii aina interposer -tekniikan käyttöä. Jos piirien integrointi orgaaniselle alustalle pitää paikkansa niin tuskin on HBM muistia. Mahtaisiko 16GB HBM muistia edes mahtua 10W tehobudjettiin?

Interposerin tai jonkin vastaavan teknologian, Intel kiersi esimerkiksi EMIBillä interposerin tarpeen. 16 Gt HBM:ää ei kyllä prossun kanssa 10 wattiin mahdu, Vega Frontier Editionin 2x8Gt stackit vei yhteensä noin 20W

eternality · 11.11.2020

zepi sanoi:
Anandin testi on A14:sesta jossa on lpddr4x:ää 128bit väylän perässä.

Niin on, mutta puhuivat nimenomaan tuosta M1 kun sanoivat että käyttää lpddr4x. Lisäksi voi katsoa esim. noita applen M1 kuvia joissa on normaalin näköisiä dram piirejä eikä HBM stäckkejä.

pomk · 11.11.2020

weetabix sanoi:
Odotan mielenkiinnolla eteneekö tuo right-to-repair liike riittävästi jenkeissä ja EU:ssa että korjaamisen salliminen taataan jollain tasolla

Näissä uusissa ei ihan kauheasti enää ole osia edes vaihdettavaksi. Vähän virransyötön komponentteja ja levylle juotettu massamuisti (jota tuskin saa ilman applen apua vaihdettua). Toisaalta en ihmettelisi jos apple siirtäisi enemmän rojua sen turvapiirinsä taakse ihan vaan kettuillakseen nyrkkipajakorjausfirmoille. Maltan tuskin odottaa Apple virransyöttöä (tm).

mango · 11.11.2020

Kaotik sanoi:
Ilmeisesti tämä Applen Suomen sivuilta löytynyt tieto oli virheellinen ja kyse onkin LPDDR4X-muisteista.

Ai, no tämä selittääkin asian. Ensimmäinen oma prosessori ikinä ja siihen vielä HBM-muistit kylkeen oliskin ollu aikamoinen saavutus. Aiemmin en oikein tiennyt mitä ajatella Applen omista prosessoreista, mutta olisihan tuollainen kombo voinut olla jytky.

Nähtäväksi jää paljonko tälläinen CPU+RAM samassa paketissa toimii.

Kaotik · 11.11.2020

mango sanoi:
Ai, no tämä selittääkin asian. Ensimmäinen oma prosessori ikinä ja siihen vielä HBM-muistit kylkeen oliskin ollu aikamoinen saavutus. Aiemmin en oikein tiennyt mitä ajatella Applen omista prosessoreista, mutta olisihan tuollainen kombo voinut olla jytky.

Nähtäväksi jää paljonko tälläinen CPU+RAM samassa paketissa toimii.

En nyt näe olisiko se mitenkään merkittävästi sen hankalampaa ollut, TSMC:llä on varsin kattava valikoima paketointiteknologioita interposereineen asiakkaiden käyttöön.
CPU+RAM samassa paketissa voi olla varsin uutta, mutta läppärinäyttiksissä on iät ja ajat ollut tarjolla vaihtoehtoja, joissa muistit on samassa paketoinnissa

vemkki · 11.11.2020

Sihtasin Samsungin sivulta, että 64-bittisenä löytyy enintään 96 gigabitin LPDDR4X-piirejä. Kahdella piirillä pystyisi toteuttamaan siten 96/8*2=24 gigatavun muistin 128-bittisenä. Voisi siis kuvitella, että kun järeämpiä prosessoreja tulee, niin niihin tulee paikat neljälle muistipiirille, jotta saadaan mahdollisuus vähintään 32 gigan muistille. Sillä oletuksella tietysti, että käytössä on samantyyppinen muistiratkaisu.

LPDDR4X | DRAM | Samsung Semiconductor Global

Make your mobile device shine with LPDDR4X's 15% enhanced performance and 12GB in the small-size package. Offers 4,266Mbps speed and capacities up to 96Gb.

www.samsung.com

Edit: Ovat näköjään unohtaneet päivittää sivun esikatseluvinkeistä lukeman 8 GB -> 12 GB, vaikka sivulla itsessään mainitaan 12 GB.

zepi · 11.11.2020

Applen on puoli pakko tukea myös jotain socketoitavia muisteja jos se aikoo tuoda mac-pro versiot tarjolle. Taino, kaippa 1TB integrointi emolle onnistuu jos halutaan, mutta prossusubstraatille se ei ole kyllä mahtumassa.

Seuraavaksi voitaneen odottaa joko M1x tai M1z piiriä, joka tulee korvaamaan 13” MBP huippumallin prossun. Tai ehkä ensimmäiseksi kirjaimeksi valitaan jotain muuta kuin M ja tulee vain P1 siru tjsp.

Vaikea sanoa montako eri mallia Apple tuo ulos, mutta ainakin kaksi erilaista tarvitsee, vaikka kuinka tekisi chipletteinä.

Sami Riitaoja · 11.11.2020

mango sanoi:
Ai, no tämä selittääkin asian. Ensimmäinen oma prosessori ikinä ja siihen vielä HBM-muistit kylkeen oliskin ollu aikamoinen saavutus.

Nähtäväksi jää paljonko tälläinen CPU+RAM samassa paketissa toimii.

No ei ihan ole ensimmäinen, onko tää nyt 10. versio Applen prosessorista. M1 on käytännössä A14x, joka taas on suhteellisen pieni päivitys A12x:stä, eli ei tämän piirin kohdalla mitään kovin suurta muutosta varsinasesti tule.

Ja moneltahan on mennyt ohi, ja ollut suorastaan denial moodi päällä sen suhteen kuinka hyviä prosessoreja Applella on ollut jo monta sukupolvea. Nyt kun uusin versio padin prossusta pistettiin halpamäkkeihin niin voidaan jo ylpeillä tehoikkaimmilla prosessorilla - varsinaiset nopeammat mäkkiprossut ovat vasta tulossa.

Sami Riitaoja · 11.11.2020

Timo 2 sanoi:
Mitä tarkoittaa leveä arkkitehtuuri? Ytimet vievät paljon piipinta-alaa? Kuulostaa jotenkin oudolta termiltä, että arkkitehtuuri on leveä.

Skalaariprosessori pystyy ajamaan yhtä käskyä/iteraatiota yhtäaikaa. Superskalaariprosessori useampaa iteraatiota samaan aikaan ja tuo superskalaarisuuden määrä on yleensä nimetty prosessorissa leveydeksi. Eri osat prosessorissa ovat eri levyisiä, mutta tärkeimmistä käskyjen dekoodaus on Applen uusimmissa prosessoreissa 8kpl per kellojakso(Intel-AMD 4-5) ja yhtäaikaisia kokonaislukupuolen laskutoimituksia voidaan suorittaa 6kpl kellojakso(Intel AMD 4)

Arkkitehtuurista voidaan myös puhua toisessa suunnassa eli syvyydestä, eli kuinka suuri prosessorin käskyjen uudeellenjärjestelyn ikkuna on. Tässä Zen3 256, Intel Covet 352 ja Applen uusimmat ~630. Eli Applen prossu on liki tuplasti leveämpi ja syvempi arkkitehtuuriltaan kuin nykyiset x86-toteutukset - ja toteutus on myös tehokas eli käskyjä pystytään suorittamaan myös liki kaksi kertaa enemmän per kellojakso(IPC)

hkultala · 11.11.2020

weetabix sanoi:
4800u sisältää noin 10 miljardia transistoria, joten 16 kuulostaa isolta. Mutta onhan tuohon toisaalta pultattu vaikka mitä muuta roinaa ja näköjään Inteliltä opeteltu 'up to' kielenkäyttöä dioihin.

Transistorimäärä on todella huono mittayksikkö mihinkään, kun keskimääräinen logiikkatransistori vie n. 4 kertaa enemmän tilaa kuin keskimääräinen SRAM-(välimuisti)transtori ja monien nykypiirien pinta-alasta n. puolet (eli siis transistoreista n. 80%) on välimuistia.

Transistorimäärä lähinnä kertoo sen, paljonko on piirin (väli)muistien sekä rekisterifileiden kokonaiskapasiteetti muttei paljoa siitä, paljonko siellä on oikeasti logiikkaa.

Mutta onhan tässä kyse selvästi järeämmästä piiristä kuin Renoirissa; Nuo isot CPU-ytimet on samaa järeysluokkaa, ehkä jopa vähän järeämpiä, GPU on järeämpi ja muuta logiikkaa on selvästi enemmän (mm. tuo neuroverkkokiihdytin). Vähän ihmetyttänyt, että miksi AMD ei ole PC-markkinoille tehnyt tämän järeysluokan APU-piiriä tämäntyylisellä oikeasti nopealla muistiratkaisulla (konsoleihin on tehnyt, mutta niitä ei myydä PC-käyttöön).

Tigerou · 11.11.2020

EVVK-luokan risteilijä edelleen kyseessä, aika näyttää tuottaako jotain näkyvää :coffee:

jive · 11.11.2020

hkultala sanoi:
Vähän ihmetyttänyt, että miksi AMD ei ole PC-markkinoille tehnyt tämän järeysluokan APU-piiriä tämäntyylisellä oikeasti nopealla muistiratkaisulla (konsoleihin on tehnyt, mutta niitä ei myydä PC-käyttöön).

riippuu vähän mitä PC termillä kukin haluaa ymmärtää mutta kannalla varustetuissa alustaratkaisuissa vaatisi oman kantansa ja AMD on karsinut kovalla kädellä niitä. Joku juotettava BGA ratkaisu olisi mahdollinen ainakin kannettavissa ja sulautetuissa laitteissa. Perinteisessä PC markkinassa nämä eivät ole ainakaan historiassa olleet menestyksekkäitä.

hkultala · 11.11.2020

Sami Riitaoja sanoi:
Skalaariprosessori pystyy ajamaan yhtä käskyä/iteraatiota yhtäaikaa.

Kyllä siellä liukuhihnalla voi olla monta käskyä eri vaiheissa liukuhihnaa menossa. aloittamaan tai lopettamaan (vain) yhden käskyn suorituksen yhtä aikaa on se oikea määritelmä.

"Iteraatio" on myös aika outo sana tässä.

Superskalaariprosessori useampaa iteraatiota samaan aikaan ja tuo superskalaarisuuden määrä on yleensä nimetty prosessorissa leveydeksi. Eri osat prosessorissa ovat eri levyisiä, mutta tärkeimmistä käskyjen dekoodaus on Applen uusimmissa prosessoreissa 8kpl per kellojakso(Intel-AMD 4-5) ja yhtäaikaisia kokonaislukupuolen laskutoimituksia voidaan suorittaa 6kpl kellojakso(Intel AMD 4)

... tosin Zen3 pystyy lataamaan mikro-op-välimuistista kahdeksan mikro-operaatiota kellojaksossa ja renameamaan kuuden operaation rekisterit kellojaksossa.
Eli etupään leveysero on yleensä (vain) 1.33-kertainen zen3een nähden. Neljään pudotaan zen3lla vasta kun tulee huti mikrokoodivälimuistista.

Ja tilanteet joissa löytyy suorittettavaksi yli neljä kokonaislukulaskutoimitusta yhtä aikaa on harvinaisia.

Ja Zen3n kokonaissuoritusleveys on kuitenkin 14 käskyä kellojaksossa, Applella taas kokonaisleveys on 16 tai 17 käskyä kellojaksossa.

Jos jätetään liukuluku-/SIMD-puoli huomiotta, Zen3n kokonaisleveys on 8 käskyä kellojaksossa (4 kokonaislukulaskua, 3 muistioperaatiota, haarautuminen), Applella 12-13.

Ja liukuluku-/SIMD-puoli Zen3ssa onkin sitten järeämpi kuin A14ssa, varsinaisia laskentayksiköitä on yhtä monta, ja FMA-operaatiota voidaan laskea yhtä paljon/kellojakso, mutta Applella SIMDin leveys on puolet. AMDllä jää vähintään yksi SIMD_puolen liukuhihna vielä vapaaksi muille operaatiolle (esim. yhteenlaskuille tai jollekin SIMD-kokonaislukuoperaatioille) jos porskutetaan FMAta täydellä teholla, mutta lisäksi AMDllä on tämän lisäksi pari yksikköä joilla voi tehdä tallennuksia tai muunnoksia. Ja kaistaa on myös AMDllä SIMD-operaatioilla 1.5x enemmän, kun yksi lataus tai tallennus siirtää tuplamäärän dataa.

Arkkitehtuurista voidaan myös puhua toisessa suunnassa eli syvyydestä, eli kuinka suuri prosessorin käskyjen uudeellenjärjestelyn ikkuna on. Tässä Zen3 256, Intel Covet 352 ja Applen uusimmat ~630. Eli Applen prossu on liki tuplasti leveämpi ja syvempi arkkitehtuuriltaan kuin nykyiset x86-toteutukset - ja toteutus on myös tehokas eli käskyjä pystytään suorittamaan myös liki kaksi kertaa enemmän per kellojakso(IPC)

Zen3een verrattuna todellinen leveys on siis n. 1.33-1.5-kertainen, ei "liki tuplasti leveämpi". "liki tuplasti leveämpi" pätee lähinnä verrattuna Zen1een ja Skylake-johdannaisiin.

Ja toisaalta syvyttä voisi mitata myös liukuhihnan pituudella, joka Zen-johdannaisissa ja Intelin Core-sarjan prossuissa on Applen ytimiä pidempi, ja AMDn ja Intelin prossut tämän takia kykenevät suurempiin kellotaajuuksiin. Applen ytimien maksimikello on 3 GHz, AMD on lähellä viittä ja Intel yli viidessä. Vaikka Applella on käytössään näistä kehittynein valmistustekniikkaa.

zepi · 11.11.2020

hkultala sanoi:
Applen ytimien maksimikello on 3 GHz, AMD on lähellä viittä ja Intel yli viidessä. Vaikka Applella on käytössään näistä kehittynein valmistustekniikkaa.

Applen maksimikello on 3GHz iphonen sisällä n. 3W TDP:llä.

Kukaan ei vielä tiedä, että kuinka ylös tuo kellottuu kun TDP-raja nostetaan 30W:hen ja päälle lyödään jäähdytin. (Toki siltikään ei varmasti nousta 5GHz tasolle).

Sami Riitaoja · 11.11.2020

hkultala sanoi:
Ja toisaalta syvyttä voisi mitata myös liukuhihnan pituudella, joka Zen-johdannaisissa ja Intelin Core-sarjan prossuissa on Applen ytimiä pidempi, ja AMDn ja Intelin prossut tämän takia kykenevät suurempiin kellotaajuuksiin. Applen ytimien maksimikello on 3 GHz, AMD on lähellä viittä ja Intel yli viidessä. Vaikka Applella on käytössään näistä kehittynein valmistustekniikkaa.

Mistäs näin päättelet? Liukuhihnan eksaktia pituutta Apple ei ole kertonut, mutta käskyjen mispredict-penaltyn perusteeella Applen prossuissa on vähintään yhtä pitkä liukuhihnoitus kuin Intelin ja AMD:n prosessoreissa.

jive · 11.11.2020

En ole koskaan kuullut kenenkään selittävän miksi liukuhihnan pituudella on korrelaatio kellotaajuuteen. Voin nähdä miksi tilastollisesti latenssin ja throughputin välillä käydään optimointitaistoa, mutta en miten kelloalueisiin tai transistorien kykyyn vaihtaa tilaa mitenkään liittyisi laskentayksiköiden liukuhihnojen pituus.

Sami Riitaoja · 11.11.2020

jive sanoi:
En ole koskaan kuullut kenenkään selittävän miksi liukuhihnan pituudella on korrelaatio kellotaajuuteen. Voin nähdä miksi tilastollisesti latenssin ja throughputin välillä käydään optimointitaistoa, mutta en miten kelloalueisiin tai transistorien kykyyn vaihtaa tilaa mitenkään liittyisi laskentayksiköiden liukuhihnojen pituus.

Eihän sillä suoraan olekaan. Transistoriketjujen pituus määrää maksimikellotaajuuden ja yhdessä liukuhihnan vaiheessa syntyvä ketjun pituus riippuu myös prosessorin liukuhihnoituksesta - eli liukuhihnan vaiheessa tehtävä asia jos jaetaan kahdelle liukuhihnan vaiheelle saadaan ko. ketjua hyvin todennäköisesti lyhennettyä.

Mutta siis pointtisi on oikea, ei se liukuhihnan pituus korreloi millään tavalla maksimikellotaajuuteen erilaisilla prosessoreilla kuten aikaisemmin päätellään. Prosessorin ytimen transistoriketjujen nopeus korreloisi mutta tätä FO4-viivettä ei nyt monellekaan prosessorille julkisesti ilmoiteta.

hkultala · 11.11.2020

Sami Riitaoja sanoi:
Mistäs näin päättelet? Liukuhihnan eksaktia pituutta Apple ei ole kertonut, mutta käskyjen mispredict-penaltyn perusteeella Applen prossuissa on vähintään yhtä pitkä liukuhihnoitus kuin Intelin ja AMD:n prosessoreissa.

L1-kakun viive, 3 kellojaksoa, on julkista tietoa. Ja tuolla kakulla on enemmän merkitystä IPChen kuin sillä onko jotain kokonaislukuyksiköitä 4 vai 6 kpl. Tuo 3 kellojakson viive tuolle 128 kiB kakulle ei olisi (millään nykyisillä valmistustekniikoilla) mahdollinen saman luokan liukuhinapituudella kuin Zen3 ja SKylake (se koko liukuhihna on kyllä balanssissa että ei siellä muualla turhaan vaiheita splitattu liian pieniksi kun kakku kuitenkin rajoittaa kelloja).

Myös joissain muissa käskyissä Applella on selvästi pienempiä viiveitä kuin AMDllä ja Intelillä.

Missä perustat väitteesi shaarautumishudin pituudesta?

FlyingAntero · 11.11.2020

Sami Riitaoja sanoi:
Ja moneltahan on mennyt ohi, ja ollut suorastaan denial moodi päällä sen suhteen kuinka hyviä prosessoreja Applella on ollut jo monta sukupolvea. Nyt kun uusin versio padin prossusta pistettiin halpamäkkeihin niin voidaan jo ylpeillä tehoikkaimmilla prosessorilla - varsinaiset nopeammat mäkkiprossut ovat vasta tulossa.

Apple on tosiaan jyrännyt mobiilipuolella jo vuosia, joten siinä mielessä yhtiön lupaukset M1:n suorituskyvystä eivät ole yllättäviä. Kannattaa kuitenkin huomioida, että suorituskyky saattaa heikentyä aikalailla, jos ei päästä ajamaan natiivia ARM-softaa.

Windowsin puolella Qualcommin järjestelmäpiireihin perustuvat ratkaisut laittavat hyvin kampoihin Intel-laitteille omassa tuotesegmentissään mutta x86-softaa ajettaessa suorituskyky matelee. Esimerkiksi SQ1 asettuu Geekbench 4 -testissä i5-6300U:n ja i5-7200U:n välimaastoon yhden ytimen osalta, kun käytössä on testin ARM-versio. x86-versiolla suorituskyky on Pentium Gold 4425Y:n tasolla. Nähtäväksi jää, miten kehittäjät kääntävät sovellukset ARM:lle ja kuinka hyvin Rosetta2 hoitaa homman macOS:lla.

Surface Pro X review: More than just a thin Surface Pro with LTE

GeekBench 4 on Windows

Device	CPU	Single core	Multi core
Surface Pro 6	i5-8250U	4287	14031
Surface Laptop 2	i5-8250U	4203	13233
Surface Laptop	i5-7200U	3725	7523
Surface Pro X (ARM)	SQ1	3505	11727
Surface Pro 4	i5-6300U	3319	6950
Samsung Galaxy Book2 (ARM)	SD850	2262	7405
Surface Pro X (x86)	SQ1	2182	6822
HP Envy x2 (ARM)	SD835	2111	6314
Surface Go	Pentium Gold 4425Y	2078	3934
Samsung Galaxy Book2 (x86)	SD850	1345	4164
Surface 3	Atom x7-Z8700	1078	2777

Alla vielä vertailuksi Android- ja iOS-laitteilla ajettuja tuloksia. OnePlus 5 puhelimessa on sama prosessori kuin HP Envyssä. Näyttäisi, että Androidilla ajettu tulos vastaa Windowsilla ARM-sovelluksen tulosta.

GeekBench 4 on Android

Device	CPU	Single core	Multi core
OnePlus 8	SD865	4276	12541
OnePlus 7 Pro	SD855	3460	10814
OnePlus 6	SD845	2470	9049
OnePlus 5	SD835	1947	6682

GeekBench 4 on iOS

Device	CPU	Single core	Multi core
Apple iPhone 11 Pro Max	A13 Bionic	5473	13820
Apple iPhone XS Max	A12 Bionic	4780	11396
Apple iPhone X	A11 Bionic	4229	10189
Apple iPhone 7	A10 Fusion	3406	5902

Sami Riitaoja · 11.11.2020

hkultala sanoi:
L1-kakun viive, 3 kellojaksoa, on julkista tietoa. Ja tuolla kakulla on enemmän merkitystä IPChen kuin sillä onko jotain kokonaislukuyksiköitä 4 vai 6 kpl. Tuo 3 kellojakson viive tuolle 128 kiB kakulle ei olisi (millään nykyisillä valmistustekniikoilla) mahdollinen saman luokan liukuhinapituudella kuin Zen3 ja SKylake (se koko liukuhihna on kyllä balanssissa että ei siellä muualla turhaan vaiheita splitattu liian pieniksi kun kakku kuitenkin rajoittaa kelloja).

Miten liukuhihnan pituus rajoittaa L1-cachen viivettä? Ja sama 8-way L1 cache Applellakin kuin AMD:llä ja Intelillä Skylakessa, cachen tarkistuksessa samat 8 osoitetta tarkistettavana.

Andan · 11.11.2020

jive sanoi:
En ole koskaan kuullut kenenkään selittävän miksi liukuhihnan pituudella on korrelaatio kellotaajuuteen. Voin nähdä miksi tilastollisesti latenssin ja throughputin välillä käydään optimointitaistoa, mutta en miten kelloalueisiin tai transistorien kykyyn vaihtaa tilaa mitenkään liittyisi laskentayksiköiden liukuhihnojen pituus.

Ei ole tullut hetkeen räpättyä assemblyn ja manuaalisen liukuhihnaoptimoinnin kanssa, mutta jos vanhasta muistista yrittää, joku muu voi korjata

Pidempi/syvempi liukuhihna antaa enemmän aikaa käskyn suorittamiseen eli koska korkeammilla kelloilla yksittäisen kellojakson pituus on lyhyempi, niin tekemällä pidemmän liukuhihnan annetaan enemmän aikaa käskyn suorittamiselle eli kompensoidaan rajoitteita tilan vaihdosten jne. osalta. Yksittäisen käskyn suorittaminen siis voi kestää matalammalla ja korkeammalla kellotaajudella saman ajan, jos liukuhihnan pituudet ovat samassa suhteessa. Toisaalta kokonaisuutena korkeampi kellotaajuus ja pidempi liukuhihna mahdollistavat suorittamaan enemmän käskyjä loppuun samassa ajassa.

hkultala · 11.11.2020

jive sanoi:
En ole koskaan kuullut kenenkään selittävän miksi liukuhihnan pituudella on korrelaatio kellotaajuuteen. Voin nähdä miksi tilastollisesti latenssin ja throughputin välillä käydään optimointitaistoa, mutta en miten kelloalueisiin tai transistorien kykyyn vaihtaa tilaa mitenkään liittyisi laskentayksiköiden liukuhihnojen pituus.

Luulin, että olet joskus suorittanut TTYn/TTKKn"tietokonetekniikka"-kurssin. Siellä kyllä on asia selitetty.

Käskyn suorittamiseen pitää tehdä monta asiaa, yksinkertaisimmillaan esim.

1) hakea käsky (käskyväli)muistista (aikaa kuluu esim. 0.35 ns)
2) dekoodata, että mistä käskystä on kyse, mitä sen pitäisi tehdä, muodostaa tämän perusteella prosessorin sisäiset kontrollisignallit (aikaa kuluu esim. 0.2 ns)
3) lukea käskyn tarvitsema data rekistereistä (aikaa kuluu esim. 0.2 ns)
4) suorittaa varsinainen laskuoperaatio (aikaa kuluu esim. 0.3ns)
5) kirjoittaa tulos kohderekisteriin (aikaa kuluu esim. 0.15ns)

Mikäli mitään liukuhihnaa ei ole, ja käsky suoritetaan kellojaksossa, sen suorittamiseen menee aikaa kaikkein näiden summa eli tässä esimerkissä 1.2ns. Saavutetaan maksimissaan 833 MHz kellotaajuus.

Jos meillä onkin vaikka 2-vaiheinen liukuhinna, ekassa vaiheessa (ekalla kallojaksolla) haetaan käsky sekä dekoodataan se, toisessa vaiheessa (seuravalla kellojaksolla) luetaan data rekistereistä, suoritetaan laskuoperaatio ja kirjoitetaan tulos, nyt kellojaksossa pitää tehdä vain sen verran, mihin pidempi näistä vie aikaa, eli max(0.35 + 0.2 , 0.2 + 0.3 + 0.15) = max(0.55, 0.65) = 0.65ns, eli kellojakso saa kestää maksimissaan 0.65ns. Eli saavutetaankin 1/0.65 = 1.54 GHz kellotaajuus.

Jos meillä on vaikka 3-vaiheinen liukuhihna, ekassa vaiheessa haku, toisessa dekoodaus ja rekisterinluku, ja kolmannessa suoritus ja tuloksentallennus, pisin vaihe on 0.45ns eli saavutetaan 1/0.45ns = 2.2 GHz kellotaajuus.

Neljällä vaiheella yhdistämällä dekoodaus ja rekisterin luku pisin vaihe on dekoodaus+rekisterinluku eli 0.4 ns, eli saavutetaan 2.5 GHz kellotaajuus.

Viidellä vaiheella pisin vaihe on käskynhaku eli 0.35ns, eli saavutetaan 2.86 GHz kellotaajuus.

Splittaamalla käskyhaku kahteen osaan, kuusivaiheisella liukuhihnalla pisin vaihe olisi suoritus eli 0.3ns, saavutettaisiin 3.33 GHz kellotaajuus.

Käytännössä tosin liukuhinavaiheiden väliin tulee aina liukuhihnarekisteri (viive joitain kymmeniä pikosekunteja) joten kellotaajuus ei todellisuudessa skaaladu ihan näin hyvin, ja lisäksi joitain asioita ei vaan pysty splittaamaan useaan liukuhihnavaiheeseen järkevästi johtuen siitä, mitä se tekee.

Toki sitten prosessorin rakenteen monimutkaistuessa väliin tulee sellaisia liukuhihnavaiheita jotka tekevät asioita, joita yksinkertaisen prosessorin ei tarvitse ollenkaan tehdä. Esim. perinteisillä 1980-luvun RISC-prossuilla on tuossa laskuoperaatio(EXEC)- ja tuloksentallennusvaiheen(WB) välissä muistiaccess-vaihe (MEM) (ja niissä myös dekoodaus ja rekisterinluku oli yhdistetty samaksi vaiheeksi).

Ja siihen, kuinka paljon aikaa tarvitaan suoritukseen vaikuttaa aika paljon se, millaisia käskyjä on. kokonaislukujen kertolasku vaatii n. 2-3x enemmän aikaa kuin yhteen-/vähennyslasku, joten suurimmassa osassa prossuista on sitten rakenne jossa kertolaskulla on pidempi liukuhihna(ja siis enemmän viivettä käskyllä kellojakoissa mitattuna) kuin yhteen- ja vähennyslaskulla.

Rekistereitä uudelleennimeävät ja käskyjä uudelleenjärjestelevät prosessorit taas tarvitsevat vaiheet sille rekisterien uudelleenimeämiselle, käskyjen laittamiselle puskuriin odottamaan suoritusta sekä niiden skedulointiin suoritukseen, sekä vielä tuloksen eläköitymiseen (retire) jolloin käsky virallisesti julistetaan suoritetuksi ja käskyvuo tuodaan takaisin alkuperäiseen järjestykseen. Eli käytännössä monimutkainen ja kehittynyt ydin tarvitsee muutaman vaiheen enemmän päästäkseen samaan kellotaajuuteen.

Kellotaajuuden kannalta ratkaiseva tekijä on siis pisimmän liukuhihnavaiheen pituus, ei suoraan likuhihnan vaiheiden määrä, mutta kun kyse on prosessoreista jotka ovat ominaisuuksiltaan melko samalla tasolla, nämä korreloivat hyvin vahvasti keskenään.

hkultala · 11.11.2020

Sami Riitaoja sanoi:
Miten liukuhihnan pituus rajoittaa L1-cachen viivettä? Ja sama 8-way L1 cache Applellakin kuin AMD:llä ja Intelillä Skylakessa, cachen tarkistuksessa samat 8 osoitetta tarkistettavana.

Ensinnäkin, sen TAG-taulukon koko, mistä se tarkastus tehdään, on 4-kertainen, mikäli välimuistilinjan koko on sama.
Toisekseen: Sen kunkin välimuistitien data-arrayn koko on myös 4-kertainen.

Kun muisti on kapasiteetiltaan 4 kertaa isompi, se tarkoittaa 2 kertaa suurempaa molemmissa dimensioissa. Datan kulkeminen kauimmaisesta nurkasta kestää tällöin 2 kertaa kauemmin. Lisäksi joko samassa johdossa on enemmän kytkentöjä, mikä vaatii vahvemmat transistorit niitä ajamaan, tai tarvitaan isommat (monimutkaisemmat, hitaammat) muxit joilla valitaan useamman johdon väliltä.

Että se välimuisti ei todellakaan ole "sama".

Lisäksi se L1D-access on osa sitä prosessorin liukuhihnaa. Ihan samanlailla se on jaettu liukuhihnavaiheisiin kuin kaikki muukin. Käytännössä menee (noiden kolmen välimuistiviiveessä näkyvän vaiheen osalta) suurinpiirtein siten, että ekassa vaiheessa lasketaan osoite, toisessa vaiheessa 1) aloitetaan TLB lookup sekä sen kanssa rinnakkain 2) way prediction ja aloitetaan sen jälkeen sen perusteella access jonnekin rinnakkain sekä data- että tag-arrayhin, kolmannessa vaiheessa sitten saadaan TLB-lookupin tulos, verrataan sitä TAGiin ja sen perusteella joko annetaan luettu data eteenpäin tai nostataan pystyyn hutiflägi.

Tässä on aika monta (osittain peräkkäistäkin) asiaa tehtäväksi aika pienessä ajassa. Se, että esim. way predictionille voidaan pyhittää oma vaihe ja aloittaa accessit sinne data- ja tag-arrayihin heti seuraavan kellojakson alussa (eikä vasta kellojakson loppupuolella) voi helpottaa aika paljon sitä millä kellotaajuudella homma vielä toimii. Ja mitä enemmän on aikaa TLB-lookupille, sitä isompi (ja paremman osumatarkkuuden omaava) ensimmäisen tason DTLB ytimelle voidaan laittaa

Intelillä joissain prossuissa taitaa nuo muistiaccessien liukuhihnavaiheet mennä siten, että yksinkertaisemmilla osoitusmuodoilla osoitteenlaskennalle on yksi vaihe ja L1D-viive on 4 kellojaksoa, monimutkaisemmilla osoitusmuodoilla osoitteenlaskennalle on kaksi vaihetta, L1Dn kokonaisviive tällöin 5 kellojaksoa.

Ja niin, sitä linkkiä siihen lähteeseen Applen ytimien haarautumishutiviiveestä odotellaan yhä.

Apple julkaisi M1-järjestelmäpiirin Mac-tietokoneisiin

Suomen Michael Jackson

Suomen Michael Jackson

Kapitalisti

Kapitalisti

Kapitalisti

Banhammer

Banhammer

Banhammer

Banhammer

ɑ n d r o i d

Uutiset

Statistiikka

Hinta.fi