Mutta tosiaan vielä lisäkommentteja noiden Agner Fogin analyysien pohjalta:
* Normaalisti pystytään ottamaan(liukuhihnan etupäässä, ennustaen) yksi haarautuminen kahden kellojakson välein(tämä ei koske haarautumisen tarkastamista, joka tapahtuu liukuhinan loppupäässä, näitä voi ilmeisesti tehdä 2/kellojakso)
* Mutta, maksimissaan viiden mikro-operaation looppeja voidaan suorittaa yhdessä kellojaksossa(jolloin siis hyppy joka kellojakso) suoraan micro-op-välimusitista(joka on vähän kuin L0-käskyvälimuisti, mutta sisältää jo dekoodattuja käskyjä) ja täältä voidaan muutenkin ladata 5 käskyä kellojaksossa.
* Nämä 5 micro-operaatiota voivat olla peräisin jopa kuudesta alkuperäisestä x86-käskystä, jos vertailu- ja haarautumiskäskyt on dekooderissa yhdistetty. (tämä on leveämpi kuin mikään x86-prossu tähän mennessä)
* Kokonaisluku-ALUt on melko kaikkivoipia, lähinnä vain kerto- ja jakolaskut on rajoitettu vain tietyille ALUille.
Ehkä yllättävimpiä on kuitenkin seuraavat:
* Tämä(käytetään nyt "tämä"- eikä "tuo"--sanaa kun kirjoitan tätä zenillä
) pystyy samaan aikaan suorittamaan sekä 256-bittisen liukuluku-AVX-SIMD-FMA:n että 256-bittisen liukuluku-AVX-SIMD-yhteenlaskun, ei FMA ei varaakaan liukulukujen yhteenlaskuyksiköitä kokonaan. (tosin ilmeisesti ei pysty tätä aivan joka kellojaksossa jatkuvasti vain vaan välillä). Tähän väitteeseen tosin suhtaudun hiukan epäillen.
* Vaikka FMA4-käskyjä ei virallisesti tueta, eikä prosessorin CPUID kerro niiden olevan tuettuja, ne tuntuvat silti toimivan