Un article assez interessant sur du calcul scientifique en multicoeur
http://www.cs.berkeley.edu/~samw/res...rs/ipdps08.pdf
Conclusions :
- Cell c'est le bien
- Opteron scale mieux que Clovertown
Un article assez interessant sur du calcul scientifique en multicoeur
http://www.cs.berkeley.edu/~samw/res...rs/ipdps08.pdf
Conclusions :
- Cell c'est le bien
- Opteron scale mieux que Clovertown
C'est vraiment une surprise pour toi ? Ca doit faire 4 ans que je dis sur ce forum que une archi avec des liens points a points entre des noeuds de calcul avec des controleurs memoire distribue est imbatable pour la scalabilite, et surtout a grande echelle.
C'est assez simple sur une platforme AMD tu ajoutes des noeuds, tu ajoutes de la bande passante, sur une platforme Intel, ca en enleve... Il y a forcement un moment ou ca va se voir. Si ils avaient pris des platformes quadri socket la difference aurait encore plus accentuee.
Sinon il y a autre chose: bonne scalabilite veut dire forcement qu'il y a des ressources gachees ou mal utilisees a faible nombre de threads donc en dehors du marche des serveurs haut de gamme ce n'est pas necessairement un argument interressant.
Leurs resultats montrent ca tres bien, clovertown est encore au dessus de l'opteron a 1 socket, des que tu ajoutes le second socket le FSB devient sature de snoop cross socket et la perf n'augmente quasiment plus.
Pour ce qui est de l'efficacite cote power, c'est tres facile de choisir qui va gagner entre Opteron ou Clovertown ca depend juste de la quantite de memoire dans la machine (la FBD grille 10x le power de la DDR). Comme quoi augmenter la capacite memoire en ajoutant des controleurs memoire marche nettement mieux que d'utiliser des technos de RAM series a la con (Rambus, FBD...).
Cet un tres bon article parce qu'il apporte d'autres archis en plus de Intel/AMD ou les resultats sont connus depuis bien longtemps (et publies regulierement sur le web). En particulier cell est assez zouli.
Quelque chose qui manque c'est une normalisation a la quantite de silicone utilisee. En effet il est plus facile d'avoir des hautes perf pour un power faible en multipliant les chips a basse frequence qu'en ayant quelques chips a haute frequence consommant moins de silicone. Je ne pense pas que ca change de maniere fondamentale les resultats mais c'est toujours interressant (de voir a quel point Itanic est mauvais).
fefe - Dillon Y'Bon
Disons que j'ai un peu trop tendance a oublier AMD parce que je cherche a me monter a PC. Du coup, je me suis fait avoir
Les Cells n'ont pas une frequence si basse que ca (3.2 GHz) et sont graves en 90 nm (enfin c'est en train de changer, avec le passage en 65 nm et les FP DP pipelinees). Clairement leur microarchitecture est tres bridee (j'ai vu un article d'IBM disant que le SPECINT 2k du PPU est dans les 400, comme un PIII 800...), mais ca consomme pas mal quand meme... Si je me souviens bien c'est du 100W/chip.
Quant au silicone, j'ai comme un coup de flemme la...
Il faut quand même noter que l'appli retenue (Lattice-Boltzmann) est triviale à paralléliser (calculs sur un gros volume avec juste des comms locales, donc ce n'est pas étonnant que ça scale bien sur les archis NUMA.
Un cluster de GPU ferait un carnage sur ce benchmark