Intel et Larrabee

**Oxygen3** · 23/05/2008, 13h41

Ca peut aussi être des rapprochements stratégiques de 'blocage'.

J'imagine sans trop de mal nVidia racheter ces boites pour préparer une riposte au Larabee (via du Cg ou du CUDA ?) ou les racheter pour empecher Intel de le faire

**Alice** · 24/05/2008, 00h24

Ca fait un petit moment que l'on dit dans ce post qu'Nvidia travaille sur le RT (il ne s'en cache pas vraiment). Il s'y intéresse car Intel fait un tel buzz avec son Larabee et le RTRT qu'Nvidia commence à se demander s'il ne devrait pas se bouger.

Il faut bien comprendre que pour le RT Nvidia doit repartir d'une copie blanche ou quasiment pour un raison simple souvent soulevée ici: le RT sur GPU est nul à chier. Cuda ne change rien à la donne car bien que facilitant la programmation de la bête, l'architecture elle reste la même. Bref il n'y a pas de magie. Tout le monde présente le RT comme l'algo de rendu ultime mais il ne faut pas oublier que c'est un des premiers algorithmes mis en place pour rendre une image (début des années 80). Pourtant ce n'est pas cette approche qui est cablée sur GPU. La raison est simple: c'est compliqué!

L'expérience d'NVidia dans le rendu par raster ne les avantage en rien par rapport à l'expérience d'Intel dans des CPU généralistes. NVidia évangélise massivement en montrant leur GPU comme un monstre de puissance. Pourtant pour le RT (gourmand en puissance de calcul), une implémentation sur CPU défonce complètement une implémentation sur GPU et ce avec une élégance et un souplesse que le GPU n'a pas!

Bref Nvidia ne veut pas rater le changement de wagon et pour se faire ils doivent ramer pour être sur que si le train passe ils puissent être à la hauteur!

**Dandu** · 24/05/2008, 00h39

en même temps, c'est pas la première fois que nVidia changera d'avis.

je rappelle que le NV1 (et NV2, mais bon) travaillaient pas sur des polygones pour la 3D (et que nVidia s'est en partie vautrée sur le coup quand Direct3D a choisi ça).

**Tramb** · 24/05/2008, 01h28

Surtout que, boudiou, la page de Rayscale, on dirait un TP d'étudiant en 2ème année d'info qui code son raytracer de sphères en Haskell.
Sérieux c'est quoi ces screens. Bien aliasés.
Gaussons-nous également quand ils se targuent que leur RT supporte l'environment mapping. Wow. Ca vaut vraiment le coup d'avoir un raytracer pour même pas lancer de rayons secondaires et faker ça avec un envmap.
Pas encore du calcul de caustics ni même de support de shaders, c'est a priori navrant ce truc.
En tout cas bravo à eux de s'être fait racheter par Nvidia. Quand je pense aux raytracers de haut niveau qui trainent sur le net.

En tout cas je joue ma madame soleil, on est pas prêt de voir du 3DRT compétitif dans les jeux vidéos. (Quand je pense que Sony a cru pouvoir se passer de GPU avec son Cell (enfin celui de HAL))

**Alice** · 24/05/2008, 11h39

Envoyé par Tramb

En tout cas je joue ma madame soleil, on est pas prêt de voir du 3DRT compétitif dans les jeux vidéos. (Quand je pense que Sony a cru pouvoir se passer de GPU avec son Cell (enfin celui de HAL))

Jusqu'a la PS3 sony s'est bien passé de GPU dans leur consoles d'ailleur je ne pense pas qu'ils aient pensé mettre du RTRT sur Cell mais plutôt un raster.

Mais bon effectivement le RT pour le jeu je pense que ce n'est vraiment pas pour desuite!

**newbie06** · 24/05/2008, 12h32

Envoyé par Alice

Jusqu'a la PS3 sony s'est bien passé de GPU dans leur consoles d'ailleur je ne pense pas qu'ils aient pensé mettre du RTRT sur Cell mais plutôt un raster.

Il y a un GPU dans la PS2, bon c'est sûr il ne ressemble pas aux autres mais quand même

Il était même documenté dans le kit Linux de la PS2.

**Alice** · 24/05/2008, 13h46

Oui! par GPU je voulais dire GPU ala Nvidia/ATI/Intel

**Tramb** · 25/05/2008, 21h33

Envoyé par Alice

Oui! par GPU je voulais dire GPU ala Nvidia/ATI/Intel

Bah oui ce bon vieux p'tit GS! Il patatait bien niveau fill rate pour l'époque.

**Alice** · 29/05/2008, 13h30

Pas vraiment de rapport direct avec le Larrabee mais ça reprend pas mal de point abordés dans ce thread; Notamment sur l'évolution des archi, et des modèles de programmation graphique.

Paf c'est ici

**newbie06** · 02/06/2008, 15h40

Une presentation de Larrabee est prevue au SIGGRAPH : http://www.siggraph.org/s2008/attend...e=papers&id=34

C'est le 12 aout

**DJ_DaMS** · 07/07/2008, 08h59

La news du jour pour ceux qui ne l'ont pas encore vue :
http://www.matbe.com/actualites/41691/
32 core de Pentium P54C à 2Ghz pour Larrabee

**newbie06** · 07/07/2008, 09h23

Interessant :-)

Mais gros bug dans la news : 300W pour une HD4850

A 300W on est au-dessus de la GTX280, la plus grosse consommatrice mono GPU. En terme de rendement theorique, faudrait que j'arrive a trouver la conso de la HD4850

EDIT : calcul idiot de quelqu'un qui ne connait pas ; on nous dit 32 coeurs, 2 GHz, 2 TFlops. Ca m'amene a 32 Flops/cycle ; en comptant le fma comme 2 op, ca nous amene a 16 fma/cycle ; si j'ai bien suivi Intel a un machin SIMD 256 bits, soit 8 SP/registre ; doit-on en conclure, naivement, qu'il y a deux unites SIMD/core ? Ou alors ils comptent les unites dediees ? Et Larrabee est-il sense avoir le SIMD 256 bits ?

**Møgluglu** · 07/07/2008, 09h51

Envoyé par newbie06

EDIT : calcul idiot de quelqu'un qui ne connait pas ; on nous dit 32 coeurs, 2 GHz, 2 TFlops. Ca m'amene a 32 Flops/cycle ; en comptant le fma comme 2 op, ca nous amene a 16 fma/cycle ; si j'ai bien suivi Intel a un machin SIMD 256 bits, soit 8 SP/registre ; doit-on en conclure, naivement, qu'il y a deux unites SIMD/core ? Ou alors ils comptent les unites dediees ? Et Larrabee est-il sense avoir le SIMD 256 bits ?

D'après la news originale (im Deutsch) :

Die namensgebende MMX-Einheit selber wird er aber wohl nicht brauchen, denn für die mehrfach parallelen Berechnungen (SIMD) besitzt jeder Kern die neue Vektoreinheit mit mutmaßlich 512 Bit Breite. Das ergibt mit Multiply-Add-Befehlen maximal 32 Flop/Takt in einfacher Genauigkeit (SP), die fürs Visual Computing völlig ausreicht. Bei 32 Kernen würden dann schon 2 GHz Takt reichen, um die 2-Teraflops-Marke zu erreichen, womit er etwa doppelt so schnell wäre, wie die ATI/Nvidia-Konkurrenz jetzt.

Donc a priori un SSE/AVX like en 512-bit. Donc pas binary-compatible avec AVX?...

Et les premières versions seraient avec 16 et 24 cores (edit: et < 2GHz), le 32 cores 2GHz arriverait plus tard...

**Foudge** · 07/07/2008, 12h10

Il a corrigé :

la carte serait au niveau d'une Radeon 4870x2 pour un TDP en charge de 300W soit l'équivalent de deux 4850...

**newbie06** · 07/07/2008, 12h17

Donc le rendement flop/W serait equivalent puisque la HD4850 fait 1 TFlop.
Bon d'un autre cote, y'en a un qui est plus facile a programmer... ou pas

**Alexko** · 07/07/2008, 12h29

Le rendement théorique serait effectivement équivalent, mais la HD 4850 est dispo aujourd'hui et à partir de 140€, quant à Larrabee...

**fefe** · 07/07/2008, 17h30

Envoyé par Møgluglu

D'après la news originale (im Deutsch) :

Donc a priori un SSE/AVX like en 512-bit. Donc pas binary-compatible avec AVX?...

Et les premières versions seraient avec 16 et 24 cores (edit: et < 2GHz), le 32 cores 2GHz arriverait plus tard...

Re-edit: et les 300W viennent de spéculation d'après le nombre de connecteurs d'alim PCIe (8+6 broches), donc plutôt entre 200 et 300W, et probablement 200 et quelques comme le GTX280.

J'avais fait des calculs un peu plus haut dans le thread et etait arrive a a peu pres 24 cores dans le process 45nm, plus de cores ca sera pour le 32nm a mon avis, il n'y a pas la place sur un chip 45nm.
Sinon pour AVX, 512 bits/256 bits, le mot cle est "VL" comme Vector Length.

**Alice** · 08/07/2008, 09h44

Intel confirme en coulisse de l'AVX/SSE 16way 512bits... Les papiers de RTRT récents semblent d'ailleurs confirmer ces chiffres. Du concret va de toute façon être sous entendu (Symposium on Interactive Ray Tracing: "Getting Rid of Packets -- SIMD Single-Ray Traversal using Multi-Branching BVHs") ou publiquement explicités (SIGGRAPH: "Larrabee: A Many-Core x86 Architecture for Visual Computing") au début du mois prochain.

**newbie06** · 08/07/2008, 10h00

He bien si effectivement c'est du 512 bits, les 2 TFlops theoriques a 2 GHz sont confirmes

**Alexko** · 09/07/2008, 10h32

http://arstechnica.com/news.ars/post...ech-sorta.html

Envoyé par Jon Stokes

Intel will claim that Larrabee has 20x the performance per watt of a Core 2 Duo and half the single-threaded performance.

1/2 des perfs d'un C2D, wow !

Soit on parle d'un workload techniquement single-thread mais exploitant le SIMD 16x32 bits, auquel cas OK, soit c'est vraiment impressionnant !

**newbie06** · 09/07/2008, 10h55

Envoyé par Alexko

1/2 des perfs d'un C2D, wow !

Soit on parle d'un workload techniquement single-thread mais exploitant le SIMD 16x32 bits, auquel cas OK, soit c'est vraiment impressionnant !

C'est ironique ?

**Alexko** · 09/07/2008, 11h07

Bah non, on parle quand même d'un P54C à la base. Bon j'avoue ne pas avoir regardé de benchmarks, et ne pas vraiment avoir de point de référence pour comparer P54C et Core 2 Duo, mais obtenir 50% des perfs d'un C2D me paraît à la limite de l'exploit pour un vieux core pareil, quand on voit que c'est à peu près ce dont est capable l'Atom, pourtant beaucoup plus récent et ayant pas loin de 10 fois plus de transistors.

**newbie06** · 09/07/2008, 11h28

Ben a l'epoque un Pentium etait 20-30% plus lent qu'un P6 (out of order), un p3 40-50%. Donc je ne vois rien la d'extraordinaire, mais comme toi je n'ai pas creuse

De toute facon, faut arreter, ils n'ont pas juste pris le p54c et mis sur un process recent, ils ont surement du toucher des choses.

Quant au nombre de transistors, c'est loin d'etre representatif de la performance.

J'espere qu'on en saura plus tres bientot

EDIT: En plus, je n'avais pas fait attention, on ne sait meme pas si le 1/2 de perf est a frequence egale...

**fefe** · 09/07/2008, 13h22

C2D est 3.2X plus rapide qu'Atom a frequence egale... Sur du code scalaire il est impossible qu'un core base sur le P54C arrive a 1/2 de l'IPC de C2D.

Bien entendu il est possible de trouver des applications ou en ecrivant le programme en asm a la mimine il sera possible d'arriver a 1/2, mais il faut du code flottant, sans trop de branchement, et un hardcore coder. Si le benchmark est le driver de Larrabee je suis pret a le croire, sur du code classique je parierai sur un facteur 4 d'IPC sans trop me mouiller.

Si tu veux compter par generation:
40% de P55 a P6 (ca depend sur quoi tu mesures bien surc'est plus sur du flottant)
20% de P6 a PIII coppermine
25% de coppermine a Banias
10% de Banias a Dothan
5% de Dothan a Yonah
20% de Yonah a Merom
5% de Merom a Penryn

1.4*1.2*1.25*1.1*1.05*1.2*1.05 = 3 et j'ai rate quelques generations de P3 et ai arrondi sauvagement sans prendre en compte la montee en frequence (un pentium a 2GHz a un IPC nettement plsu faible qu'un pentium a 200MHz, en effet la memoire n'a pas un temps d'acces 10x plus faible et un cpu in order est beaucoup plus sensible aux augmentations de latence).
Donc voila je dis 4x

Apres si ils comparent un Larrabee a 2GHz avec un C2D a 3GHz, mais queLarrabee a ses unites SIMD a 512 bits au lieu de 128 bits, je veux bien croire que le Larrabee arrive en moyenne a 1/2 de la perf du C2D sur des applis qui se vectorisent pas mal, et en pic (hardcore asm tuning) monte au dessus.

**Alexko** · 09/07/2008, 13h37

Ça confirme donc mes premières impressions

**newbie06** · 09/07/2008, 13h40

Ca confirme que j'ai dit une grosse anerie

**Alexko** · 09/07/2008, 14h07

Bof, 50%, 25%, à un facteur 2 près... :D

**fefe** · 09/07/2008, 14h14

J'ai ete sur le site de SPEC pour resortir quelques vieux benchmarks et comparer P54/P55 etc vu que ma memoire des changements de perf a cette epoque etait un peu racie. Je n'ai pas trouve les scores du vieux P6 avec 1M de L2, pour comaprer l'IPC je compare score / MHz ce qui n'est pas fantastique, mais quand les frequences sont proches ce n'est pas horrible.

Code:

CPU	FREQ	FP95 base	FP95 pic	pic/MHz		pic/MHz/P54
P54C	200	3.37		4.39		0.02195		1
P55C	200	4.28		4.83		0.02415		1.1002
PII	233	6.73		7.4		0.03176		1.4469
PIII	650	22.4		22.9		0.03523		1.6050

Le P6 etait plus performant que le P2 a frequence egale grace a son gros cache sur un MCM, mais ca permet de se faire une idee des perfs du P54 par rapport au reste.

Si je reprends ce que j'avais marque cis-dessus (plus les cpus sont recents moins j'ai tendance a me planter

)
1.6*1.25*1.1*1.05*1.2*1.05 =~ 2.9

Edit: Tiens le commentaire sur Atom a disparu, je laisse ma reponse quand meme
Dans mes estimations atom est 50% plus rapide que un P54C a frequence egale... Si on veut comparer les transistors il faut compter ceux employes pour le cache aussi.
Atom supporte aussi des 100aines d'instructions en plus que le P54 qu'il faut decoder, scheduler, executer, et n'a pas le meme degre de power management (la gestion coute des transistors, les circuits optimises pour le power aussi).

**Oxygen3** · 09/07/2008, 14h24

Et c'est moi qui comprends rien, ou ca veut quand même dire qu'une puce à 24 coeurs de ce type serait quand même notoirement sous performante par rapport à un double quad core2/nehalem ?

En comparaison de transistors, on doit arriver à un truc similaire, et en dissipation aussi, par contre en perfs, le core2/nehalem semble un gros cran au dessus non ?

**Foudge** · 09/07/2008, 14h36

Envoyé par fefe

Edit: Tiens le commentaire sur Atom a disparu, je laisse ma reponse quand meme
Dans mes estimations atom est 50% plus rapide que un P54C a frequence egale... Si on veut comparer les transistors il faut compter ceux employes pour le cache aussi.
Atom supporte aussi des 100aines d'instructions en plus que le P54 qu'il faut decoder, scheduler, executer, et n'a pas le meme degre de power management (la gestion coute des transistors, les circuits optimises pour le power aussi).

Je me suis relu et décidé de réfléchir un peu plus, quitte à reposer/reformuler ma question plus tard.
Pour les autres : je trouvais aussi que le core Larrabee (2M ?) avait un excellent rapport perf/transistor malgré tout, comparé à l'Atom qui est lui aussi "in order" et comporte 47M de transistor (en comptant le L2).

Discussion: Intel et Larrabee

Outils de la discussion

Règles de messages