Ca peut aussi être des rapprochements stratégiques de 'blocage'.
J'imagine sans trop de mal nVidia racheter ces boites pour préparer une riposte au Larabee (via du Cg ou du CUDA ?) ou les racheter pour empecher Intel de le faire
Ca peut aussi être des rapprochements stratégiques de 'blocage'.
J'imagine sans trop de mal nVidia racheter ces boites pour préparer une riposte au Larabee (via du Cg ou du CUDA ?) ou les racheter pour empecher Intel de le faire
Ca fait un petit moment que l'on dit dans ce post qu'Nvidia travaille sur le RT (il ne s'en cache pas vraiment). Il s'y intéresse car Intel fait un tel buzz avec son Larabee et le RTRT qu'Nvidia commence à se demander s'il ne devrait pas se bouger.
Il faut bien comprendre que pour le RT Nvidia doit repartir d'une copie blanche ou quasiment pour un raison simple souvent soulevée ici: le RT sur GPU est nul à chier. Cuda ne change rien à la donne car bien que facilitant la programmation de la bête, l'architecture elle reste la même. Bref il n'y a pas de magie. Tout le monde présente le RT comme l'algo de rendu ultime mais il ne faut pas oublier que c'est un des premiers algorithmes mis en place pour rendre une image (début des années 80). Pourtant ce n'est pas cette approche qui est cablée sur GPU. La raison est simple: c'est compliqué!
L'expérience d'NVidia dans le rendu par raster ne les avantage en rien par rapport à l'expérience d'Intel dans des CPU généralistes. NVidia évangélise massivement en montrant leur GPU comme un monstre de puissance. Pourtant pour le RT (gourmand en puissance de calcul), une implémentation sur CPU défonce complètement une implémentation sur GPU et ce avec une élégance et un souplesse que le GPU n'a pas!
Bref Nvidia ne veut pas rater le changement de wagon et pour se faire ils doivent ramer pour être sur que si le train passe ils puissent être à la hauteur!
en même temps, c'est pas la première fois que nVidia changera d'avis.
je rappelle que le NV1 (et NV2, mais bon) travaillaient pas sur des polygones pour la 3D (et que nVidia s'est en partie vautrée sur le coup quand Direct3D a choisi ça).
Surtout que, boudiou, la page de Rayscale, on dirait un TP d'étudiant en 2ème année d'info qui code son raytracer de sphères en Haskell.
Sérieux c'est quoi ces screens. Bien aliasés.
Gaussons-nous également quand ils se targuent que leur RT supporte l'environment mapping. Wow. Ca vaut vraiment le coup d'avoir un raytracer pour même pas lancer de rayons secondaires et faker ça avec un envmap.
Pas encore du calcul de caustics ni même de support de shaders, c'est a priori navrant ce truc.
En tout cas bravo à eux de s'être fait racheter par Nvidia. Quand je pense aux raytracers de haut niveau qui trainent sur le net.
En tout cas je joue ma madame soleil, on est pas prêt de voir du 3DRT compétitif dans les jeux vidéos. (Quand je pense que Sony a cru pouvoir se passer de GPU avec son Cell (enfin celui de HAL))
Sleeping all day, sitting up all night
Poncing fags that's all right
We're on the dole and we're proud of it
We're ready for 5 More Years
Jusqu'a la PS3 sony s'est bien passé de GPU dans leur consoles d'ailleur je ne pense pas qu'ils aient pensé mettre du RTRT sur Cell mais plutôt un raster.Envoyé par Tramb
Mais bon effectivement le RT pour le jeu je pense que ce n'est vraiment pas pour desuite!
Oui! par GPU je voulais dire GPU ala Nvidia/ATI/Intel
Pas vraiment de rapport direct avec le Larrabee mais ça reprend pas mal de point abordés dans ce thread; Notamment sur l'évolution des archi, et des modèles de programmation graphique.
Paf c'est ici
Une presentation de Larrabee est prevue au SIGGRAPH : http://www.siggraph.org/s2008/attend...e=papers&id=34
C'est le 12 aout
La news du jour pour ceux qui ne l'ont pas encore vue :
http://www.matbe.com/actualites/41691/
32 core de Pentium P54C à 2Ghz pour Larrabee
Interessant :-)
Mais gros bug dans la news : 300W pour une HD4850
A 300W on est au-dessus de la GTX280, la plus grosse consommatrice mono GPU. En terme de rendement theorique, faudrait que j'arrive a trouver la conso de la HD4850
EDIT : calcul idiot de quelqu'un qui ne connait pas ; on nous dit 32 coeurs, 2 GHz, 2 TFlops. Ca m'amene a 32 Flops/cycle ; en comptant le fma comme 2 op, ca nous amene a 16 fma/cycle ; si j'ai bien suivi Intel a un machin SIMD 256 bits, soit 8 SP/registre ; doit-on en conclure, naivement, qu'il y a deux unites SIMD/core ? Ou alors ils comptent les unites dediees ? Et Larrabee est-il sense avoir le SIMD 256 bits ?
Dernière modification par newbie06 ; 07/07/2008 à 09h34.
D'après la news originale (im Deutsch) :
Donc a priori un SSE/AVX like en 512-bit. Donc pas binary-compatible avec AVX?...Die namensgebende MMX-Einheit selber wird er aber wohl nicht brauchen, denn für die mehrfach parallelen Berechnungen (SIMD) besitzt jeder Kern die neue Vektoreinheit mit mutmaßlich 512 Bit Breite. Das ergibt mit Multiply-Add-Befehlen maximal 32 Flop/Takt in einfacher Genauigkeit (SP), die fürs Visual Computing völlig ausreicht. Bei 32 Kernen würden dann schon 2 GHz Takt reichen, um die 2-Teraflops-Marke zu erreichen, womit er etwa doppelt so schnell wäre, wie die ATI/Nvidia-Konkurrenz jetzt.
Et les premières versions seraient avec 16 et 24 cores (edit: et < 2GHz), le 32 cores 2GHz arriverait plus tard...
Dernière modification par Møgluglu ; 07/07/2008 à 19h26.
Il a corrigé :
la carte serait au niveau d'une Radeon 4870x2 pour un TDP en charge de 300W soit l'équivalent de deux 4850...
Donc le rendement flop/W serait equivalent puisque la HD4850 fait 1 TFlop.
Bon d'un autre cote, y'en a un qui est plus facile a programmer... ou pas
Le rendement théorique serait effectivement équivalent, mais la HD 4850 est dispo aujourd'hui et à partir de 140€, quant à Larrabee...
fefe - Dillon Y'Bon
Intel confirme en coulisse de l'AVX/SSE 16way 512bits... Les papiers de RTRT récents semblent d'ailleurs confirmer ces chiffres. Du concret va de toute façon être sous entendu (Symposium on Interactive Ray Tracing: "Getting Rid of Packets -- SIMD Single-Ray Traversal using Multi-Branching BVHs") ou publiquement explicités (SIGGRAPH: "Larrabee: A Many-Core x86 Architecture for Visual Computing") au début du mois prochain.
Dernière modification par Alice ; 08/07/2008 à 14h01.
He bien si effectivement c'est du 512 bits, les 2 TFlops theoriques a 2 GHz sont confirmes
http://arstechnica.com/news.ars/post...ech-sorta.html
1/2 des perfs d'un C2D, wow !Envoyé par Jon Stokes
Soit on parle d'un workload techniquement single-thread mais exploitant le SIMD 16x32 bits, auquel cas OK, soit c'est vraiment impressionnant !
Bah non, on parle quand même d'un P54C à la base. Bon j'avoue ne pas avoir regardé de benchmarks, et ne pas vraiment avoir de point de référence pour comparer P54C et Core 2 Duo, mais obtenir 50% des perfs d'un C2D me paraît à la limite de l'exploit pour un vieux core pareil, quand on voit que c'est à peu près ce dont est capable l'Atom, pourtant beaucoup plus récent et ayant pas loin de 10 fois plus de transistors.
Ben a l'epoque un Pentium etait 20-30% plus lent qu'un P6 (out of order), un p3 40-50%. Donc je ne vois rien la d'extraordinaire, mais comme toi je n'ai pas creuse
De toute facon, faut arreter, ils n'ont pas juste pris le p54c et mis sur un process recent, ils ont surement du toucher des choses.
Quant au nombre de transistors, c'est loin d'etre representatif de la performance.
J'espere qu'on en saura plus tres bientot
EDIT: En plus, je n'avais pas fait attention, on ne sait meme pas si le 1/2 de perf est a frequence egale...
Dernière modification par newbie06 ; 09/07/2008 à 12h49.
C2D est 3.2X plus rapide qu'Atom a frequence egale... Sur du code scalaire il est impossible qu'un core base sur le P54C arrive a 1/2 de l'IPC de C2D.
Bien entendu il est possible de trouver des applications ou en ecrivant le programme en asm a la mimine il sera possible d'arriver a 1/2, mais il faut du code flottant, sans trop de branchement, et un hardcore coder. Si le benchmark est le driver de Larrabee je suis pret a le croire, sur du code classique je parierai sur un facteur 4 d'IPC sans trop me mouiller.
Si tu veux compter par generation:
40% de P55 a P6 (ca depend sur quoi tu mesures bien surc'est plus sur du flottant)
20% de P6 a PIII coppermine
25% de coppermine a Banias
10% de Banias a Dothan
5% de Dothan a Yonah
20% de Yonah a Merom
5% de Merom a Penryn
1.4*1.2*1.25*1.1*1.05*1.2*1.05 = 3 et j'ai rate quelques generations de P3 et ai arrondi sauvagement sans prendre en compte la montee en frequence (un pentium a 2GHz a un IPC nettement plsu faible qu'un pentium a 200MHz, en effet la memoire n'a pas un temps d'acces 10x plus faible et un cpu in order est beaucoup plus sensible aux augmentations de latence).
Donc voila je dis 4x
Apres si ils comparent un Larrabee a 2GHz avec un C2D a 3GHz, mais queLarrabee a ses unites SIMD a 512 bits au lieu de 128 bits, je veux bien croire que le Larrabee arrive en moyenne a 1/2 de la perf du C2D sur des applis qui se vectorisent pas mal, et en pic (hardcore asm tuning) monte au dessus.
Dernière modification par fefe ; 09/07/2008 à 13h44.
fefe - Dillon Y'Bon
Ca confirme que j'ai dit une grosse anerie
J'ai ete sur le site de SPEC pour resortir quelques vieux benchmarks et comparer P54/P55 etc vu que ma memoire des changements de perf a cette epoque etait un peu racie. Je n'ai pas trouve les scores du vieux P6 avec 1M de L2, pour comaprer l'IPC je compare score / MHz ce qui n'est pas fantastique, mais quand les frequences sont proches ce n'est pas horrible.
Le P6 etait plus performant que le P2 a frequence egale grace a son gros cache sur un MCM, mais ca permet de se faire une idee des perfs du P54 par rapport au reste.Code:CPU FREQ FP95 base FP95 pic pic/MHz pic/MHz/P54 P54C 200 3.37 4.39 0.02195 1 P55C 200 4.28 4.83 0.02415 1.1002 PII 233 6.73 7.4 0.03176 1.4469 PIII 650 22.4 22.9 0.03523 1.6050
Si je reprends ce que j'avais marque cis-dessus (plus les cpus sont recents moins j'ai tendance a me planter)
1.6*1.25*1.1*1.05*1.2*1.05 =~ 2.9
Edit: Tiens le commentaire sur Atom a disparu, je laisse ma reponse quand meme
Dans mes estimations atom est 50% plus rapide que un P54C a frequence egale... Si on veut comparer les transistors il faut compter ceux employes pour le cache aussi.
Atom supporte aussi des 100aines d'instructions en plus que le P54 qu'il faut decoder, scheduler, executer, et n'a pas le meme degre de power management (la gestion coute des transistors, les circuits optimises pour le power aussi).
Dernière modification par fefe ; 09/07/2008 à 14h24. Motif: Fusion automatique
fefe - Dillon Y'Bon
Et c'est moi qui comprends rien, ou ca veut quand même dire qu'une puce à 24 coeurs de ce type serait quand même notoirement sous performante par rapport à un double quad core2/nehalem ?
En comparaison de transistors, on doit arriver à un truc similaire, et en dissipation aussi, par contre en perfs, le core2/nehalem semble un gros cran au dessus non ?
Je me suis relu et décidé de réfléchir un peu plus, quitte à reposer/reformuler ma question plus tard.
Pour les autres : je trouvais aussi que le core Larrabee (2M ?) avait un excellent rapport perf/transistor malgré tout, comparé à l'Atom qui est lui aussi "in order" et comporte 47M de transistor (en comptant le L2).