On compare sur du code compile la, pas sur un driver graphique ou une appli parallelisee aux petits oignons. Ce qui est omis est le comportement en multithread. Atom par exemple une fois que le multithread est active devient seulement 2x plus lent qu'un C2D (grace a un "super" scaling du SMT du au fait qu'ils aprtent d'un IPC si bas).
Les GPUs tout comme Atom, utilisent un nombre important (surtout pour les GPUs) de threads pour masquer les latences dues aux pipelines in order. Dans ce contexte l'avantage en IPC sur une appli sinmple thread disparait assez rapidement.
plusieurs manieres de faire l'estimation:
Un Larrabee suppose a pic 2T flops
Un Penryn Quad core a pic 4*2*4*3x10^9=~50GFlops
Si tu suppose que le core du Larrabee est 4x moins efficace en terme d'utilisation de ses ressources, tu arrives tout de meme a 10x plus de Flops en SP. Si tu as du multi thread pour recuperer une partie de ce que tu as perdu a etre in order, tu te retrouves a 15-20x. Bien sur, ton Quad core Penryn utilise 214mm^2 soit 1/3 du reticule donc si on utilise la taille du reticule pour estimer Larrabee (j'arrivais a 24 cores en partant de la) on tombe a 3-4x si les P54 de Larrabee ne sont pas multithread et 5 a 8x si ils le sont.