Du mal à comprendre les calculs. Pour un produits de n*n utilisant cette instruction FMA on obtient bien pour chaque produit scalaire 3*n nombre à lire (car j'imagine qu'on parle de lire a_ik, bk_j et c_ij et ça fait n instruction d'accumulation) mais je n'arrive pas à voir en quoi c'est puissance 3. parce que sur une matrice n*n j’obtiens logiquement n*n produit scalaire et.............. ha merde en l'écrivant c'est bon, je suis débile 3n*n^2 = 3n^3
Quelques question du coups :
- pourquoi il n'est pas possible de gagner des opérations dans l'instruction FMA en lui donnant un registre dédié d'un nombre pour c_ij (pas via le pipeline général, tu le fout à coté), impossible ?
- il n'y a pas du tout d'unité spécialisé 4*4 dans une CG ? Vu le nombre d'opération 4*4 pour le rendu on aurait pu s'attendre à ce que ce soit le cas non ?
- - - Mise à jour - - -
Qu'est ce qui n'est pas utilisé ? Le produit dédié ou le produit classique ?
- - - Mise à jour - - -
Hoooo, ça n'a juste pas de rapport du coups
Bon je suis toujours douteux sur les archis dédié à l’exécution de deep learning ou autre réseaux de neurones tant ça me semble ultra spécifique et plus basé sur de "futures application peut-être même si on ne sais pas exactement lesquelles" que sur la réalité de l'utilisation des GPU . En tout cas pour les GPU de joueur et autre grand public (en dehors des applis dédié ou on exécute en boucle un réseau de neurone, comme sur un appareil photo) et tant les utilisation plus fines des réseaux de neurones impliquent de toute manière de sortir du produits matriciel ou de travailler avec des matrices creuses. De là ou on en était resté avec le labo le soucis est encore actuellement au niveau du transfert entre la mémoire de la CG et la mémoire du CPU, ou c'est vraiment pas opti actuellement (donc ça limite le changement en directe des produits que tu veut réaliser si tu apprends en live).