Crunchez vos adresses URL
|
Calculez la conso électrique de votre PC
|
Hébergez vos photos
Affichage des résultats 1 à 12 sur 12
  1. #1


    Les architectures dédiées au deep learning sont décidément à la mode. Quelques annonces récemment :

    - Google fait un retour d'expérience sur son Tensor Processing Unit version 1, qui sera présenté à ISCA 2017 :
    https://www.arxiv.org/abs/1704.04760
    Le TPU 1 est un accélérateur de produit de matrice en virgule fixe 8 bits dédié à l'inférence uniquement. Pour l'apprentissage Google utilise des GPU comme tout le monde.

    Et introduit la version 2 du TPU dans la foulée :
    https://www.nextplatform.com/2017/05...ning-clusters/
    Cette fois on a du calcul flottant (probablement FP16) pour faire l'apprentissage en plus de l'inférence. Le TPU 2 se place donc en concurrent des GPU.

    - Chez Nvidia, le GPU Volta GV100 intègrera des Tensor Cores :
    https://devblogs.nvidia.com/parallel.../inside-volta/
    Ce sont des unités dédiées aux produits de matrices en FP16.

    Si le serveur DGX-1 avec GV100 à 150K$ vous semble trop gros et trop bruyant, Nvidia propose désormais la DGX station pour poser sur son bureau, à seulement 69K$.

    - Chez Intel, le prochain Xeon Phi Knight Mill visera aussi le marché du deep learning, ce qui sous-entend certainement des unités dédiées, mais pas de détail pour l'instant.

    On en saura plus sur tout ces bidules au prochain Hot Chips en août : les 3 sont au programme.

  2. #2
    Concurrencer les GPUs, c'est dégueulasse !

    En vrai, c'est pas si étonnant, et de toute façon Nvidia a déjà bien revu la segmentation de sa gamme et séparant un peu plus les GeForce des Tesla. On est loin de l'époque où les GeForce étaient des bêtes en double précision, et où il était inutile d'acheter des Tesla hors de prix du moment que l'ECC et les très grosses quantités de VRAM n'étaient pas nécessaires.
    Ce sont les très petites entreprises (les startups quoi) qui en pâtissent, je pense, les joueurs s'en cognent en théorie.

    Du coup, pourquoi ne pas avoir des cartes dédiées au deep learning ? Avec des DLPU (deep learning processing unit) ? Ou des MLPU (machine learning processing unit) ?

    Si Ageia s'était vautré, c'était parce qu'ils essayaient de vendre des cartes à prix d'or pour ajouter quelques effets de physique sympas mais totalement optionnels dans quelques jeux.
    Et en dehors des quelques Kévins fortunés, la masse des joueurs c'est le milieu de gamme avec des cartes au rapport perfs/prix le plus intéressant possible, ça n'intéressait donc pas grand monde.

    Là aussi on parle de vendre des cartes spécifiques pour un usage précis, ça se ressemble, mais à des entreprises, c'est pas pareil.
    Et pas pour du cosmétique en jeu, mais bien des traitements IA / machine learning / deep learning qui ont le vent bien en poupe en ce moment.

    Ce serait pas étonnant si, en plus de commencer à équiper ses Tesla avec de telles unités, Nvidia finissait un jour par sortir des GPUs et des cartes spécialement pour ce milieu, bourrées d'unités comme ça et complètement moisies en rendu 3D classique.
    Sombrero d'or since 2015/12/03
    Citation Envoyé par Darkath Voir le message
    Mais enfin c'est toi l'expert, trouve des solutions bordel.

  3. #3
    Et on appellera ça le Tesla Psi.

    Blague à part, c'est peu probable, étant donné qu'ils devront garder tout ce qui fait la valeur ajoutée du GPU : les unités de calcul généralistes, le système mémoire, le scheduler de threads, CUDA, le compilateur, le driver... Les unités réellement dédiées au rendu 3D qui restent, c'est pas grand-chose au final.

    Mais surtout, ils sont encore plus malades que ça. La nouvelle lubie de Jensen, c'est de faire de la réalité virtuelle... pour les bébés robots.
    D'où l'intérêt des unités de rendu graphique dans les GPU pour le deep learning.

    J'hésite encore entre le dégoût et la fascination.

  4. #4
    Ben, je serais pas aussi catégorique.
    Ils peuvent très bien garder toute cette valeur ajoutée que tu mentionnes, mais si leur Volta 100 fonctionne bien, se mettre à sortir des cartes de plus en plus costaudes au niveau des tensor cores et de plus en plus rachitiques niveau rasterization et CUDA cores.

    L'avenir nous le dira.
    Ce qui est sûr c'est que, sur des GPUs "classiques" ou "spécialisés", Nvidia n'est pas prêt d'abandonner le deap learning...
    Sombrero d'or since 2015/12/03
    Citation Envoyé par Darkath Voir le message
    Mais enfin c'est toi l'expert, trouve des solutions bordel.

  5. #5
    Les nouvelles extensions pour le machine learning de l'extension AVX-512 sont documentées : https://software.intel.com/sites/def...-reference.pdf

    Ça comprend les nouvelles instructions de produit scalaire dans Ice Lake, AVX512_VNNI. Par exemple :
    VPDPWSSDS zmm1{k1}{z}, zmm2, zmm3/m512/m32bcst

    Multiply the word integers in zmm2 by the word integers in zmm3/m512, add adjacent doubleword results with signed saturation, and store in zmm1 under writemask k1.
    Mais au moins, depuis l'annulation de Knights Hill, on a échappé au pire : on aurait pu avoir aussi l'extension AVX512_4VNNIW
    VP4DPWSSDS zmm1{k1}{z}, zmm2+3, m128

    Multiply signed words from source register block indicated by zmm2 by signed words from m128 and accumulate the resulting dword results with signed saturation in zmm1.

    This instruction computes 4 sequential register source-block dot-products of two signed word operands with doubleword accumulation and signed saturation. The memory operand is sequentially selected in each of the four steps.
    In the above box, the notation of “+3” is used to denote that the instruction accesses 4 source registers based on that operand; sources are consecutive, start in a multiple of 4 boundary, and contain the encoded register operand.

  6. #6


    Faut faire un paint là !
    Citation Envoyé par Sidus Preclarum Voir le message
    Ben du caramel pas sucré alors...
    "Avant, j'étais dyslexique, masi aujorudh'ui je vasi meiux."

  7. #7
    Quoi, t'es raciste envers les produits scalaires ?

    Sombrero d'or since 2015/12/03
    Citation Envoyé par Darkath Voir le message
    Mais enfin c'est toi l'expert, trouve des solutions bordel.

  8. #8
    Infos et photos sur le TPU 3.0 de Google :
    https://www.nextplatform.com/2018/05...i-coprocessor/

    Ça semble grosso-modo pareil que le v2 en plus gros et watercoolé.

    Sinon j'avais pas vu les détails du "brain" float avant : c'est un format Binary32 mais avec la mantisse réduite à 7 bits. Soit des nombres à 2 chiffres décimaux significatifs. J'attends avec impatience les formats avec 0 ou un nombre négatif de bits de mantisse.

  9. #9
    Citation Envoyé par Møgluglu Voir le message
    Soit des nombres à 2 chiffres décimaux significatifs. J'attends avec impatience les formats avec 0 ou un nombre négatif de bits de mantisse.
    Haha t'es vraiment trop bête mais ça serait rigolo de tomber sur un papier, même fake, présenté comme une vraie thèse ou un vrai rapport et qui parle de ça sérieusement
    Sombrero d'or since 2015/12/03
    Citation Envoyé par Darkath Voir le message
    Mais enfin c'est toi l'expert, trouve des solutions bordel.

  10. #10
    Citation Envoyé par Møgluglu Voir le message
    Infos et photos sur le TPU 3.0 de Google :
    https://www.nextplatform.com/2018/05...i-coprocessor/

    Ça semble grosso-modo pareil que le v2 en plus gros et watercoolé.

    Sinon j'avais pas vu les détails du "brain" float avant : c'est un format Binary32 mais avec la mantisse réduite à 7 bits. Soit des nombres à 2 chiffres décimaux significatifs. J'attends avec impatience les formats avec 0 ou un nombre négatif de bits de mantisse.
    Ils parlent de bfloat16 dans l'article, avec 7 bits de mantisse et 8 d'exposant. L'intérêt semblant être dans le range qui est identique aux float32 classique (8 bits d'exposant) donc conversions et opérations mélangeant les deux types beaucoup plus rapides contrairement au float16.

    Effectivement on se demande encore pourquoi utiliser des float à ce niveau.
    Citation Envoyé par Sidus Preclarum Voir le message
    Ben du caramel pas sucré alors...
    "Avant, j'étais dyslexique, masi aujorudh'ui je vasi meiux."

  11. #11
    Citation Envoyé par taronyu26 Voir le message
    Haha t'es vraiment trop bête mais ça serait rigolo de tomber sur un papier, même fake, présenté comme une vraie thèse ou un vrai rapport et qui parle de ça sérieusement


    Je suis co-auteur d'une dizaine de papiers dans des conférences et journaux censés être sérieux sur des systèmes de numération de ce genre.

    Citation Envoyé par Lazyjoe Voir le message
    Effectivement on se demande encore pourquoi utiliser des float à ce niveau.
    C'est la question que je me pose. Pour faire des produits scalaires avec des précisions équivalentes à du flottant avec moins de 10 bits de mantisse, il y a des solutions qui devraient être plus avantageuses en surface et conso que le flottant.
    C'est probablement pour simplifier les conversions entre formats comme tu dis. (Ou alors c'est parce qu'ils ne connaissent que le flottant et la virgule fixe, et qu'ils ont déjà essayé la virgule fixe dans le TPU 1.)

  12. #12
    Citation Envoyé par Møgluglu Voir le message


    Je suis co-auteur d'une dizaine de papiers dans des conférences et journaux censés être sérieux sur des systèmes de numération de ce genre.
    Oups. Désolé...

    Le flottant est mort ! Vive le flottant !
    Sombrero d'or since 2015/12/03
    Citation Envoyé par Darkath Voir le message
    Mais enfin c'est toi l'expert, trouve des solutions bordel.

Règles de messages

  • Vous ne pouvez pas créer de nouvelles discussions
  • Vous ne pouvez pas envoyer des réponses
  • Vous ne pouvez pas envoyer des pièces jointes
  • Vous ne pouvez pas modifier vos messages
  •