Keresés

Új hozzászólás Aktív témák

  • Abu85

    HÁZIGAZDA

    válasz SaGaIn #8 üzenetére

    Nem kell OpenCL-re fejleszteni. A CUDA is megfelel ennek a HIP konverziós eszközökön keresztül. [link] - CAFFE port tapasztalatok. Ráadásul a HIP kód platformfüggetlen.

    Az OpenCL azért van kiemelten a ROCm-ben, mert az OpenCL 2.0-s funkciókhoz át kellene írni a programokat az OpenCL 2.0-s környezethez. De ezt a fejlesztők nem teszik meg, mert sok pénzbe kerülne, ezért az AMD csinált egy nem szabványos köztes utat, ami lehetővé tesz számos OpenCL 2.0-s funkciót az OpenCL 1.2-vel kompatibilis futtatási környezet mellett. Igazából olcsóbb hardvert, mint programot fejleszteni, ezt használja ki ez a köztes út.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz Petykemano #2 üzenetére

    Linpack mérés. De az AMD FP16-ot mér, míg a green500 az FP32-es. Így ez nem összehasonlítható, a tesztkörülmény sem ugyanaz. Lásd: [link]

    (#15) SaGaIn: Nagyon jó a HIPify hatásfoka. Elég jó éles példa volt a CAFFE nevű deep learning keretrendszert Tip verziójának a portolása CUDA-ról. Ezt HIP-re négy nap alatt megcsinálták. A kód 99,6%-a lett automatikusan konvertálva. Úgy 54000 sornyi kód teljesen érintetlen maradt, mert a CUDA és a HIP lényegében ugyanaz magas szinten. Nagyjából ezer sor változott a konvertálással, míg manuálisan nagyjából száz sorhoz kellett hozzányúlni. A négy nap alatt így kapott eredmény ugyanolyan gyors volt, mint a CUDA kód (ugye a HIP fut GeForce-on is), és minden funkciója ugyanúgy működött. Az OpenCL portnál lényegesen gyorsabb volt, holott utóbbi 32000 sor manuális átírását igényelte.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz lenox #17 üzenetére

    Az élmezőnyt jelenleg a Volta, a Vega és a PEZY-SC2 képviseli. A Volta és a Vega FP32-ben nagyjából 14-16 FLOPS/watt szintjén áll az eddig épített rendszerek alapján, függően persze a platformtól. A PEZY-SC2 17-18 GFLOPS/watt, hasonlóan kis méretben. Cikk javítva.

    Szerk.: Rossz lábjegyzetet néztem. A 30 GFLOPS/watt valóban FP32-es linpack hatékonyság. Bocsi, egyértelműsítettem a cikkben ezt.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz lenox #20 üzenetére

    Ha fel lesz töltve a nem vízjelezett PDF, akkor berakok egy linket.

    A normál Vegát ne számítsd, mert a gyárilag beépített MI25 máshogy van paraméterezve. Jóval jobb az energiahatékonysága, mivel a hűtési környezethez konfigurálható a PowerTune peak. Egy normál gyorsító nem lesz konfigurálva, és pusztán ennek hiányában bő 30%-nyi hatékonyságot veszíthet. Cserébe nem csak a Project 47-be jó. Egészen nagy különbséget lehet elérni, ha a peakre konfigurálsz, lásd amit az NV is teszt a Max-Q-val. Viszont ilyenkor ismerned kell a környezeti adottságokat.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

  • Abu85

    HÁZIGAZDA

    válasz lenox #24 üzenetére

    A MI25 elméleti hatékonysága 41 GFLOPS/watt. És ez az általános PowerTune. Ha ezt feltekered a peakre, akkor ebből lesz 50 GFLOPS/watt is elméletben. Most ebből skálázva a Linpackben 30 GFLOPS/wattot hozni nem tűnik annyira lehetetlennek. Főleg energiatakarékos egyutas környezetben.
    Ugyanakkor az egységes tesztkörnyezet hiánya biztos nem segít az összehasonlításban, de valszeg úgyis benne lesz pár Project 47 a következő top500-ban.

    [ Szerkesztve ]

    Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.

Új hozzászólás Aktív témák