Legfrissebb anyagok

GAMEPOD.hu témák

PROHARDVER! témák

Mobilarena témák

IT café témák

LOGOUT.hu témák

Keresés

Új hozzászólás Aktív témák

#14 Abu85 HÁZIGAZDA SaGaIn #8

Új Válasz 2017-11-14 14:47:43 #14
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz SaGaIn #8 üzenetére

Nem kell OpenCL-re fejleszteni. A CUDA is megfelel ennek a HIP konverziós eszközökön keresztül. [link] - CAFFE port tapasztalatok. Ráadásul a HIP kód platformfüggetlen.
Az OpenCL azért van kiemelten a ROCm-ben, mert az OpenCL 2.0-s funkciókhoz át kellene írni a programokat az OpenCL 2.0-s környezethez. De ezt a fejlesztők nem teszik meg, mert sok pénzbe kerülne, ezért az AMD csinált egy nem szabványos köztes utat, ami lehetővé tesz számos OpenCL 2.0-s funkciót az OpenCL 1.2-vel kompatibilis futtatási környezet mellett. Igazából olcsóbb hardvert, mint programot fejleszteni, ezt használja ki ez a köztes út.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
#16 Abu85 HÁZIGAZDA Petykemano #2

Új Válasz 2017-11-14 14:59:18 #16
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz Petykemano #2 üzenetére

~~Linpack mérés. De az AMD FP16-ot mér, míg a green500 az FP32-es. Így ez nem összehasonlítható, a tesztkörülmény sem ugyanaz.~~ Lásd: [link]
(#15) SaGaIn: Nagyon jó a HIPify hatásfoka. Elég jó éles példa volt a CAFFE nevű deep learning keretrendszert Tip verziójának a portolása CUDA-ról. Ezt HIP-re négy nap alatt megcsinálták. A kód 99,6%-a lett automatikusan konvertálva. Úgy 54000 sornyi kód teljesen érintetlen maradt, mert a CUDA és a HIP lényegében ugyanaz magas szinten. Nagyjából ezer sor változott a konvertálással, míg manuálisan nagyjából száz sorhoz kellett hozzányúlni. A négy nap alatt így kapott eredmény ugyanolyan gyors volt, mint a CUDA kód (ugye a HIP fut GeForce-on is), és minden funkciója ugyanúgy működött. Az OpenCL portnál lényegesen gyorsabb volt, holott utóbbi 32000 sor manuális átírását igényelte.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
#18 Abu85 HÁZIGAZDA lenox #17

Új Válasz 2017-11-14 15:09:15 #18
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz lenox #17 üzenetére

Az élmezőnyt jelenleg a Volta, a Vega és a PEZY-SC2 képviseli. A Volta és a Vega FP32-ben nagyjából 14-16 FLOPS/watt szintjén áll az eddig épített rendszerek alapján, függően persze a platformtól. A PEZY-SC2 17-18 GFLOPS/watt, hasonlóan kis méretben. Cikk javítva.
Szerk.: Rossz lábjegyzetet néztem. A 30 GFLOPS/watt valóban FP32-es linpack hatékonyság. Bocsi, egyértelműsítettem a cikkben ezt.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
#22 Abu85 HÁZIGAZDA lenox #20

Új Válasz 2017-11-14 15:27:46 #22
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz lenox #20 üzenetére

Ha fel lesz töltve a nem vízjelezett PDF, akkor berakok egy linket.
A normál Vegát ne számítsd, mert a gyárilag beépített MI25 máshogy van paraméterezve. Jóval jobb az energiahatékonysága, mivel a hűtési környezethez konfigurálható a PowerTune peak. Egy normál gyorsító nem lesz konfigurálva, és pusztán ennek hiányában bő 30%-nyi hatékonyságot veszíthet. Cserébe nem csak a Project 47-be jó. Egészen nagy különbséget lehet elérni, ha a peakre konfigurálsz, lásd amit az NV is teszt a Max-Q-val. Viszont ilyenkor ismerned kell a környezeti adottságokat.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.
#26 Abu85 HÁZIGAZDA lenox #24

Új Válasz 2017-11-14 15:44:36 #26
Új hozzászólás
Összes hozzászólása itt Válaszok az összes hozzászólására itt Válaszok erre a hozzászólásra
Privát üzenet küldése

Abu85

HÁZIGAZDA

válasz lenox #24 üzenetére

A MI25 elméleti hatékonysága 41 GFLOPS/watt. És ez az általános PowerTune. Ha ezt feltekered a peakre, akkor ebből lesz 50 GFLOPS/watt is elméletben. Most ebből skálázva a Linpackben 30 GFLOPS/wattot hozni nem tűnik annyira lehetetlennek. Főleg energiatakarékos egyutas környezetben.
Ugyanakkor az egységes tesztkörnyezet hiánya biztos nem segít az összehasonlításban, de valszeg úgyis benne lesz pár Project 47 a következő top500-ban.

[ Szerkesztve ]

Senki sem dől be a hivatalos szóvivőnek, de mindenki hisz egy meg nem nevezett forrásnak.