【パイ焼き】y-cruncherベンチスレ【1億桁】

1Socket7742015-07-03 10:18:48

ば、ばっかじゃないの、し、シングルスレッド性能がどうしたっていうのよ

わ、y-cruncherさえ速ければ、あとは何も要らないんだから

あ、あんたの、そ、その・・・全部言わせる気?

●y-cruncherはこちらから

●報告は1億桁で

実行手順

1)DLした圧縮ファイルを解凍し y-cruncher.exe を実行

2) 0 [Enter]

3) 1 [Enter]

4) 3 [Enter]

●1億桁のLastDigitsが↓と一致していればどのバージョンでも構いません

9948682556 3967530560 3352869667 7734610718 4471868529 : 99,999,950

7572203175 2074898161 1683139375 1497058112 0187751592 : 100,000,000

↑この部分↑

※SSE3に対応していない古いPCはv.0.6.1以前のバージョンを御使い下さい

●報告用テンプレ (解説は>>2

【   CPU  】

【   Mem   】

【   M/B   】

【   O S   】

【  Ver.  】

【HypThread】ON/OFF/無し

【Total Time】seconds

【CPU Utiliz 】%

【Efficiency 】%

9Socket7742015-07-03 15:00:30

【   CPU  】 Intel Core i7-4770 CPU @ 3.40GHz (4C/8T)

【   Mem   】 DDR3-1600 8GB x4

【   M/B   】 ASUS Z87-PRO

【   O S   】 Win7 Pro x64 SP1

【  Ver.  】 0.6.8.9461 (Windows – x64 AVX2 ~ Airi)

【HypThread】ON

【Total Time】12.820seconds

【CPU Utiliz 】691.817%

【Efficiency 】86.4771%

25Socket7742015-07-04 01:27:18

【   CPU  】 Intel Core i7-4770 @ 3.40GHz (4C/8T)

【   Mem   】 DDR3-1600 8GB x4

【   M/B   】 ASUS Z87-PRO

【  HDD  】 SoftPerfect RAM Disk(NTFS 3GB)

【   O S   】 Win7 Pro x64 SP1

【  Ver.  】 0.6.8.9461 (Windows – x64 AVX2 ~ Airi)

【HypThread】ON

【ComputeT.】11.081seconds

【Total Time】11.914seconds

【CPU Utiliz 】732.503%

【Efficiency 】91.5629%

>>9の構成でRAMDISKから実行してみた。

ちょっとだけ早くなった。

10Socket7742015-07-03 15:36:48

Total Time(全角混じりw)としているのにストレージ(実行場所)の項目が無いのは片手落ちでは無いだろうか

個人的にはtimeは両方書くべきと思う

14Socket7742015-07-03 15:58:06

>>10

当初考えてた報告用テンプレです。皆さん(てか過疎ってますが)がこれでOKなら、こっちにしましょう

【   CPU  】

【   Mem   】

【   M/B   】

【  HDD  】

【   O S   】

【  Ver.  】

【HypThread】ON/OFF/無し

【ComputeT.】seconds

【Total Time】seconds

【CPU Utiliz 】%

【Efficiency 】%

17Socket7742015-07-03 16:08:40

【   CPU  】i5-4690K

【   Mem   】4GB*2

【   M/B   】Z97 Pro4

【   O S   】Win7SP1 Pro

【  Ver.  】0.6.8.9461

【HypThread】無し

【Total Time】13.217

【CPU Utiliz 】373.665%

【Efficiency 】93.4162%%

—————————-

【   CPU  】i5-4690K@4.5GHz

【Total Time】12.031

【CPU Utiliz 】376.006%

【Efficiency 】94.0014%

18Socket7742015-07-03 16:46:41

>>14

HyperThreadまで環境なので、空行入れるならその下がいいかも

>>17追加修正

4690K

【ComputeT.】11.874

【Total Time】13.134

4690K@4.5GHz

【ComputeT.】10.814

【Total Time】12.031

20Socket7742015-07-03 18:08:57

AVX2/SSE3@4690定格

>>18より速めのSSDにファイル移動して実行してみた

RAMディスクならcopy+verifyが1秒切るんじゃないかな

(計算力見るならComputingTimeの比較が妥当)

AVX2

SSE3

26Socket7742015-07-04 05:38:08

>>20

SSD何使ってんの?

22Socket7742015-07-04 00:46:33

【   CPU  】Core i3-4350

【   Mem   】DDR3-1600 4GB×2 11-11-11-28

【   M/B   】ASUS H97-PRO

【  SSD  】CT128MX100SSD1

【   O S   】Windows8.1 64bit

【  Ver.  】0.6.8.9461 x64 AVX2 ~ Airi

【HypThread】有り

【ComputeT.】20.918 seconds

【Total Time】22.708 seconds

【CPU Utiliz 】370.488 %

【Efficiency 】92.622 %

27Socket7742015-07-04 07:42:31

>>25

RamDiskだと元々メモリ上にあるデータを更にメモリ上のDISKエリアに書き込むので、メモリ帯域の奪い合いになるのじゃないかなぁ?

SSDは、たぶんNVMeの750とか?

NVMeならメモリ帯域は圧迫しない(しかしメモリよりは若干遅い)

29Socket7742015-07-04 15:55:19

実際速い、>>25の書き出しは0.833秒

>>25のSSD版9が約1.2秒、>>20が1.005秒、>>22が1.790秒、HDDの>>24が1.919秒

こうしてみると意外に差が小さい、というかHDDでもそこそこいけてる

28Socket7742015-07-04 15:17:31

>>27

RAM内で完結してるほうがSATAに出すよりは速いのでは

31Socket7742015-07-04 16:23:27

>>28

当然その通りだし、>>27にもそう書いてある

しかしNVMeはSATAより圧倒的に早い

41Socket7742015-07-06 00:58:18

【   CPU  】core i7-5820K @4GHz(6c12t)

【   Mem   】4ch DDR4-26666 4GB×4枚

【   M/B   】Fatal1ty X99M Killer

【   O S   】Windows7 64bit SP1

【  Ver.  】0.6.8

【HypThread】有り

【ComputeT.】7.182 seconds

【Total Time】8.050 seconds

【CPU Utiliz 】964.59 %

【Efficiency 】80.3825 %

42Socket7742015-07-06 07:09:43

>>41

【  Ver.  】0.6.8 x64 AVX2 Airi

【HypThread】ON

だよね?

HDD/SSDは何使ってるのだろ?

44Socket7742015-07-06 13:37:39

>42

そうです

IRSTでSSDのRAID1 ライトバック

あとDDR4-2400を2666で使ってます

48Socket7742015-07-06 22:38:36

100M程度だしメインメモリ内にキャッシュされるからCPU性能の影響が大きい

桁数多くすればデータファイルも大きくなってストレージの重要性も高くなるはずたぶん

50Socket7742015-07-07 17:57:28

【   CPU  】Intel Corei7-2600K @ 3.40GHz

【   Mem   】DDR3-1333 4GB x2

【   M/B   】ASUS Z68-V

【  HDD  】Crucialm4 SSD 128GBx2 RAID0(IRSTライトバック無効)

【   O S   】Windows7 64bit SP1

【  Ver.  】0.6.8.9461 (Windows – x64 AVX ~ Hina)

【HypThread】ON

【ComputeT.】22.154 seconds

【Total Time】23.797 seconds

【CPU Utiliz 】675.512 %

【Efficiency 】84.439 %

このマシン組んで数年、久々にDiskMarkで測ったが

SeqRead470MB/sって…もはやこのRAID0に何のメリットもなかった

62Socket7742015-07-08 22:07:49

Core i5に完敗してますがw

64Socket7742015-07-08 22:59:35

またとんでもない構成がww

>>62

うーんどうなのかなー

速いのはAVX2であって、ほとんどのアプリにおけるコンシューマー向けhaswellの正味実力は

> 24.810 i5-4690K(kasumi)

こんなもんじゃないかと

haswellユーザー、気を悪くしたらごめんw

63Socket7742015-07-08 22:12:06

【   CPU  】Xeon E5-2687W (初代) x 2

【   Mem   】DDR3-1600 4GB x 8

【   M/B   】EVGA SR-X

【  HDD  】RAM Disk (SoftPerfect RAM Disk)

【   O S   】Windows7 64 SP1

【  Ver.  】0.6.8.9461 x64 AVX ~ Hina

【HypThread】ON

【ComputeT.】9.005 seconds

【Total Time】9.860 seconds

【CPU Utiliz 】1710.21 %

【Efficiency 】53.4442 %

80スレッド時(この辺りが一番)

【ComputeT.】8.734 seconds

【Total Time】9.711 seconds

【CPU Utiliz 】1901.07 %

【Efficiency 】59.4083 %

メニュー3でやるときは、Hexadecimal Digits を Disable (0を設定) にしないと通常モードでは書き出さない

16進数の結果出力が行われてしまうね。80Tは、Hexadecimal Digits: Disable の場合。

このベンチはキャッシュがだいぶ効くのかレジスタ上での繰り返し演算が多いのかメモリ帯域は効かず、

拡張命令のサポート、GHz・Core、コア数などによるCPU利用率が処理時間を左右するようだね。

77Socket7742015-07-11 13:24:34

>>63 のXeon E5-2687W (初代) x 2(ちなみにCPUは定格)でkasumiとUshioもやってみた。

EfficiencyはHinaと変わらず60%弱。

AVXとSSEは、AVX2とSSEほどは差がないよう。

32T   スレッド盛り(最速)

——————————–

Kasumi  11.023   10.566 (96T)

Ushio   10.539   10.081 (96T)

Hina     9.005    8.734 (80T)

79Socket7742015-07-11 15:02:43

>>63 のXeon E5-2687W (初代) x 2での0.5.5 Build 9180 (fix 2) (x86 – Windows)は、

32スレッドで24.476(ComputeT)で、これもEfficiencyは60%弱。

64, 128, 256スレッドは段々遅くなる傾向でした。

70Socket7742015-07-10 15:19:35

AMD FXの結果はないのか。

遅すぎて出せないだけかもしれんがorz

71Socket7742015-07-10 16:57:14

>>70

FXは上のOpteron4280と同じだよ

17.117 Xeon X5675*2(ushio)-> Nehalem 3.06GHz 6C/12T

17.993 Opteron4280*2(miyu)-> Bulldozer 2.8GHz 4M/8C

チューニング済みの実行モジュールだと同時期のネハ世代と拮抗してる

けど未チューニングのx86版だと

39.610 Xeon X5675*2(x86)

62.696 Opteron4280*2(x86)

IntelはMicrosoftにx87命令を捨てる様に忠告されて従わなかった

AMDはMicrosoftにx87命令を捨てる様に忠告されて従った

その差が出てる

x87命令はIRQ13に結び付けられているのでOSの脆弱性につながり易いからMSがもう辞めてくれって言ったのかもね

Intelが無視したのはSuperPIが遅くなるのは避けたかったから、AMDは素直に従ってSuperPIが遅くなってしまい・・・

72Socket7742015-07-10 21:27:48

>>71

そのOpteronの結果はCPUx2だよってことで、リクエストにお応えしますw

【   CPU  】AMD FX-8350

【   Mem   】DDR3-1600 4GB×2

【   M/B   】GIGABYTE GA-78LMT-USB3

【  SSD  】SanDisk Extreme Pro 240GB

【   O S   】Win8.1 64bit

【  Ver.  】0.6.8 Build 9461 x64 XOP Miyu

【HypThread】無し

【ComputeT.】24.545 seconds

【Total Time】26.587 seconds

【CPU Utiliz 】673.693 %

【Efficiency 】84.2116 %

AVXその他は40台、たぶんAVX2に対応してたとしてもintelより遅かっただろうね…

141,,・´∀`・,,)っ-○○○2016-01-03 00:55:10

>>71のこれはデタラメ

> x87命令はIRQ13に結び付けられているのでOSの脆弱性につながり易いから

> MSがもう辞めてくれって言ったのかもね

> Intelが無視したのはSuperPIが遅くなるのは避けたかったから、

> AMDは素直に従ってSuperPIが遅くなってしまい・・・

MSがx87を廃止したかったのはXMMレジスタとFPスタックの両方を退避復帰するフットプリントが

大きいと考えたからで、セキュリティ云々は関係なし

なんだかんだで従来x64の完全な互換性のないKNCなんかにもそのままx87命令が

移植されてるし、超越関数は何かと便利なのだ。

89Socket7742015-08-02 13:12:33

たとえば、>>50と>>72を比べると、i7-2600KとFX-8350Kが同等だって言われてる事が数値で見れて分かりやすい。

81Socket7742015-07-11 15:19:51

RAMディスクだからか、>>77 >>79 は2回ずつやって良い方の結果だけど、最初がいいときと

後のが良いときが半々くらいみたい。

ちなみに、>>63のようなDual&他コア構成はCPU使用率が低くなりがちなので、電源の設定を

高パフォーマンスベースで最小のプロセッサの状態を100%に設定。

それと、レジストリをいじって保留コア数も指定できるようにして、コアが保留状態にならないよ

うに指定している。効果は大したことないかも。

82Socket7742015-07-11 15:58:04

俺は動画見ながら計測してたけど、あんまり変化なかったなぁ

極限目指すなら実行優先度を“高”とか“リアルタイム”にするのが効果高いのじゃね?

あと、Linux版もあるよね。X-Window系を入れないでシングルユーザモードのCUIで実行すれば余計な裏タスクが無いので早いかも

87Socket7742015-08-02 11:01:44

【   CPU  】3960X @5.05GHz(101×50)

【   Mem   】DDR3-2133 4GB x 4 9-10-10-27 1T

【   M/B   】ASUS RAMPAGE IV

【  HDD  】RAM Disk (SoftPerfect RAM Disk)

【   O S   】Windows7 64 SP1

【  Ver.  】0.6.8.9461 x64 AVX ~ Hina

【HypThread】ON

【ComputeT.】11.703 seconds

【Total Time】12.440 seconds

【CPU Utiliz 】866.695 %

【Efficiency 】72.2246 %

36スレッド時

【ComputeT.】10.916 seconds

【Total Time】11.663 seconds

【CPU Utiliz 】954.398 %

【Efficiency 】79.5332 %

0.5.5 Build 9180 (fix 2) (x86 – Windows)

【ComputeT.】33.230 seconds

※SS取り忘れて他のデータ不明。

暇つぶしに回してみたんで貼っとく。

空冷で室温高目なんで、AVX Hinaでは一番温度高いコアがTj. Maxまで行くケースがあった。

90Socket7742015-08-04 02:27:40

CPU Utiliz = 論理CPU数 x Efficiency で、

実行時間は、(CPU Utiliz x IPC x クロック x 拡張命令の効率) に反比例ってことになり、

>>50と>>72が似たような結果なのは、IPCでは2600Kが勝り、クロックでは定格の2600K

よりFX-8350が上で、拡張命令の効率は同じくらいだからってことかね。

同じIntelの同世代の>50と>>87を比較し、クロックとCPU Utilizの差を考慮すると、

(IPC x 拡張命令の効率)が大体同じ(コア数=スレッド数が多い>>87の方が若干劣る)

ということが分かるね。

22.154 sec * (3.4GHz/5.05GHz) * (675.512%/954.398%) = 10.557 sec ≒ 10.916 sec

93Socket7742015-08-17 04:42:01

【   CPU  】i7 6700K@4.6GHz

【   Mem   】DDR4-3200 8GB x2

【   M/B   】MAXIMUS VIII HERO

【   O S   】Windows10 64bit

【  Ver.  】0.6.8.9461 (Windows – x64 AVX2 ~ Airi)

【HypThread】ON

【Total Time】8.804seconds

【CPU Utiliz 】693.673%

【Efficiency 】86.7091%

102Socket7742015-10-05 14:09:57

構成変えたのか?と思ったら>>93と同じ構成でOSだけ変更か

ComputeTも同じ傾向?

Efficiencyが高い=効率良く動作している

逆にEfficiencyが低い場合は、何か他の事を非効率にしてる可能性がある

他の事とは、具体的には、I/O待ち/不要なタスク管理/分岐予測失敗によるパイプラインフラッシュ/実行優先順位が高いバックドアなど

106Socket7742015-10-15 19:59:34

【   CPU  】i7 6700K@4.8GHz

【   Mem   】DDR4-2133@2800 4GB x2

【   M/B   】Z170 Extreme4

【  HDD  】DataRam Ramdisk

【   O S   】Windows10 64bit

【  Ver.  】0.6.8.9461 (Windows – x64 AVX2 ~ Airi)

【HypThread】ON

【ComputeT.】6.684 seconds

【Total Time】7.251 seconds

【CPU Utiliz 】751.104%

【Efficiency 】93.8881%

111Socket7742015-10-25 11:54:19

SkylakeのDualで1秒切れるかも。

144Socket7742016-01-03 16:19:59

>>141

何れにせよ古いものは可能な限り淘汰するべきだと思うよ

145,,・´∀`・,,)っ-○○○2016-01-03 18:31:55

別に古いから性能が悪いわけではない

x87の80ビット浮動小数点の精度でやったほうが効率がいいことも少なからずあるので

結局併存してるわけで

146Socket7742016-01-03 19:06:00

>>145

ほーん

そんなもんなんやな

何で80bitなんやろ、1.2E24と出たけどこんな精度が当時必要やったんやろか?

今となっては割とどうでも良いことかもしれんが

156Socket7742016-01-28 06:49:56

正規品60万以上

中華業者横流しBステップES品で揃えて20万

>常駐プロセス減らしてアイドルで27個くらい

コアが余っていても減らす意味が有るのでしょうか?

1571542016-01-28 07:34:28

>>156

石は正規品M0ステッピングです。

為替が今より幾分かお財布に優しい時だったので24万円/個で購入できました。

少しでも多く演算リソースをy-cuncherに回そうという考えです。

そもそも、使わない無駄なプロセスが裏でずっと動いてるのが気に入らない性格なので…

158Socket7742016-01-28 10:13:38

y-cruncherは理論的にマルチスレッド効率の上限に達してる?

それとも、多コア向けのチューニング余地が未だ残されてる?

印象として8コア以上はコア数に対してスコア上昇率が限定的でクロック高い方がスコアも高い

161Socket7742016-01-28 13:24:44

>>158

アムダールの法則による制限だろ

162Socket7742016-01-28 13:50:54

>>161

まぁ、端的に言うとそうなんだろうけど、とは言えチューニングの余地が残されてるのじゃないか?と

>>157

M0ステッピングのcoreinfoを見たいな

Bステップと比べてみたい

Coreinfo は、論理プロセッサと物理プロセッサの間のマッピング、NUMA ノード、NUMA ノードが存在するソケット、および各論理プロセッサに割り当てられたキャッシュを確認できる新しいコマンド ライン ユーティリティです。

181Socket7742016-02-03 01:14:50

もしかしてAVX2のGATHER命令が効いてるとか?

倍以上ってのは単純にベクタ長が倍になったってだけでは説明が付かないし、整数が支配的っていうのも変

182Socket7742016-02-03 07:17:08

>>181

むしろ何で浮動小数点数使ってると思ってるの

丸め誤差が入っちゃうじゃないか

184Socket7742016-02-03 08:18:31

>>182

円周率計算は加減算と乗算の組合わせで行う

加減算に比べて圧倒的に乗算の方が時間がかかる

桁数の大きな数の乗算は離散フーリエ変換で行うのが普通

185Socket7742016-02-03 11:48:55

>>184

確かにあなたのおっしゃるとおりでした

それでも素人にもう少しお付き合いいただきたい

単精度浮動小数点数で間に合わず倍精度浮動小数点数が使われる所を

32bit整数による固定小数点数演算で代用するとゆうのはどうでしょう

固定小数点数演算で

203,,・´∀`・,,)っ-○○○2016-02-08 23:11:51

普通に楕円曲線にキャリーレス乗算を応用した論文なんていくらでもでてくるけどねー

まあDQNには理解できない世界だ

235Socket7742017-01-27 00:34:04

間違えた

【   CPU  】i7 7700K @5.0GHz

【   Mem   】DDR4-3200 16GBx4

【   M/B   】PRIM Z270-A

【  HDD  】SSD 1TB

【   O S   】Windows10 Pro x64

【  Ver.  】0.7.1.9466b

【HypThread】ON

【ComputeT.】5.403 seconds

【Total Time】5.875 seconds

【CPU Utiliz 】747.38 % + 1.60 % kernel overhead

【Efficiency 】93421 % + 0.20 % kernel overhead

これのstresstestすごく厳しいね。

238Socket7742017-01-29 05:10:13

確かに>>235のスコアは>>106の6700Kと比較しても高すぎる気がする

ver差かメモリー差かね

239Socket7742017-03-02 05:43:40

>>238

メモリのトータル性能で大きく変化するよ、

末尾がHQ型番のIrisタイプとか周波数低くても明白にそれ以上の性能だすでしょ。

240Socket7742017-03-02 11:53:09

>>239

意味がわからん

242Socket7742017-03-04 02:19:03

>>240

Irisを出してるってことはキャッシュじゃないの?

確かCPUに乗せてるキャッシュが大きく影響するrarだと、

Broadwell-CがSkylake-Sを大きく引き離すって見たことある

285Socket7742017-05-21 16:02:21

【   CPU  】Core i5-2500K CPU @ 4.10GHz

【   Mem   】9-9-9-24

【   M/B   】Biostar TZ68A+

【   O S   】Windows 10.0 Build 15063

【  Ver.  】v0.7.2 Build 9468 11-SNB ~ Hina

【HypThread】無し

【ComputeT.】17.636 seconds

【Total Time】18.915 seconds

【CPU Utiliz 】363.86 %

【Efficiency 】90.97 %

302Socket7742017-11-12 19:32:50

【   CPU  】 Core-i9 7980XE@4.2GHz (AVX2/AVX512 Offset 3/6)

【   Mem   】 DDR4-3600 8GBx8

【   M/B   】 ASUS RAMPAGE VI EXTREME

【  SSD  】 Intel Optane SSD 900P SSDPED1D280GASX (280GB)

【   O S   】 Win 10 Pro 64 (1709)

【  Ver.  】 v0.7.4 Build 9477 (17-SKX ~ Kotori)

【HypThread】 ON

【ComputeT.】 2.102 seconds

【Total Time】 2.516 seconds

【CPU Utiliz 】 2933.14 % + 8.92 % kernel overhead

【Efficiency 】   81.48 % + 0.25 % kernel overhead

Intelの最新Linpak(多分AVX512対応)で落ちる程度の設定。

このベンチのストレージアクセスはシーケンシャル主体なのかOptane 900Pに

目立った優位性はないよう。

305Socket7742017-11-13 20:50:27

>>302

SIMD演算機が128bit(AVX世代)のThreadripperが3秒台

i9の演算機は512bitでコア数も2個多いのに大差無い・・・

てか5年ぶりに2chに来てみたら何だこれ?分裂とドメイン変更、権利とか裁判とか、もうあれだな

308Socket7742017-11-26 08:55:01

【   CPU  】 Core-i9 7980XE@2.6GHz (AVX2/AVX512 Offset: 0/0)

【   Mem   】 DDR4-3733 17-17-17-37-1T 8GBx8

【   M/B   】 ASUS RAMPAGE VI EXTREME

【  SSD  】 Intel Optane SSD 900P 280GB(PCIe)

【   O S   】 Win 10 Pro 64 (1709)

【  Ver.  】 v0.7.4 Build 9477

Binary         ComputeT  Total Time  CPU Utiliz     Efficiency

——————————————————————–

00-x86         19.624     20.784    1973.79%+1.43%  61.68 %+0.04 %

08-NHM ~ Ushio   6.014      6.794    2921.26%+2.86%.  81.15 %+0.08 %

11-SNB Hina     5.148      6.022    2922.59%+1.52%.  81.18 %+0.04 %

13-HSW ~ Airi.    2.808      3.320    2905.84%+ 6.12%. 80.72 %+0.17 %

14-BDW ~ Kurumi  2.804      3.310    2939.37%+6.69%.  81.65 %+0.19 %

17-SKX ~ Kotori.   2.358      2.856    2893.20%+5.30%.  80.37 %+0.15 %

AVX512でファントム・スロットリングが起きない範囲で同一クロック(2.6GHz、パワーリミットなし)

での各バイナリ比較。Vcoreは固定で必要以上に盛ってる。

※この設定でLINPACK(AVX512)やるとコア温度96℃(殻割りなし&H115i)で1100GFlopsちょい。

316Socket7742017-11-26 11:59:30

7980XEで 11-SNB Hina 〜 17-SKX ~ Kotori で3.0〜4.0GHzもやってみた。

CPU性能に関連するTotal Computation Time(ComputeT)だけ示す。1回ずつの測定

なので、裏で何か動いてバラついてる値もあるかも。

メモリは>>308と同じDDR4-3733。

Binary         2.6GHz  3.0GHz  3.2GHz  3.4GHz  3.6GHz  3.8GHz  4.0GHz

—————————————————————————-

11-SNB Hina     5.453   4.517   9.285   4.058   3.864   3.691   9.099

13-HSW ~ Airi.    3.498   2.548   2.554   2.361   2.303   2.251   2.304

14-BDW ~ Kurumi  3.503   2.547   2.572   2.368   2.309   2.252   2.332

17-SKX ~ Kotori.   3.253   2.217   2.190   2.103   2.071   2.031   2.034

※AVX無印が意外にもクロック上がらないかファントム・スロットリングに陥っている。

※>>302より回せる設定でやってる。>>302はx42-6 = x36では回ってなかったと思われる。

310Socket7742017-11-26 10:22:50

x86を基準にすると

x64-SSE4 3.3倍速 / 3.1倍速

x64-AVX 3.8倍速 / 3.5倍速

x64-AVX2 7.0倍速 / 6.3倍速

x64-ADX 7.0倍速 / 6.3倍速

x64-AVX512 8.3倍速 / 7.3倍速(但しファントムスロットリング発生に要注意)

HyperThreadはDISABLEですよね?

311Socket7742017-11-26 10:30:43

>>308 のメモリクロックを半分にしたものやってみた。コア性能は2.6GHzx18C=46.8GHz・Coreで

大したことない(>>270の1.46倍しかない)けど、AVX2以降はメモリの影響が大きく出てるね。

Sky-SP/W/XコアのAVX512そのものの性能をy-cruncherで測るには、もっとコア数少ない

(メモリネックにならない)条件でやらないとダメだね。

※LINKPACK(AVX512)は、>>308で1138GFlopsだったパターンが825GFlops。

>>310 忘れてた>>308もこれも 【HypThread】 ON

y-cruncherは、HTT Disableの方が多少効率いいんだっけ?(BISOの設定は保存してなくて、

もう元に戻した)

【   Mem   】 DDR4-1866 17-17-17-37-1T 8GBx8

Binary         ComputeT  Total Time  CPU Utiliz     Efficiency

——————————————————————-

00-x86         19.630       20.791     1966.68%+1.03%  61.46%+0.03%

08-NHM ~ Ushio   6.295      7.113    2977.11%+2.23%  82.70%+0.06%

11-SNB Hina     5.453      6.348    2869.93%+6.02%  79.72%+0.17%

13-HSW ~ Airi.    3.498      4.027    2956.68%+9.83%.  82.13%+0.27%

14-BDW ~ Kurumi  3.503      4.043    3010.07%+5.80%.  83.61%+0.16%

17-SKX ~ Kotori.   3.253      3.771    2879.35%+26.90%  79.98%+0.75%

317Socket7742017-11-26 12:30:20

>>316

AVXとAVX2のクロックは連動するはずなので、時々9秒台は変だね

Ushioもやってみると傾向が掴めるかと

329Socket7742017-11-26 23:07:21

>>316

自分もクロック変えてやってみたよ

【   CPU  】 Core i9 7980XE

【   Mem   】 G.Skill F4-3733C17Q-32GTZKK@DDR4-4000 18-19-19-39 1T

【   M/B   】 ASUS RAMPAGE VI APEX

【  SSD  】 SanDisk Extreme PRO 480GB

【   O S   】 Windows10 Pro x64 (1703, Build 15063)

【  Ver.  】 v0.7.4 Build 9477

【HypThread】ON

※Vcore1.200V・mesh3.0GHz固定、ComputeTのみ

Binary         2.8GHz  3.0GHz  3.2GHz  3.4GHz  3.6GHz  3.8GHz  4.0GHz

—————————————————————————-

11-SNB Hina     4.803   4.570   4.300   4.116   3.943   3.801   3.670

13-HSW ~ Airi.    2.910   2.820   2.743   2.667   2.620   2.564   2.519

14-BDW ~ Kurumi  2.915   2.812   2.743   2.681   2.625   2.567   2.534

17-SKX ~ Kotori.   2.545   2.496   2.447   2.407   2.382   2.358   2.333

Hina以外は全体的に0.3秒くらい遅いね

>>314

Intelの最新版のLinpackはOpenMPの環境変数設定すればフルスレッド(2T/C)で動かせるよ

付属のbatを開いて linpack_xeon64(32).exe lininput_xeon64(32) の前の適当なところに

set OMP_NUM_THREADS=スレッド数

を追加

338Socket7742017-12-02 11:47:56

【   CPU  】 Core-i9 7980XE@3.5GHz (AVX2/AVX512 Offset: 0/0) 1.18V固定

【   Mem   】 DDR4-3733 17-17-17-37-1T 8GBx8

【   M/B   】 ASUS RAMPAGE VI EXTREME

【  SSD  】 Intel Optane 900P 280GB(PCIe)

【   O S   】 Win 10 Pro 64 (1709)

【  Ver.  】 v0.7.4 Build 9477 (17-SKX ~ Kotori)

【HypThread】 ON

【ComputeT.】 25.397 seconds

【Total Time】 28.341 seconds

【CPU Utiliz 】 3184.10 % + 3.69 % kernel overhead

【Efficiency 】   88.45 % + 0.10 % kernel overhead

>>302 >>308 >>311 >>316 >>335 ので参考に10億桁。

こっちの方が1億桁より重く、これでワットモニター読み最大700W越え。4GHzは落ちた。

スリッパ4,025MHzの10億桁。

The Ryzen Threadripper 1950X @ 4025MHzscores getScoreFormatted in the Y-Cruncher - Pi-1b benchmark. The Sourceranks #1 worldwide and #1 in the hardware class. F...

※HWBOTは Total Computation Time(ComputeT) を記録しているようだ。

318Socket7742017-11-26 12:40:14

>>317 AVX無印のクロックは、AVX(2) Offsetに制限されるものとされないものがあるようだ。

Hinaは制限されない方で、OCCT 4.5.1に入ってるLinpac(性能的に多分AVX無印)は制限される方。

Skylake-Xの人は、Hinaみたいのやつをどう考慮するか(または無視するか)で、クロック

設定がかなり変わって来そう。

319Socket7742017-11-26 13:10:48

>>317 通常クロックの範疇でかなり重いHinaと、AVX2クロックの範疇でそれほど重くない

AiriやAVX512の範疇でそれほど重くないKotoriとで、全力で行けるかどうかの判断基準が

違うとかのせいかね。

>>308はVcore 1.1Vだったと思うけどちょっと多すぎかと思っていた。>>316はちょと回す

ので電力的に厳しいということで1.05Vでやった(4.0GHz Kotoriでワットモニター読み500W

台が見えた気がするが、短すぎて本当のピークは分からない)。Airi以降も4.0GHzで垂れて

るので、もっとくれということかも。

※Skylake-SPに関するIntelの資料に下記があったけど、AVX無印の扱いが明確でない。

Code Type                   All Core Frequency Limit

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

SSE

AVX2-Light (without FP & int-mul)    Non-AVX All Core Turbo

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

AVX2-Heavy (FP & int-mul)        AVX2 All Core Turbo

AVX512-Light (without FP & int-mul)

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

AVX512-Heavy (FP & int-mul)       AVX512 All Core Turbo

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

320Socket7742017-11-26 13:39:50

>>319

AVX2はAVX+int系256bitSIMD命令なのでAVX2のFPはAVXのFPと一緒

FP=浮動小数点系の命令

int-mul=整数系の掛算

y-cruncherは整数系の命令群を使って多倍長精度演算をエミュレートするのでint-mulが関係していると思われ

int-addとint-mulでクロックが右往左往して結果にブレが生じる不具合が有る可能性があるんじゃね

Hinaが9秒台をノイズとして除去すると順当にクロック連動して高速化するのに、Airi〜Kotoriは表のクロックとスコアが全く連動してない

321Socket7742017-11-26 14:01:19

>>320 AVX2以降はこんだけコア数あったらメモリでサチっちゃうってことだね。

(作者も書いてる通り)

メモリ2chでも4Cの6700K/7700KのOCがかなりメモリの限界に近いようだし。

340Socket7742017-12-16 17:42:02

>>320

元になってるであろうsuperπの演算ルーチンが整数演算性能じゃなく浮動小数点演算性能に依存するのと同様に、このベンチも浮動小数点演算じゃないか?

SSEとかAVXとかの浮動小数点演算も含めてさ

330Socket7742017-11-26 23:47:21

ブレが無く綺麗に安定したスコアだ

Hinaはクロックに連動して高速化

Hina以外がクロック上げても極僅かしか伸びない理由はAVX2-3GHz/AVX512-2.5GHzくらいでリミッター掛ってAVX命令以外の部分がクロックに連動して高速化したぶん少し伸びたからなんだろうなと予想してみる

参考;表面的なクロックに関係なく18コアではAVXは3GHz/2.5GHzが上限になってる

331Socket7742017-11-27 00:25:56

>>330

Haswell-Eの頃からメモリ帯域限界近いって言ってるからね

BBP Digit Extractor for Piなら18C/36Tでもクロック分タイム縮まるでしょ

冷やせるなら1.5GHzと3GHzでやってみれば分かるよ

>Memory bandwidth is a significant bottleneck:

>y-cruncher was already slightly memory-bound on Haswell-E. Now on Skylake X, it is much worse.

333Socket7742017-11-28 22:39:16

>>330 Xeonはパワーリミットの制限あるから回らないのは当然。

>>316 や >>329 はXeonとはかけ離れた領域で動かしてる。

※Xeon Gold 6150や7980XEの通常命令の全コアTB 3.4GHzってなってるけど、

CINEBENCH R15だとパッケージパワー165Wじゃ到達できない。

165Wなんてそんなもん。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする