Chiustin: 20171031 GPU

2017年10月31日星期二

20171031 GPU

1. Atomics
處理變數在每個thread進行read-modify-write的操作時會有dependency，例如x++。
利用shared memory處理atomicAdd可以減少對global memory重複讀取，增加效能。

2. Stream
cudaHostAlloc()和malloc()不一樣在於malloc()是page host memory，而cudaHostAlloc()是 page-locked (有時稱之為pinned memory)。在run time時，page-locked會讓buffer不會被swapped out到硬碟，會加速記憶體的讀取。最重要是如果今天有兩個stream。假設今天stream0進行kernel運算時，stream1利用cudaHostAlloc()可以讀取非現在kernel運算的陣列不會影響kernel的運算，否則用malloc()可能在kernel會無法使用原本的陣列來運算。

這種方式會造成copy engine跟kernel engine會有較大空閒時間。

這種方式雖然也會造成copy engine跟kernel engine有空閒時間，但kernel engine比上一種快一格進行，而且stream0和stream1的kernel之間也縮短兩格。

這種方式是最佳的。

所以結論是利用breath-first或round-robin的assignment工作方式到stream是最好的。

Chiustin

網頁

2017年10月31日星期二

20171031 GPU

沒有留言:

張貼留言

總網頁瀏覽量

關於我自己

網頁

2017年10月31日 星期二

20171031 GPU

沒有留言:

張貼留言

2017年10月31日星期二