일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 반도체기초
- deep_learning
- kubernetes
- dnn
- flash_memory
- nvidia
- FPGA
- GPU
- Compression
- sycl
- CUDA
- Qubit
- stl
- SpMM
- HA
- POD
- Semiconductor
- DRAM
- quantum_computing
- cloud
- C++
- 양자역학의공준
- 딥러닝
- jhDNN
- 쿠버네티스
- CuDNN
- 반도체
- convolution
- 클라우드
- jhVM
Archives
- Today
- Total
목록coalesced_memory_access (1)
Computing
Parallel Matrix Transpose : Coalesced Memory Access & Bank Conflicts (SYCL 구현)
문제 소개 Matrix transpose는 행렬의 행과 열을 교환하여 새로운 행렬을 얻는 operation[2]이다. 주대각축을 중심으로 반사 대칭을 하는 연산으로 Eq 1.과 같은 특징을 만족한다. Matrix transpose는 더하기, 곱하기와 같은 수 계산이 필요없는 operation으로, 단순히 원하는 위치의 데이터를 읽어와 원하는 위치에 쓰기만 하면 된다. 즉 memory operation이 대부분을 차지한다. Matrix transpose를 병렬화할 경우, matrix의 각 element는 다른 element와 관계 없이 독립적으로 읽고 쓰기가 되기에 쉽게 병렬화할 수 있다. 하나의 work-item은 [i,j]-번째 input 행렬의 element를 읽어와 [j,i]-번째 output 행렬..
Parallel | Distributed Computing/알고리즘
2022. 4. 27. 20:48