일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 반도체
- SpMM
- 반도체기초
- 양자역학의공준
- jhDNN
- stl
- Qubit
- jhVM
- deep_learning
- quantum_computing
- nvidia
- CUDA
- POD
- C++
- Compression
- convolution
- DRAM
- sycl
- 딥러닝
- HA
- 클라우드
- kubernetes
- FPGA
- cloud
- Semiconductor
- 쿠버네티스
- GPU
- CuDNN
- dnn
- flash_memory
Archives
- Today
- Total
목록bank_conflicts (1)
Computing
Parallel Matrix Transpose : Coalesced Memory Access & Bank Conflicts (SYCL 구현)
문제 소개 Matrix transpose는 행렬의 행과 열을 교환하여 새로운 행렬을 얻는 operation[2]이다. 주대각축을 중심으로 반사 대칭을 하는 연산으로 Eq 1.과 같은 특징을 만족한다. Matrix transpose는 더하기, 곱하기와 같은 수 계산이 필요없는 operation으로, 단순히 원하는 위치의 데이터를 읽어와 원하는 위치에 쓰기만 하면 된다. 즉 memory operation이 대부분을 차지한다. Matrix transpose를 병렬화할 경우, matrix의 각 element는 다른 element와 관계 없이 독립적으로 읽고 쓰기가 되기에 쉽게 병렬화할 수 있다. 하나의 work-item은 [i,j]-번째 input 행렬의 element를 읽어와 [j,i]-번째 output 행렬..
Parallel | Distributed Computing/알고리즘
2022. 4. 27. 20:48