일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 반도체기초
- Compression
- SpMM
- cloud
- 반도체
- convolution
- quantum_computing
- HA
- C++
- deep_learning
- 딥러닝
- DRAM
- CuDNN
- dnn
- flash_memory
- 쿠버네티스
- Qubit
- GPU
- Semiconductor
- stl
- FPGA
- jhDNN
- jhVM
- kubernetes
- 양자역학의공준
- sycl
- 클라우드
- nvidia
- CUDA
- POD
- Today
- Total
목록분류 전체보기 (143)
Computing

Sparse Matrix Multiplication Matrix multiplication은 우리가 흔히 아는 다음 그림과 같은 행렬곱을 의미한다. Matrix multiplication(MM) 연산은 기존의 선형대수 관련 문제 계산, 3D graphics 뿐만 아니라 딥러닝에서도 활발하게 사용되고 있는 중요한 연산이다. 특히 딥러닝에서 convolution layer나 fully connect layer 연산을 MM 연산으로 변환하여 계산하고 있으며, 매우 많은 성능상의 이점을 보이고 있다. MM 연산은 operand인 행렬이 dense인지, sparse 인지에 따라 dense matrix multiplication 또는 sparse matrix multiplication으로 나뉜다. Dense vs...

이전 포스터 https://computing-jhson.tistory.com/15 CUDA PTX - 1 : Introduction PTX (or PTX ISA) 이 포스트는 CUDA PTX (Parallel Thread Execution)에 대하여 정리한다. 다음 자료[1]를 참고하였다. CUDA PTX는 a low-level parallel thread execution virtual machine and instruction set a.. computing-jhson.tistory.com Inline PTX Assembly 저번 포스터에서 간단하게 PTX에 대해 소개하였다면, 이번 포스터에서는 NVIDIA Inline PTX Assembly 공식문서[1]를 정리해보고자 한다. NVIDIA는 PTX ..

PTX (or PTX ISA) 이 포스트는 CUDA PTX (Parallel Thread Execution)에 대하여 정리한다. 다음 자료[1]를 참고하였다. CUDA PTX는 a low-level parallel thread execution virtual machine and instruction set architecture (ISA)를 의미한다. .cu file을 컴파일 해서 나오는 GPU를 작동 시키는 ISA라고 생각할 수 있다. nvcc는 CUDA kernel code를 PTX instruction으로 컴파일한다. 컴파일된 PTX instruction은 GPU driver 내에 있는 또 다른 compiler에 의해 binary code로 번역되어 GPU를 작동시킨다. ISA를 공개한다는 것은 ..

이 자료는 김태현 교수님의 양자 컴퓨팅 및 정보의 기초 강의를 바탕으로 정리하였습니다. Postulate 3 (Copenhagen interpretation) If the particle is in a state |ψ⟩, measuremnt of the variable Ω will yield one of the eigenvalues ωi with probability of P(ωi) ∝ |⟨ωi|ψ⟩|^2 즉, 입자는 중첩된 상태로 존재하지만(상태를 나타내는 벡터 |ψ⟩), 관측 결과는 하나의 값(ωi)으로 정해진다. 이 때, 입자의 중첩된 여러 상태 중 관측에 의해 관측 결과가 ωi로 정해질 확률 P(ωi)는 |⟨ωi|ψ⟩|^2에 비례하여 계산할 수 있다. 입자를 관측한다는 행위는 입자의 상태 |ψ⟩에..

Intel DevCloud Intel® DevCloud는 CPUs, GPUs, FPGAs로 구성된 클러스터로, Intel에서 oneAPI를 활성화 시키기 위해서 공짜로 제공해주고 있다. 공식 사이트는 https://www.intel.com/content/www/us/en/developer/tools/devcloud/overview.html 이다. DevCloud 튜토리얼 - Job 생성 및 제출 https://devcloud.intel.com/oneapi/get_started/baseToolkitSamples/ Base Toolkit Samples | Intel® DevCloud devcloud.intel.com Job이란? qsub utility를 통해 PBS (Portable Batch System)..

Parallelism Parallelism은 한국어로 뭐라 번역해야 할 지 잘 모르겠지만 (병렬성?), 프로그램의 병렬화된 상태라고 생각하면 좋을 것 같다. 프로그램이 parallelism을 가진다는 것은 해당 프로그램이 병렬로 실행됨을 의미하고, parallelism을 가지는 프로그램에 대하여 일들을 어떻게 병렬로 실행하는 지에 대해서도 얘기할 수 있다. Parallelism의 종류에는 일반적으로 data parallelism, task parallelism, pipeline parallelism이 존재한다. 일반적으로 data parallelism과 task parallelism을 비교하여 설명하는데, 최근 FPGA를 공부하면서 관심을 가지고 있는 pipeline parallelism도 추가하였다. ..

이 자료는 김태현 교수님의 양자 컴퓨팅 및 정보의 기초 강의를 바탕으로 정리하였습니다. Postulate 2 The evolution of a "closed" quantum system is described by a unitary transform 시간에 따른 닫힌 양자의 상태 변화는 unitary transform matrix로 표현 가능하다. (Unitary matrix에 대한 설명은 밑에 추가하였다.) X가 unitary matrix일 경우, 양자의 다음 상태는 다음 식으로 계산할 수 있다. 예를 들어 2개의 ket |0⟩, |1⟩ 를 기저로 하는 벡터 공간에서 , 다음과 같은 unitary matrix X, unitary matrix H에 의해서 양자 상태가 진화한다고 하자. 그렇다면 이때 2개..

Tensor core는 NVIDIA GPU volta architecture(2018)부터 등장한 Matrix multiply-accumulate (MMA) 연산을 지원하기 위한 specialized computing unit이다. 다양한 NPU(Google의 Tensor Processing Unit 등)들과 같이, 딥러닝이 대세가 되고 matrix-multiplication이 많은 애플리케이션에서 주요한 성능 병목이 되면서 NVIDIA가 GPU에도 탑재한 것으로 생각된다. 이번 포스트에서는 다음 논문을 읽고 Tensor core에 대하여 정리해보고자 한다. Programmability와 성능, 한계 등에 대하여 매우 자세히 분석해놓은 논문이다. Markidis, Stefano & Chien, Steve..