일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- kubernetes
- jhDNN
- DRAM
- Compression
- convolution
- SpMM
- CUDA
- HA
- FPGA
- 쿠버네티스
- cloud
- nvidia
- quantum_computing
- deep_learning
- GPU
- sycl
- 클라우드
- 양자역학의공준
- 반도체기초
- stl
- Qubit
- dnn
- C++
- 반도체
- POD
- 딥러닝
- Semiconductor
- jhVM
- CuDNN
- flash_memory
- Today
- Total
목록Deep Learning/Optimization (Hardware) (4)
Computing
이전 글 2022.04.21 - [Deep Learning/Optimization (Hardware)] - PyTorch AMP - 1 : Mixed Precision Training 논문 리뷰 이전 글에서 mixed precision learning의 기본 개념에 대하여 정리하였다. Mixed precision learning은 필요에 따라 FP16 연산 혹은 FP32 연산을 혼합하여 모델 학습을 진행하는 것으로 단순히 FP32 연산만을 사용하여 모델 학습하는 것에 비해 메모리 사용 감소, 에너지 사용 감소, 계산 속도 향상의 장점이 있다. 특히 이전 글에서 소개한 논문 "Mixed Precision Learning[4]"에서는 mixed precision learning시에도 FP32 연산만 사용한 ..
PyTorch AMP 최근 발표되는 Tensor core(https://computing-jhson.tistory.com/10)와 같은 딥러닝 하드웨어에서는 기존의 single precision floating point(FP32) data type이 아닌, half precision floating point(FP16) data type과 같은 좀 더 적은 개수의 bits를 사용하는 데이터 타입을 이용해 layer weights, tensor 등의 데이터를 표현하고 있다. 이를 통해 메모리 사용량 및 데이터 전송량을 줄이면서, 회로를 최적화하여 딥러닝 학습 및 추론 속도를 향상을 달성하고 있다. 많은 딥러닝 프레임워크에서 이러한 low precision 연산을 딥러닝 학습에 지원하고 있는데, PyTor..
NeurIPS 2019에서 소개된 자료 [1]은 딥러닝 가속기에 대하여 잘 정리해 놓았는데 특히 어떤 기준으로 딥러닝 가속기가 효율적인지를 평가할 수 있는 지, 그 척도에 대하여 잘 정리하여 제안한다. 성능 평가 척도는 그것의 주사용 목적, 앞으로의 챌린지, 설계 방향성을 가르쳐준다고 생각하여, 자료 [1]을 바탕으로 딥러닝 가속기의 평가 척도 및 설계 시 고려사항을 정리해보고자 한다. Efficient Processing of DNNs 이 튜토리얼 [1]은 DNN의 효율적인 processing에 대하여 논의하고자 한다. 단순히 빠르게 계산하는 것이 아닌, 좀 더 실사용에 효율적인 계산을 목표로 무엇이 고려되어야 하는 지에 대하여 정리하였다. 빠른 계산은 매우 중요한 processing의 평가 척도이다...
Tensor core는 NVIDIA GPU volta architecture(2018)부터 등장한 Matrix multiply-accumulate (MMA) 연산을 지원하기 위한 specialized computing unit이다. 다양한 NPU(Google의 Tensor Processing Unit 등)들과 같이, 딥러닝이 대세가 되고 matrix-multiplication이 많은 애플리케이션에서 주요한 성능 병목이 되면서 NVIDIA가 GPU에도 탑재한 것으로 생각된다. 이번 포스트에서는 다음 논문을 읽고 Tensor core에 대하여 정리해보고자 한다. Programmability와 성능, 한계 등에 대하여 매우 자세히 분석해놓은 논문이다. Markidis, Stefano & Chien, Steve..