일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- C++
- 양자역학의공준
- cloud
- 반도체
- flash_memory
- Qubit
- 쿠버네티스
- convolution
- jhVM
- jhDNN
- nvidia
- kubernetes
- FPGA
- 딥러닝
- dnn
- quantum_computing
- Semiconductor
- sycl
- SpMM
- CuDNN
- stl
- CUDA
- POD
- HA
- deep_learning
- 반도체기초
- DRAM
- GPU
- 클라우드
- Compression
- Today
- Total
목록pytorch (2)
Computing
이전 글 2022.04.21 - [Deep Learning/Optimization (Hardware)] - PyTorch AMP - 1 : Mixed Precision Training 논문 리뷰 이전 글에서 mixed precision learning의 기본 개념에 대하여 정리하였다. Mixed precision learning은 필요에 따라 FP16 연산 혹은 FP32 연산을 혼합하여 모델 학습을 진행하는 것으로 단순히 FP32 연산만을 사용하여 모델 학습하는 것에 비해 메모리 사용 감소, 에너지 사용 감소, 계산 속도 향상의 장점이 있다. 특히 이전 글에서 소개한 논문 "Mixed Precision Learning[4]"에서는 mixed precision learning시에도 FP32 연산만 사용한 ..
PyTorch AMP 최근 발표되는 Tensor core(https://computing-jhson.tistory.com/10)와 같은 딥러닝 하드웨어에서는 기존의 single precision floating point(FP32) data type이 아닌, half precision floating point(FP16) data type과 같은 좀 더 적은 개수의 bits를 사용하는 데이터 타입을 이용해 layer weights, tensor 등의 데이터를 표현하고 있다. 이를 통해 메모리 사용량 및 데이터 전송량을 줄이면서, 회로를 최적화하여 딥러닝 학습 및 추론 속도를 향상을 달성하고 있다. 많은 딥러닝 프레임워크에서 이러한 low precision 연산을 딥러닝 학습에 지원하고 있는데, PyTor..