일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 반도체
- HA
- Semiconductor
- 반도체기초
- stl
- convolution
- deep_learning
- POD
- nvidia
- SpMM
- Qubit
- sycl
- Compression
- jhVM
- 클라우드
- CuDNN
- dnn
- flash_memory
- kubernetes
- 양자역학의공준
- DRAM
- 쿠버네티스
- GPU
- cloud
- C++
- jhDNN
- 딥러닝
- CUDA
- quantum_computing
- FPGA
- Today
- Total
목록분류 전체보기 (143)
Computing
이전글 2022.03.29 - [Deep Learning/Optimization (Algorithm)] - Compression - 1 : Overview Pruning 기법 소개 이전글에서 소개한 Pruning 기법에 대하여 PyTorch framework를 통해 구현해 보고, 성능에 대하여 분석해보고자 한다. 많은 컴퓨터공학 전공자들은 Pruning(가지치기)이라는 개념을 tree 자료구조에서 탐색할 노드의 개수를 줄이는 방법에 대해 배울 때 배웠을 것이다. 딥러닝에서도 비슷한 개념으로 Fig 1.과 같이 딥러닝 layer(=graph)의 node(=feature)사이의 edge(=weights)를 제거하여 총 계산할 node(feature)의 개수를 줄이고자 한다. Pruning은 딥러닝 네트워크의..
문제 소개 Matrix transpose는 행렬의 행과 열을 교환하여 새로운 행렬을 얻는 operation[2]이다. 주대각축을 중심으로 반사 대칭을 하는 연산으로 Eq 1.과 같은 특징을 만족한다. Matrix transpose는 더하기, 곱하기와 같은 수 계산이 필요없는 operation으로, 단순히 원하는 위치의 데이터를 읽어와 원하는 위치에 쓰기만 하면 된다. 즉 memory operation이 대부분을 차지한다. Matrix transpose를 병렬화할 경우, matrix의 각 element는 다른 element와 관계 없이 독립적으로 읽고 쓰기가 되기에 쉽게 병렬화할 수 있다. 하나의 work-item은 [i,j]-번째 input 행렬의 element를 읽어와 [j,i]-번째 output 행렬..
Convolution primitive 분석 및 최적화 방법 Convolution primitive는 딥러닝, 특히 computer vision 분야에서 중요한 연산 중 하나이다. 전통적인 computer vision 및 signal processing 영역에서 convolution(or correlation)은 pattern matching에 좋은 연산자이다. 이런 특성이 딥러닝을 이용한 computer vision 분야에서도 활용되는데, convolution layer는 pattern recognition을 통해 이미지 특징(feature)을 추출한다. (locality) Spatially 이웃한 데이터들간의 상관관계를 파악하여 특징을 추출하며, pooling layer와 함께 사용되어 점점 큰 영역..
2022.04.06 - [가속기 Accelerator/Quantum Computing] - 양자컴퓨팅 - 2 : Two Qubits Gate & Tensor Product 이 자료는 김태현 교수님의 양자 컴퓨팅 및 정보의 기초 강의를 바탕으로 정리하였습니다. Quantum circuit 예제 Fig 1.은 quantum circuit의 예제를 보여준다. Quantum circuit은 마치 악보와 같이 가로선이 있고, 그 선에 operation을 그리는(적용하는) 방식으로 작성된다. q0, q1, q2는 각각 qubit를 나타내며(Fig 1.은 3 qubits 회로), c는 digital 신호를 나타낸다. 박스 H, X와 같은 operation은 해당 qubit에 적용되는 operation을 의미하며, o..
이전 글 2022.04.21 - [Deep Learning/Optimization (Hardware)] - PyTorch AMP - 1 : Mixed Precision Training 논문 리뷰 이전 글에서 mixed precision learning의 기본 개념에 대하여 정리하였다. Mixed precision learning은 필요에 따라 FP16 연산 혹은 FP32 연산을 혼합하여 모델 학습을 진행하는 것으로 단순히 FP32 연산만을 사용하여 모델 학습하는 것에 비해 메모리 사용 감소, 에너지 사용 감소, 계산 속도 향상의 장점이 있다. 특히 이전 글에서 소개한 논문 "Mixed Precision Learning[4]"에서는 mixed precision learning시에도 FP32 연산만 사용한 ..
PyTorch AMP 최근 발표되는 Tensor core(https://computing-jhson.tistory.com/10)와 같은 딥러닝 하드웨어에서는 기존의 single precision floating point(FP32) data type이 아닌, half precision floating point(FP16) data type과 같은 좀 더 적은 개수의 bits를 사용하는 데이터 타입을 이용해 layer weights, tensor 등의 데이터를 표현하고 있다. 이를 통해 메모리 사용량 및 데이터 전송량을 줄이면서, 회로를 최적화하여 딥러닝 학습 및 추론 속도를 향상을 달성하고 있다. 많은 딥러닝 프레임워크에서 이러한 low precision 연산을 딥러닝 학습에 지원하고 있는데, PyTor..
NeurIPS 2019에서 소개된 자료 [1]은 딥러닝 가속기에 대하여 잘 정리해 놓았는데 특히 어떤 기준으로 딥러닝 가속기가 효율적인지를 평가할 수 있는 지, 그 척도에 대하여 잘 정리하여 제안한다. 성능 평가 척도는 그것의 주사용 목적, 앞으로의 챌린지, 설계 방향성을 가르쳐준다고 생각하여, 자료 [1]을 바탕으로 딥러닝 가속기의 평가 척도 및 설계 시 고려사항을 정리해보고자 한다. Efficient Processing of DNNs 이 튜토리얼 [1]은 DNN의 효율적인 processing에 대하여 논의하고자 한다. 단순히 빠르게 계산하는 것이 아닌, 좀 더 실사용에 효율적인 계산을 목표로 무엇이 고려되어야 하는 지에 대하여 정리하였다. 빠른 계산은 매우 중요한 processing의 평가 척도이다...
요약 1. 웨이퍼 제조 2. 산화 공정 3. 포토 공정 4. 식각 공정 5. 증착 & 이온 주입 공정 6. 금속배선 공정 7. EDS 공정 8. 패키징 공정 1. 웨이퍼 제조 웨이퍼(Wafer)는 반도체 집적회로가 새겨지는 기판으로 실리콘을 통해 만들어 진다. 실리콘을 녹여서 둥근 기둥 잉곳(Ingot)을 제작하고 이를 얇은 두께로 절단하면, 이것이 웨이퍼 한장이 된다. 절단된 웨이퍼는 매끄럽게 표면 연마 작업을 거쳐 회로가 새겨지는 매끄러운 웨이퍼가 된다. 2. 산화 공정 Oxidation 웨이퍼의 보호막이자 집적회로 사이의 절연막 역할을 하는 산화막(SiO₂)을 웨이퍼 위에 생성하는 공정이다. 식각 공정에서 회로의 모양대로 산화막은 제거되고, 산화막이 제거되어 노출된 웨이퍼 영역에 회로가 새겨진다. ..