apt update를 하던 중 아래와 같은 오류가 발생하였다. W: An error occurred during the signature verification. The repository is not updated and the previous index files will be used. GPG error: https://nvidia.github.io/nvidia-docker/ubuntu18.04/amd64 InRelease: The following signatures were invalid: EXPKEYSIG 6ED91CA3AC1160CD NVIDIA CORPORATION (Open Source Projects) W: Failed to fetch https://nvidia.github.io/nvi..

GPU가 장착되어 있는 딥러닝 서버를 사용하다 보면 다양한 오류를 보게 된다. 보통은 GPU를 사용하는 프로그램에서 문제가 생기거나 해당 프로그램을 강제 종료하는 등의 사용자 동작으로 인해 문제가 발생하는 경우가 대부분이지만, 이번에 발생한 Failed to initialize NVML: Driver/library version mismatch 문제는 아무 원인이 없었는데도 갑자기 발생하였다. 따라서 문제의 원인을 찾기가 곤란하였다. 놀랍게도 해당 문제의 원인은 ubuntu의 자동 업데이트였는데, 다시 한번 컴퓨터의 복잡함을 느낄 수 있었다. 대부분 서버에서 자동 업데이트 설정을 바꾸지 않는 경우가 많기 때문에 비슷한 문제가 많이 발생할 것으로 생각되어 문제 해결 방법을 공유하여 서버 관리자들에게 도움이..

딥러닝 모델을 학습시키기 위해서는 대량의 데이터와 함께 모델을 학습시킬 수 있는 GPU 장비가 필요하다. 해당 GPU는 일반 게임을 할 때 사용하는 GPU도 물론 가능하지만 되도록이면 CUDNN을 지원하고 GPU 내의 메모리 용량이 큰 GPU가 적합하다. 일반적인 노트북이나 게이밍을 위한 고사양 데스크탑의 경우 이러한 GPU를 장착하지 않은 경우가 많다. 이런 환경에서 딥러닝 모델을 학습하려는 경우 구글 Colab 은 언제든 쉽게 GPU를 사용할 수 있는 환경을 제공하기 때문에 간단한 딥러닝 프로그램을 개발하기에 적합하다. 아래에서 단계별로 어떻게 구글 colab을 사용할 수 있는지 천천히 설명하도록 하겠다. 구글 Colab에서 Jupyter Notebook 생성하기 구글 colab에서 딥러닝 모델을 학..

pytorch 코드를 실행시키다 보면 아래와 같은 CUDA error: no kernel image is available for execution on the device 오류가 발생하는 경우가 있다. 이런 경우 아래의 사이트에서 자신이 사용하는 GPU의 compute capability 버전 숫자를 확인한다. CUDA GPUs Recommended GPU for Developers NVIDIA TITAN RTX NVIDIA TITAN RTX is built for data science, AI research, content creation and general GPU development. Built on the Turing architecture, it features 4608, 576 full-..
pytorch를 사용해서 모델을 개발하다 보면 모델에 문제는 없는데 자꾸 메모리가 꽉 차서 모델 학습이 실패하는 경우가 종종 있다. 이러한 경우 문제가 아주 사소한 부분에서 발생하기 때문에 해결 방법을 찾기가 무척이나 힘들다. 본 문서에서는 본인이 pytorch GPU out-of-memory 문제를 해결했던 방법을 정리하여 pytorch로 모델 개발 중 out-of-memory 문제로 고민하는 사람들에게 도움이 되고자 한다. pytorch GPU out-of-memory문제가 발생하는 원인 Traceback (most recent call last): File "main.py", line 161, in tran_eval.learn(mem) File "/home/admin/Desktop/Model/mod..
pytorch 코드를 짜다 보면 다양한 오류를 만나게 된다. shape 관련한 오류들이 제일 먼저 귀찮게 하며, 해당 오류를 다 정리하고 나면 오류의 수는 줄어들지만 더 까다로운 오류들이 등장한다. 오늘은 그 중에서도 특히 해결하기 힘들었지만 무척이나 간단한 실수였던 Expected object of device type cuda but got device type cpu for argument #2 'weight' 오류를 어떻게 하면 해결하는지 정리하여 해당 오류로 오랫동안 삽질을 하는 사람들에게 도움이 되고자 한다. 해당 오류의 증상 해당 오류는 pytorch에서 모델에 대한 코드를 잘 작성했고, 모델의 입력 tensor가 gpu 상에 위치하고 있음에도 불구하고 발생한다. 본인의 경우 정확히는 아래와..
최근 딥러닝이 대세가 되면서 많은 곳에서 딥러닝 기술을 개발하거나 제품에 적용하고 있다. 딥러닝으로 데이터를 입력하여 출력을 얻기 위해서는 많은 컴퓨팅 자원이 필요하며, 특히 GPU가 대량의 병렬 처리에 유리하여 널리 쓰이고 있다. GPU 중에서도 nvidia 사의 GPU가 제일 많이 쓰인다. nvidia GPU에서 작업을 실행시키거나 다른 작업이 동작하는지 확인하기 위해서는 nvidia-smi 명령어를 사용하여야 한다. 해당 명령어는 GPU의 온도, GPU 사용량, GPU 메모리 사용량, 점유하고 있는 프로세스 등 다양한 GPU 정보를 알려주는데, 가끔 문제가 생기면 "couldn't communicate with the NVIDIA driver" 라는 문구가 뜨며 정보를 확인할 수 없는 경우가 존재한..
- 박스크기
- docker_image
- 신종코로나
- linux zip
- iphone사진다운로드
- 고효율가전제품환급
- tmux설치
- docker_container
- 택배박스
- 구글워드
- linux unzip
- 정승제짱
- 4천원택배
- ubuntu unzip
- windows사진보내기
- 박스가격
- nossvc
- 국가별확진자
- 고효율가전제품
- 코로나19
- tmux활용
- ubuntu zip
- 재수
- itemListElement
- 유화
- 탐색경로오류
- 이미지를텍스트로
- google_search_console
- tmux단축키
- 확진자동선
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |