반응형

안녕하세요, 리키입니다. 오늘은 GPU 없이도 어떻게 대규모 오픈소스 언어 모델(LLM)을 무료로 구동할 수 있는지에 대한 이야기를 해보려고 합니다.

이런 작업을 하려면 구글에서 제공하는 AI 플랫폼인 카글(Kaggle)을 활용하는 것이 핵심입니다. 카글은 구글이 소유한 AI 플랫폼으로, 사용자들이 AI 모델을 훈련하고 실행할 수 있는 무료 클라우드 환경과 GPU, TPU 하드웨어에 무료로 접근할 수 있게 해줍니다. 이 환경을 이용하면 우리가 원하는 오픈소스 모델을 구동할 수 있게 되는 거죠.

카글의 작동 방식과 하드웨어 활용

카글이 어떻게 작동하는지 설명해 드리겠습니다. 카글에서는 '주피터 노트북(Jupyter notebooks)'이라는 환경을 만드는데, 각 노트북은 독립된 코딩 환경이 됩니다. 여기서 원하는 하드웨어를 설정할 수 있습니다. 예를 들어, 'GPU T4 x2' 시스템을 사용하면 엔비디아 티4(NVIDIA T4) GPU 두 개가 함께 작동하며 총 32GB의 비디오 메모리(VRAM)를 사용할 수 있습니다. 또한, 구형인 P100 GPU(16GB VRAM)도 선택할 수 있습니다. 중요한 점은 이 노트북이 로컬 네트워크가 아닌 구글 데이터 센터 내에서 실행된다는 점입니다. 덕분에 허깅페이스(HuggingFace) 같은 곳에서 모델을 다운로드할 때도 1~2기가바이트/초의 빠른 다운로드 속도를 확보할 수 있어서 큰 모델을 다룰 때 정말 편리하더군요.

컴퓨팅 할당과 안정성

하드웨어 사용 외에 컴퓨팅 할당에 대해서도 알아볼 필요가 있습니다. 카글은 주당 30시간의 무료 GPU 컴퓨팅 시간을 제공합니다. 한 번의 GPU 세션은 할당된 시간이 끝나기 전까지 최대 12시간까지 실행될 수 있지만, 시간이 다 되면 세션이 종료되고 다시 시작해야 합니다. CPU 사용량은 제한 없이 무제한으로 사용할 수 있다는 점도 장점입니다. 구글 코랩(Google Colab)도 단일 티4(T4) GPU를 사용할 수 있게 해주지만, 할당량이 유동적으로 배분되어 있어서 언제 세션이 종료될지 예측하기 어려울 수 있습니다. 반면에 카글은 남은 할당량을 명확하게 표시해주기 때문에 훨씬 더 안정적이고 예측 가능하다고 할 수 있습니다.

실제 모델 구동 과정

결국, 우리는 이 카글 노트북 안에서 AI 모델을 구동하게 됩니다. 모델 자체는 구글 서버에서 처리되지만, 우리는 오픈웹유아이(OpenWebUI) 같은 어떤 프론트엔드 채팅 애플리케이션을 통해서도 이 모델에 접근하고 대화할 수 있게 되는 겁니다. 모든 복잡한 처리 과정은 구글 서버에서 이루어지고, 우리는 우리 기기에서 그 결과를 채팅처럼 볼 수 있게 되는 것이죠. 이렇게 하면 비싼 GPU 없이도 대규모 언어 모델을 무료로 실행하고 활용할 수 있는 길이 열리는 것입니다.


참고 원문: https://www.howtogeek.com/how-i-run-heavy-open-source-llms-for-free-without-a-gpu/

반응형

+ Recent posts