최근 챗지피티나 스테이블 디퓨전 같은 인공지능 모델을 내 컴퓨터에서 직접 구동하려는 사람들이 늘고 있습니다. 이때 컴퓨터 견적을 맞추면서 가장 많이 듣는 조언 중 하나가 바로 그래픽 카드의 브이램 용량이 커야 한다는 것입니다.

아무리 그래픽 처리 속도가 빠른 최신 칩셋이라도 브이램 용량이 부족하면 인공지능 모델을 제대로 실행조차 할 수 없습니다. 이 글에서는 인공지능과 브이램이 도대체 어떤 관계인지 그리고 왜 다다익램이라는 말이 공식처럼 굳어졌는지 알기 쉽게 분석해 봅니다.

VRAM이란 무엇인가

브이램은 비디오 램의 줄임말로 그래픽 카드가 모니터에 화면을 출력하기 위해 사용하는 전용 메모리입니다. 일반적인 피시 게임을 할 때는 고해상도 텍스처나 복잡한 그래픽 효과를 임시로 저장하는 창고 역할을 합니다.

하지만 인공지능 시대가 열리면서 이 창고의 용도는 완전히 바뀌었습니다. 이제 브이램은 거대한 인공지능 뇌 구조를 통째로 올려두고 초고속으로 계산을 수행하는 핵심 작업 공간이 되었습니다.

왜 인공지능은 그토록 많은 VRAM을 요구할까

인공지능 모델이 브이램을 무섭게 집어삼키는 이유는 크게 세 가지로 나눌 수 있습니다.

첫째 파라미터 즉 매개변수 용량입니다. 언어 모델이 똑똑해지려면 수십억에서 수천억 개의 파라미터가 필요합니다. 이 파라미터들은 전부 데이터 덩어리이며 모델이 질문에 답을 하려면 이 거대한 덩어리가 통째로 브이램 위에 올라가 있어야 합니다.

둘째 컨텍스트 윈도우와 단기 기억 장치입니다. 인공지능과 긴 대화를 나누거나 두꺼운 문서를 요약해 달라고 요청할 때 인공지능은 이전 대화 내용을 단기 기억으로 저장합니다. 대화가 길어질수록 이 단기 기억이 차지하는 브이램 용량은 기하급수적으로 늘어납니다.

셋째 이미지 생성 모델의 해상도입니다. 스테이블 디퓨전과 같은 이미지 생성 인공지능은 결과물의 해상도를 높일수록 작업 공간을 훨씬 더 많이 요구합니다. 고해상도 이미지를 생성하다가 오류가 나면서 프로그램이 튕기는 현상은 십중팔구 브이램 부족 때문입니다.

브이램이 부족하면 어떤 일이 발생할까

인공지능 모델의 크기보다 내 그래픽 카드의 브이램 용량이 작다면 아웃 오브 메모리 즉 메모리 부족 오류가 발생하며 프로그램이 즉시 종료됩니다.

최근에는 브이램이 부족할 때 컴퓨터의 일반 시스템 램을 끌어다 쓰는 우회 기술도 사용되고 있습니다. 하지만 일반 램은 그래픽 카드의 램보다 데이터 전송 속도가 수십 배 이상 느리기 때문에 답변을 출력하는 속도가 처참할 정도로 느려져서 쾌적한 실사용이 거의 불가능해집니다.

브이램의 한계를 극복하기 위한 노력들

무작정 비싼 그래픽 카드를 살 수 없는 일반 사용자들을 위해 소프트웨어적인 해결책들도 꾸준히 발전하고 있습니다.

대표적인 기술이 바로 양자화입니다. 인공지능의 파라미터 정밀도를 약간 낮추어 전체 모델의 크기를 획기적으로 줄이는 기술입니다. 이 기술 덕분에 데이터센터에서나 돌아가던 거대 모델을 일반 가정용 컴퓨터에서도 구동할 수 있게 되었습니다.

또한 애플의 실리콘 칩셋처럼 시스템 램과 브이램의 구분을 없앤 통합 메모리 구조도 인공지능 연구자들 사이에서 큰 인기를 끌고 있습니다.

결론

인공지능을 내 컴퓨터에서 다루고자 한다면 그래픽 카드의 연산 속도보다 브이램의 용량을 우선적으로 고려해야 합니다. 인공지능 모델은 앞으로 더욱 영리해지고 방대해질 것이며 이에 따라 브이램의 중요성은 앞으로도 계속해서 커질 전망입니다.