AI 작업 효율 높이는 '이종 가속 컴퓨팅' 재조명

마이크로프로세서를 사용한 현재의 컴퓨터 구조가 정착된 이후, 지금까지 수십 년간 컴퓨터의 성능 향상을 위한 길에는 다양한 난관과 전환점이 있었다. 이러한 전환점 중에서 가장 큰 영향을 준 계기로는 중앙처리장치(CPU)가 처리하기에는 아주 생소한 유형이었던 '3D 그래픽'을 전문적으로 처리하기 위한 '그래픽처리장치(GPU)'의 등장을 꼽을 수 있겠다. 3D 그래픽 처리가 모든 PC 환경에 기본이 되면서, GPU 또한 이제 모든 PC에 어떤 형태로든 기본이 됐다.

앞으로 펼쳐질 '인공지능(AI) PC' 시대 또한 PC에는 새로운 변화에 대한 도전의 계기가 될 것으로 보인다. 컴퓨팅 환경의 중심에는 모든 작업을 할 수 있는 범용 'CPU'가 있겠지만, 이 CPU는 모든 작업에 적합하지는 않다. 이에 3D 그래픽 시대에 이를 위한 'GPU'가 당연하게 자리잡은 것처럼, AI 시대 또한 AI 작업을 위한 전용 '가속기'가 등장할 것으로 보인다. 이미 인텔과 AMD 등이 선보인 최신 프로세서에는 이런 목적의 '신경망처리장치(NPU)'가 탑재됐다.

현재는 PC에서 AI 작업을 수행하기 위해 CPU와 함께 범용 연산이 가능한 GPU를 주로 사용한다. 하지만 PC 환경에서 사용 가능한 'NPU'의 등장은 이러한 기존 구도를 상당 부분 바꿀 것으로도 기대된다. 특히 AI 관련 작업을 낮은 전력소비량으로 처리할 수 있는 NPU의 활용은 GPU에서 AI를 사용할 때 나타나는 높은 전력 소비량의 문제를 해결할 수 있다. 앞으로의 관건은 다양한 하드웨어를 아우를 수 있는 공통 생태계의 구성에 달려 있다.

인텔 '코어 울트라'는 이제 '이종 가속 컴퓨팅' 환경이 기본이다. / 권용만 기자

◇ AI PC 시대, CPU·GPU·NPU 모두 활용하는 '이종 가속 컴퓨팅' 환경

현재의 컴퓨터 구조에서 CPU는 모든 작업을 다룰 수 있지만, 모든 작업에서 빠르지는 않다. 이런 특징을 극단적으로 보여주는 영역이 '3D 그래픽'이다. 최신 게임들의 그래픽 성능에서 그래픽카드의 영향은 절대적이다. 이렇게 CPU만으로 처리하기에는 적합치 않은 유형의 연산을 빠르게 처리하기 위한 대안은 특정 유형의 연산에 최적화된 '가속기'를 사용하는 것이다. 경우에 따라서는 CPU만으로 처리하는 것보다 수십 배의 성능과 효율을 얻을 수 있다.

사실 현재의 PC에도 여러 '가속기'가 활용되고 있다. 가장 대표적인 것은 3D 그래픽 처리를 위한 'GPU'다. 대략 2010년대 이후의 GPU는 일정 부분 범용 연산을 처리할 수 있는 능력을 갖추고 있으며, 엔비디아는 이러한 GPU 기반 연산 환경에서 가장 앞서 있다는 평을 받고 있다. 이 외에도 영상 콘텐츠의 감상과 제작에도 별도의 가속기가 활용되는데, 이를 활용해 CPU의 부담을 줄이면서 실질적인 작업 성능을 크게 높였다.

얼마 전까지만 해도 PC에서 AI 기술을 활용하는 데 있어 'GPU'의 영향은 절대적이었다. GPU는 범용 연산에 활용함에 있어 CPU보다는 구조가 단순하고, 다룰 수 있는 작업의 범용성에 한계가 있다. 하지만, 비교적 단순한 반복 연산의 병렬 처리 확장성에서 아주 뛰어난 특징을 보인다. 일반적으로 CPU는 스칼라(Scalar) 연산에 유리하지만 GPU는 '벡터(Vector)'와 '행렬(Matrix)'에 유리한 특징을 갖춘 것으로 알려졌다.

지금까지 AI 기술은 매우 빠르게 바뀌어 왔고, GPU는 이러한 빠른 변화에 대응 가능한 유연함과 적절한 성능의 균형으로 AI 워크로드 처리에 큰 인기를 얻어 왔다. 하지만 효율 측면에서는 작업 유형의 폭을 예상할 수 있다면 이에 맞춘 전용 '가속기'가 GPU보다 더 높은 성능과 효율을 충분히 제공할 수 있다. 이미 데이터센터 영역에서는 이를 위한 가속기들이 다수 등장한 상태다. 그리고, 이제 인텔의 '코어 울트라', AMD의 '라이젠 7040/8040 시리즈' 프로세서에도 AI 워크로드를 위한 가속기인 'NPU'가 기본 탑재되며, 복잡성은 더 높아졌다.

인텔의 '코어 울트라'에 탑재된 'AI 부스트' NPU는 인텔이 2016년 탑재한 모비디우스의 3세대 비전처리장치(VPU) 기반이며, AMD의 '라이젠 7040/8040′에 탑재된 '라이젠 AI' NPU는 AMD가 2022년 합병을 완료한 자일링스(Xilinx)의 XDNA 아키텍처를 기반으로 한다. 두 NPU 모두 프로세서에 내장돼 있고, AI 워크로드에 많이 활용되는 행렬 연산을 빠르게 처리할 수 있는 것이 특징이다. 또한 이 NPU는 제품의 특징과 규모 측면에서 프로세서 내부에 탑재돼 '추론'에 집중하는 점도 공통점이다.

인텔과 AMD는 'AI PC'로의 방향성에 대해서는 확신을 가진 모습이다. PC에서 AI를 활용하는 방법도 지금은 클라우드에서 서비스 형태로 결과를 받아오지만, 앞으로는 모델을 로컬 PC에 탑재하고 추론을 수행하는 경우가 많아질 것이라고 전망한다. 이 때 GPU를 사용하는 경우 성능은 높지만 전력 효율이 크게 떨어지는데, NPU를 사용하면 GPU 대비 손색 없는 성능에 뛰어난 에너지 효율을 얻을 수 있다.

하지만 현재의 NPU가 기존의 GPU 대비 압도적인 결과를 가져다 주는 것은 아니다. 인텔 코어 울트라의 'AI 부스트', AMD 라이젠 7040 시리즈의 '라이젠 AI' 모두 이론적인 최대 연산 성능은 10TOPS(Tera operations per second)고, 라이젠 8040 시리즈의 NPU 성능은 16TOPS로 높아진 정도다. 실제 테스트에서도 NPU만 사용하는 경우는 프로세서 내장 GPU를 사용하는 것보다는 성능이 떨어진다. 하지만 CPU와 GPU, NPU를 모두 적절히 사용하면 전력 소비 부담 없이 GPU급 연산 성능을 얻을 수 있다는 '효율' 측면을 주목해야 한다.

앞으로의 'AI PC' 시대에는 여러 가지 아키텍처의 CPU와 GPU, NPU 등이 모두 적절한 형태로 활용되는 '이종 가속 컴퓨팅'의 중요성이 더 높아질 것으로 기대된다.

특히 AI 작업에서, CPU는 단순하지만 빠른 반응이 필요한 작업에, GPU는 대규모의 처리량이 필요한 환경에 주로 배치되고, NPU는 오랜 시간 지속되는 가벼운 반복 작업 등에서 효과적으로 활용될 수 있을 것으로 기대된다. 작업 형식에 적절한 하드웨어를 활용해 시스템 수준의 성능을 끌어올리는 것은 '이종 가속 컴퓨팅'의 궁극적인 지향점이기도 하다.

한편, 2024년 기준 양 사 모두 NPU를 탑재한 제품은 노트북 등 '모바일'에 우선 투입한 점도 공통적이다. 이는 데스크톱 PC가 노트북 PC 대비 전력 소비에 대한 부담이 적고, 더 높은 성능의 GPU를 보편적으로 장착하고 있다는 점을 고려한 것으로 보인다. 이와 함께, 현실적으로는 현재 양 사의 데스크톱 프로세서들이 기술적으로는 '이전 세대' 구성이라는 점도 있다. 양 사 모두, 아키텍처가 크게 바뀔 차세대 프로세서에서는 데스크톱 프로세서에서도 NPU가 기본 탑재될 가능성이 충분하다.

인텔 '코어 울트라' 탑재 PC에서 CPU·GPU·NPU를 모두 활용하는 '스테이블 디퓨전' 구동 장면 / 권용만 기자

◇ NPU 가치 높이는 소프트웨어 지원 전략 중요해져

NPU 탑재 프로세서의 보급과 활용 전략은 양 사의 입장이 조금은 다르다. AMD는 NPU가 탑재된 하드웨어를 우선 보급하고, 이를 기반으로 개발자들을 끌어들이겠다는 전략이다. PC를 위한 x86 CPU에서 NPU를 가장 먼저 탑재한 제품은 2023년 5월 발표한 AMD의 라이젠 7040 시리즈이지만, 출시 당시에는 개발자들을 위한 도구와 프레임워크 등이 제대로 준비되지 않은 상황이었다. 같은해 12월에야 개발자 도구를 공식적으로 선보였다.

인텔은 출시와 함께 대대적인 지원으로 NPU 활용을 극대화한다는 적극적인 전략을 선보였다. 인텔은 PC에서의 NPU 활용 극대화를 위한 'AI PC 가속 프로그램'의 출범을 발표한 바 있다. 이 프로그램의 핵심은 100개 이상의 소프트웨어 개발사와 협력해, 300개 이상의 프로그램에서 AI 가속 기능을 활용할 수 있게 지원한다는 것이다. 인텔은 앞으로 2년 동안 전용 AI 가속기를 탑재한 클라이언트 프로세서 1억 개를 공급할 계획이다.

한편, 인텔과 AMD 모두, 현재의 NPU를 확장하는 등으로 독립적인 카드 형태의 가속기를 만들 계획은 없는 것으로 보인다. 데이비드 맥아피(David McAfee) AMD 클라이언트 채널 사업부 총괄 부사장은 "라이젠 AI 가속기를 별도로 분리하면 기존에는 시스템온칩(SoC) 내에서 공유하던 인프라를 모두 따로 마련해야 하고, 복잡성이 높아진다"고 밝힌 바 있다. 또한 양 사 모두 프로세서 내장 NPU 이외에도 데이터센터의 AI를 위한 가속기 포트폴리오를 별도로 갖추고 있다.

여러 가지 유형의 가속기를 함께 활용하는 '이종 가속 컴퓨팅' 환경의 성공 여부는 복잡한 환경을 쉽게 활용할 수 있게 돕는 '소프트웨어'에 달려 있다. 이 부분에서 하드웨어 제조사들의 과제는 다양한 유형의 하드웨어를 어떻게 쉽게, 효율적으로 사용할 수 있는 방법을 제공할 수 있는지다. 특히 표준화된 방법으로 여러 유형의 하드웨어를 다룰 수 있게 하는 방법을 제공하는 것이 중요해졌다.

애플리케이션들이 새로운 유형의 하드웨어를 활용하는 기본적인 방법은 하드웨어 제조사가 소프트웨어 개발사를 직접 지원하는 것이다. 이 부분에서, 인텔과 AMD 모두 PC에서 NPU를 활용하는 방법으로 가장 먼저 꼽는 것은 윈도11의 '윈도 스튜디오 이펙트'다. 또한 AMD는 이미 어도비의 포토샵이나 프리미어 프로, 라이트룸, 블랙매직의 다빈치 리졸브 등에서 AI 기반 기능들이 '라이젠 AI'를 활용할 수 있다고 소개한 바 있다.

좀 더 범용적으로는 '플랫폼'으로의 접근 방법이 있다. 이 부분에서는 인텔과 AMD 모두 NPU 활용에 오픈소스 기반의 'ONNX'를 주목하고 있다. 이와 함께 업계 표준으로 자리잡은 '파이토치(PyTorch)'나 '텐서플로우(TensorFlow)' 코드를 NPU에서 적절하게 활용할 수 있게 해, 개발자들이 좀 더 손쉽게 NPU를 활용할 수 있게 지원한다는 것이 주된 방향이다. 인텔의 경우는 '오픈비노(OpenVINO)'를 통해, 애플리케이션이 시스템의 CPU와 GPU, NPU를 가장 적절히 활용할 수 있게 돕는다.

윈도 기반 PC 환경에서는 '윈도ML' 또한 잠재력 높은, 주목할 만한 플랫폼이다. 이 환경의 장점은 각 장치들이 장치 드라이버를 통해 프레임워크와 표준화된 방법으로 연결되기 때문에 개발자들이 다양한 특성을 가진 하드웨어에 직접 접근할 필요가 없다는 것이다. 이는 초기 3D 그래픽 시장에서 '다이렉트X(DirectX)'가 처음 등장하던 시기를 떠올리게도 한다. 아직 성능 등에서 해결해야 할 문제가 많지만, 큰 잠재력을 갖춘 플랫폼으로 꼽을 수 있겠다.

IT조선 권용만 기자 yongman.kwon@chosunbiz.com