AI가 멈추는 진짜 이유: 프로세서가 아니라 ‘도로’가 막혔다

hyperscale datacenter server rack blue light cables

2023년 봄, 챗GPT가 전 세계를 흔들고 나서 마이크로소프트가 처음으로 꺼낸 공개 발언이 있다.

**“데이터센터에 전기가 부족하다는 것”**이었다.

AI 열풍이 불면서 갑자기 전기를 더 쓰게 된 게 아니었다. 문제는 훨씬 더 오래되고, 훨씬 더 근본적이었다.

전 세계 데이터센터가 소비하는 전력의 30~40퍼센트는 계산에 쓰이지 않는다.

데이터를 메모리에서 프로세서로, 프로세서에서 메모리로 옮기는 과정 — 이동 자체에 소모된다.

수백조 원짜리 AI 시스템이, 실제로는 절반 가까운 시간을 기다리는 데 쓰고 있다.

강력한 엔진을 가진 자동차가 교통 체증에 갇혀 있는 상황이다.

문제는 엔진이 아니다. 도로가 막혀 있다.

highway traffic congestion aerial vs free flow

1. 메모리 벽이라는 물리 법칙

반도체 업계 사람들은 이 문제를** ‘메모리 벽(Memory Wall)’**이라고 부른다. 1994년에 처음 이름 붙여진 개념이다.

프로세서 속도는 매년 빠르게 성장하는데, 메모리와 프로세서 사이의 데이터 전송 속도는 그 속도를 따라잡지 못한다는 물리적 한계를 가리킨다. -> 30년이 지났다. 벽은 사라지지 않았다. 오히려 더 높아졌다.

엔비디아의 H100 GPU가 처리할 수 있는 연산량은 초당 수천 조 번에 달한다.

그런데 이 GPU가 실제로 추론 작업을 수행할 때 — 사용자가 “이 문장 다음에 뭐가 올까?“를 물어볼 때 — 연산 장치 자체가 놀고 있는 시간이 전체의 절반을 넘기는 경우가 있다. **<데이터가 오기를 기다리는 시간>**이다.

왜 이런 일이 벌어지는가. 현재 서버의 주력 메모리인 DDR5의 구조를 들여다보면 답이 있다.

DDR5 데이터 버스는 편도 1차선이다. 읽기(Read)와 쓰기(Write)가 같은 물리 선로를 공유한다.

데이터가 메모리에서 나오고 있는 동안 다른 데이터가 들어갈 수 없다.

방향이 바뀔 때마다 신호가 안정화되길 기다려야 한다.

이 대기 시간을 ‘방향 전환 패널티(Bus Turnaround Penalty)‘라고 부른다.

매 전환마다 약 15~~20클록 사이클, 물리적으로는 11~~15나노초가 소요된다.

나노초? 그게 얼마나 큰 시간인가.

ChatGPT에 질문을 입력하면 응답이 단어 단위로 흘러나온다.

그 단어 하나가 생성되는 동안, GPU는 수억 번의 메모리 읽기와 쓰기를 반복한다.

방향이 바뀔 때마다 기다린다. 수억 번 기다린다. 작은 손실이 수억 번 쌓이면 작은 손실이 아니다.

문제는 이게 성능 저하로만 끝나지 않는다는 것이다.

기다리는 동안에도 메모리 버스에는 전기가 흐른다.

데이터를 보내지 않으면서도 회로의 기생 커패시턴스를 충전하고 방전하며 전기를 태운다.

AI가 생각하는 동안, 전력은 아무 일도 하지 않으면서 소모된다.

이것이 데이터센터 전력 위기의 실제 구조다.

첨단 AI 연산이 문제가 아니다. 첨단 AI가 ‘기다리는’ 방식이 문제다.

DDR5 RAM module close-up gold pins macro photography

2. 혈관이 막히면 심장은 의미가 없다

인체에는 ‘심장이 강하면 건강하다’는 직관이 있다.

그런데 동맥이 막혀 있다면? 아무리 강한 심장도 혈액을 몸 구석구석에 전달하지 못한다. 심부전은 심장 자체의 문제가 아닐 때가 많다.

컴퓨터 아키텍처도 마찬가지다.

프로세서가 강력해질수록, 데이터를 공급하는 ‘혈관’의 문제가 더 두드러진다. 강한 심장에 비해 혈관이 너무 좁기 때문이다.

이 비유가 단순한 수사가 아닌 이유는, 실제 인체 혈액순환과 데이터 인터커넥트 사이의 작동 원리가 놀랍도록 유사하기 때문이다.

혈액순환에서 핵심은 산소를 조직으로 ‘보내고’ 이산화탄소를 폐로 ‘가져오는’ 두 방향 흐름이 동시에 이루어진다는 것이다.

동맥과 정맥은 완전히 분리된 경로를 사용한다.

그래서 산소 공급과 노폐물 제거가 동시에 진행된다.

만약 동맥과 정맥이 같은 혈관을 공유했다면, 혈액은 방향이 바뀔 때마다 흐름을 멈추고 기다려야 했을 것이다.

DDR5는 그 나쁜 상상 속의 혈관이다.

CXL(Compute Express Link)은 동맥과 정맥을 분리한 구조다.

CXL은 PCIe(PCI Express) 물리 계층을 기반으로 한다.

PCIe는 애초에 데이터를 송신하는 선로(TX)와 수신하는 선로(RX)를 물리적으로 분리한 전이중(Full-Duplex) 방식으로 설계되어 있다. 읽기 데이터는 RX 선로를 타고 흐르는 동안, 쓰기 데이터는 TX 선로를 통해 동시에 전송된다.

방향 전환 패널티가 구조 자체에서 사라진다.

실증 데이터는 이 차이를 수치로 보여준다.

읽기와 쓰기가 절반씩 섞인 혼합 트래픽 환경에서 — 실제 AI 워크로드가 정확히 이 상황이다 — CXL 기반 시스템의 유효 대역폭은 동일한 클록 속도를 가진 DDR5 채널에 비해 55~61퍼센트 향상된다.

물론 CXL에도 비용이 있다.

PCIe 패킷 처리와 외부 컨트롤러를 경유하면서 **신호 지연시간(Latency)**이 늘어난다.

->DDR5가 75~~85나노초인 데 반해, CXL은 130~~200나노초 수준이다. 신호가 도착하는 데 두 배 가까이 시간이 걸린다.

그렇다면 CXL이 더 느린 게 아닌가?

여기서 두 가지 개념을 구분해야 한다.

지연시간(Latency)은 첫 번째 데이터가 도착하는 데 걸리는 시간이다.

대역폭(Bandwidth)은 단위 시간당 얼마나 많은 데이터를 전송할 수 있는가다.

빠른 기차가 자주 오지 않는 것과, 조금 느린 기차가 끊임없이 이어지는 것의 차이다.

GPT-4, LLaMA, Gemini 같은 대형 언어 모델이 추론을 수행할 때 필요한 것은 수천억 개의 매개변수 데이터를 끊임없이 공급받는 것이다.

단발성 반응 속도가 아니라 데이터 공급의 지속성이 성능을 결정한다.

이 환경에서는 지연시간의 손실을 대역폭의 이득이 충분히 보상한다. 혈관이 굵어졌다. 심장이 더 잘 뛸 수 있게 되었다.

human blood circulation system diagram artery vein anatomy illustration

3. 방치된 메모리가 돈이 되는 방법

기술적 개선보다 더 즉각적으로 눈에 들어오는 이야기가 있다. 돈 이야기다.

현재 대형 데이터센터에서 관리자들이 가장 불편하게 여기는 현상 중 하나가 있다.

**‘유휴 메모리(Stranded Memory)’**다. 번역하면 ‘고립된 메모리’, 혹은 ‘방치된 메모리’다.

현재의 서버 구조에서 메모리는 각각의 CPU 노드에 물리적으로 고정되어 있다.

노드 A의 CPU가 바쁘게 일하다가 멈추면, 그 노드에 꽂혀 있는 256기가바이트의 메모리는 아무것도 하지 않으면서 그 자리에 있다.

노드 B가 메모리를 더 필요로 해도, 노드 A의 메모리를 빌려 쓸 방법이 없다. 물리 장벽이 막고 있다.

이 상황을 데이터센터 스케일로 확장하면** 규모가 달라진다**.

수천 대의 서버 중에서 실제 부하가 높은 노드는 전체의 일부다.

나머지 노드들의 메모리 대부분은 방치된 채 전기를 먹으면서 서 있다.

이론상 충분한 메모리 용량이 있는데도, 특정 노드에서 메모리 부족이 발생한다.* 그래서 메모리를 더 산다. 방치된 메모리가 있는 채로.*

CXL 스위치는 이 구조를 해체한다.

CXL 기반 메모리 풀링(Memory Pooling) 아키텍처에서는 물리 메모리들이 가상화 스위치를 통해 하나의 공유 자원 풀로 묶인다.

노드 B가 메모리를 필요로 하면, 풀에서 1기가바이트 단위로 즉시 할당받는다. 

노드 B의 작업이 끝나면, 메모리는 풀로 돌아가 다른 노드가 사용할 수 있게 된다.

이것이 서버 용량 계획에 어떤 의미를 가지는가.

기존 방식에서는 피크 부하를 감당하기 위해 메모리를 ‘과잉 프로비저닝’해야 했다.

실제로 동시에 쓰이지 않더라도, 최악의 상황에 대비해 각 노드에 충분한 메모리를 상시 꽂아두어야 했다.

이*** 과잉분이 바로 방치된 메모리의 정체***다.

CXL 풀링 환경에서는 전체 메모리 자원을 최적으로 활용할 수 있으므로,

같은 워크로드를 처리하기 위해 구매해야 하는** 물리 메모리의 총량이 줄어든다. **

더불어 개별 노드마다 초고밀도 RDIMM을 꽉 채워 넣는 대신, 상대적으로 저렴한 범용 64기가바이트 RDIMM 다수를 CXL PCIe 확장 슬롯에 분산 배치하는 방식으로 구매 단가를 낮출 수 있다.

동일한 가용 메모리를 구축하는 설비 비용이 최대 50퍼센트까지 줄어든다는 실증 데이터가 있다.

운영 비용도 달라진다.

CXL 물리 컨트롤러에는 트래픽 밀도를 마이크로초 단위로 감지하는 전력 관리 회로가 탑재되어 있다.

데이터 흐름이 잦아들면, 링크를 초저전력 상태로 전환한다.

다음 데이터 요청이 오면 나노초 단위로 복구한다.

삼성전자 양산 데이터에 따르면 이 메커니즘으로 메모리 모듈의 유휴 대기 전력을 최대 50퍼센트 이상 절감한다.

더 나아가면 인라인 하드웨어 압축 기술과의 결합이 있다.

ZeroPoint Technologies의 DenseMem 압축 IP를 CXL 3.1 컨트롤러와 같은 다이(Die) 안에 패키징하면, 모든 데이터 압축과 해제가 하드웨어 가속기 단에서 자동으로 이루어진다.

CPU 연산 자원을 1바이트도 사용하지 않으면서, 물리 메모리에 저장되는 데이터를 최대 3대 1 비율로 압축한다.

결과는 역설적으로 들린다.

***메모리 칩의 물리적 개수를 늘리지 않고도, 운영체제가 인식하는 논리적 메모리 크기가 세 배가 된다. ***

실제로 버스를 통과하는 신호 패킷의 크기가 줄어드니, 전송 전력도 한 번 더 낮아진다.

설비투자비, 운영비, 전력비가 동시에 줄어든다. 이것이 CXL이 단순한 성능 규격이 아닌 이유다.

data center technician installing server memory module rack

4. 삼성전자가 먼저 걸어간 길

CXL이 학술 규격 논의에서 실제 제품으로 내려오는 데 선제적으로 움직인 곳이 있다.

삼성전자는 2021년 5월, 업계 최초로 CXL 1.1 기반 CMM-D(CXL Memory Module-DRAM)를 개발했다.

당시만 해도 대부분의 서버 업체가 CXL을 ‘2025년 이후의 기술’로 분류하던 시점이었다. 삼성은 그 전에 이미 실물을 만들었다.

2022년 5월, CXL 2.0 규격을 네이티브로 적용한 2세대 CMM-D 2.0이 양산 단계로 진입했다.

단일 슬롯에서 최대 256기가바이트 용량을 지원하고, 36GB/s의 유효 대역폭을 안정적으로 제공하는 제품이었다.

다음 단계는 CMM-D 3.1이다.

PCIe 6.0 인터페이스를 기반으로 단일 모듈에서 1TB 메모리 공간을 제공하고, 대역폭은 초당 72GB/s에 달한다.

이 수치가 주는 의미는 단순한 숫자가 아니다.

기존 CPU 소켓에 직결된 메모리 채널의 총 대역폭 한계를 단일 CXL 슬롯이 넘어서기 시작한다는 뜻이다.

SK하이닉스는 다른 경로를 택했다.

2026년 3월 글로벌 플래시 서밋에서 차세대 CMM-DDR5 모듈 실물을 공개하면서, 동시에 HMSDK(Heterogeneous Memory Software Development Kit)를 오픈소스로 공개했다. 하드웨어만 팔지 않겠다는 선언이다. ->개발자들이 이기종 메모리 풀을 소프트웨어로 직접 제어할 수 있는 생태계를 먼저 만들겠다는 것이다.

마이크론은 2023년 개발한 CXL 2.0 호환 CZ120 시리즈로 현업 데이터센터 검증 사이클을 통과하며 상용 신뢰성 데이터를 쌓고 있다.

세 회사가 각각 다른 방향에서 같은 산을 오르고 있다.

***엔비디아는 2026년 말 출시 예정인 베라 CPU(Vera CPU)에 CXL 3.1을 기본 탑재한다고 발표했다. ***

***인텔의 5세대 제온과 AMD 에픽 튜린은 이미 CXL 2.0 이상을 지원한다. ***

구글은 전 세계 데이터센터에 CXL 물리 인터커넥트를 적극적으로 배치하는 중이다.

시장이 규격을 기다리던 단계를 지나, 규격이 시장을 만들어가는 단계로 진입했다.

업계 추산에 따르면 글로벌 CXL 시장은 2028년까지 약 158억 달러로 성장할 전망이다. 2024년의 추산치가 12억 달러였다.

4년 만에 13배이다.

semiconductor cleanroom engineer wafer inspection memory chip production

5. 한국이 이 싸움에서 이길 수 있는 이유

CXL이라는 새로운 규격은 기술 지도를 다시 그린다.

기존에 유리했던 것들이 덜 유리해지고, 기존에 불가능했던 진입이 가능해진다.

한국 반도체 산업은 오랫동안 불균형한 구조를 가지고 있었다.

세계 최고 수준의 DRAM 제조 역량을 보유하고 있지만, 핵심 설계 지식재산권(IP)을 창출하는 팹리스 부문, 고부가가치 패키징의 OSAT 영역, 그리고 정밀 검사 장비 분야에서는 글로벌 Top 10에 자국 기업이 이름을 올리기 어려웠다.

DRAM을 잘 만드는 나라였지, 반도체 생태계를 주도하는 나라는 아니었다.

CXL이 이 구조를 흔든다.

새로운 인터커넥트 표준은 새로운 칩이 필요하다.

스위치 칩, 컨트롤러 칩, PHY IP, 검사 장비, 고다층 기판. 이 각 영역에서 한국 기업들이 이례적으로 선도적인 위치를 점하고 있다.

파네시아: 스위치 칩의 세계 첫 번째

카이스트(KAIST) 연구진을 중심으로 창업한 파네시아는

***세계 최초로 포트 기반 라우팅을 완전히 수행하는 CXL 3.2 풀 스펙 싱글 스위치 칩셋을 개발했다. ***

‘PCIe 6.4-CXL 3.2 퓨전 스위치’라는 이름의 이 칩은, 하나의 물리 반도체 안에서 CPU·GPU·가속기·공유 메모리 장치들을 묶어 컴포저블 공유 시스템으로 연결한다.

차별화된 지점은 스위치 홉(Hop)을 경유할 때 발생하는 지연 오버헤드를 두 자릿수 나노초(ns) 미만으로 줄인 것이다.

생성형 AI 추론 과정에서 병목의 원인 중 하나인 KV(키-값) 캐시 처리를 스위치 내부에 하드웨어 가속 회로로 내장했다.

CES 2025에서 최고 혁신상을 수상하고, 시리즈 A 투자로 800억 원을 조달해 누적 기업가치 3,400억 원을 넘어섰다.

글로벌 빅테크들과 실증 평가를 진행 중이다.

semiconductor die close-up circuit pattern macro photography chip

메티스엑스: 메모리 안에서 계산하는 칩

삼성전자와 SK하이닉스의 아키텍처 설계 본부 출신들이 모인 메티스엑스는 다른 방향의 질문을 던졌다.

CPU나 GPU로 데이터를 가져와서 계산하는 대신, 메모리 안에서 직접 계산하면 어떻게 될까?

‘컴퓨테이셔널 메모리(Computational Memory)‘라 불리는 이 개념을 CXL 3.0 아키텍처 위에서 실현했다.

CXL 메모리 모듈의 컨트롤러 칩셋 안에 벡터 연산 엔진과 데이터 압축·필터링 회로를 내장했다.

AI 벡터 유사도 계산이나 RAG(검색 증강 생성) 작업에서 필요한 대규모 데이터 필터링이 메모리 장치 안에서 완료되고, 가공된 결과값만 프로세서로 전달된다.

버스를 왕복하는 데이터의 양이 근본적으로 줄어든다.

-> 프로세서의 발열이 낮아지고, 데이터센터 냉각 비용이 줄어든다.

시리즈 A에서 600억 원을 조달했고 글로벌 클라우드 기업들과 공동 엔지니어링을 진행 중이다.

디노티시아: 벡터 데이터베이스 전용 반도체

생성형 AI에서 RAG(검색 증강 생성)와 장기 기억 구현에 핵심적인 것이 벡터 데이터베이스다.

텍스트, 이미지, 음성을 고차원 수치 벡터로 변환하고 유사도를 계산하는 작업이다.

디노티시아는 이 작업을 전용으로 처리하는 VDPU(Vector Data Processing Unit)를 설계하고, 이를 클라우드에서 제어하는 ‘씨홀스(Seahorse)’ 플랫폼을 상용화 중이다.

VDPU를 CXL 인터커넥트 로직과 완전히 정렬해, 다국적 SoC 제조사 및 기판 설계 업체들을 대상으로 IP 라이선싱 영업을 진행하고 있다.

오픈엣지테크놀로지: IP로 먹히는 회사

직접 칩을 팔지 않으면서도 반도체 생태계의 수혜를 받는 방법이 있다. 설계 자산(IP)을 파는 것이다.

오픈엣지테크놀로지는 온칩 인터커넥트 IP, 메모리 컨트롤러 IP, PHY IP를 글로벌 시장에 공급하는 상장 IP 전문사다.

CXL 기반 컨트롤러 칩셋을 양산하려는 국내외 파운드리 고객들이 필수적으로 라이선싱해야 하는 DDR5 및 LPDDR5X IP를 보유하고 있다.

칩이 만들어질 때마다 로열티가 쌓이는 구조다. 2025~2026년이 그 임계점으로 분석된다.

Korea semiconductor factory aerial view Pyeongtaek Samsung fabrication plant

6. 검사하는 자가 품질을 통제한다

칩을 만드는 것만큼 중요한 것이 있다.

만들어진 칩이 제대로 작동하는지 확인하는 것이다.

새로운 규격이 등장할 때마다 검사 장비 시장도 새로 열린다.

기존 DDR5 검사 장비로는 CXL 모듈을 제대로 검사할 수 없다. 프로토콜이 다르고, 속도가 다르고, 요구하는 테스트 조건이 다르다.

네오셈은 이 공백을 선제적으로 채운 회사다.

2023년, 업계 최초로 CXL 1.1 표준 검사 플랫폼을 상용화했다.

여기서 멈추지 않고 CXL 2.0 규격 대응 고속 고온 번인(Burn-in) 검사 장비의 국산화를 완료해, 삼성전자에 상용 1호 장비를 독점 납품했다.

네오셈의 검사 방식이 차별적인 이유는 동작 조건의 극단성이다.

메모리가 실제로 가동되는 동안, 챔버 내부 온도를 극한으로 올렸다가 극한으로 낮추는 열 스트레스를 연속으로 가하면서 실시간으로 결함을 추적한다.

상온에서 정상적으로 작동하는 칩이 온도 변화에서 오류를 드러내는 경우가 있다. 그 오류를 출하 전에 잡아내는 것이다.

전 세계 반도체 검사 시장은 미국의 테러다인(Teradyne)과 일본의 어드반테스트(Advantest)가 장악하고 있었다. 네오셈은 CXL이라는 새로운 규격에서 이 두 거인보다 먼저 양산 검사 장비를 납품하는 데 성공했다.

엑시콘은 삼성전자 파운드리의 4나노 공정을 적용한 CXL 3.0 특화 메모리 모듈 및 프로토콜 분석 장비 개발에 집중하고 있다.

PCIe 인터페이스 분석 특허를 기반으로, 실리콘밸리에 지사를 설립하며 고객 다변화를 추진 중이다.

**파두(Fadu)**는 CXL 물리 프로토콜과 호환되는 컨트롤러 칩셋과 FPGA 기반 개념 실증 카드의 필드 테스트를 진행 중이다.

퀄리타스반도체는 64GT/s 이상의 속도를 물리 노이즈 없이 전달하는 PCIe 6.0 및 CXL 3.1 호환 PHY 설계 자산을 확보하고, 글로벌 시스템 반도체 업체들과 조기 검증을 수행 중이다.

semiconductor burn-in test equipment automated testing floor electronics

7. 기판이 없으면 칩은 붕 뜬다

반도체 칩은 그 자체로 완성품이 아니다.

기판(Substrate)이라는 토대 위에 올라가야 비로소 작동한다.

CXL 고속 신호는 기판에 특별한 요구를 한다. 64GT/s 이상의 신호가 왜곡 없이 통과하려면 기판 소재와 적층 설계가 일반 서버 기판과는 달라야 한다.

**티엘비(TLB)**는 CXL 모듈용 고주파 동작 무손실 신호 전송층 설계와 차세대 저전력 LPCAMM 전용 모듈 기판 공정 기술을 선도적으로 확보한 회사다.

급증하는 글로벌 수요에 대응해 베트남에 제2공장을 조기 가동하고, AI 제어 자동화 로봇으로 한 자릿수 ppm 수율을 달성했다. 삼성전자와 SK하이닉스의 동시 핵심 협력사다.

대덕전자는 FC-BGA(Flip-Chip Ball Grid Array) 대형 패키징 기판 증설 투자를 완료한 글로벌 톱티어 패키징 보드 제조사다.

미세화되는 범프 접합 밀도와 다층화 트렌드로 인해 제품 단가가 도약하는 구조에서, 기술 장벽이 높아질수록 수혜가 커지는 위치에 있다.

8. 진짜 싸움은 여기서 시작된다

기술이 완성되어 있다고 생각할 수도 있다. 칩도 있고, 스위치도 있고, 검사 장비도 있고, 기판도 있다. 표준도 정해져 있다.

그런데 왜 CXL은 아직도 서버 시장의 주류가 아닌가.

여러 이유가 있지만, 그 중 하나가 뜻밖의 지점에 있다. 소프트웨어 설계 도구의 비용이다.

Synopsys나 Cadence 같은 다국적 기업이 독점하는 EDA(Electronic Design Automation) 소프트웨어는 반도체 설계의 필수 도구다.

라이선스 비용은 연간 수억에서 수십억 원에 달한다.

파네시아, 메티스엑스, 디노티시아 같은 스타트업들이 세계 최초의 기술을 개발해냈다 해도, 다음 세대 칩을 설계하려면 이 소프트웨어를 계속 써야 한다. 유의미한 양산 매출이 나기 전의 스타트업에게 이 비용은 재무적 질식이다.

이 문제는 기술의 문제가 아니다. 구조의 문제다.

과학기술정보통신부와 중소벤처기업부가 지금 해야 할 일이 국책 보조금을 쪼개어 나눠주는 방식이 아닌 이유가 여기에 있다.

***EDA 소프트웨어 조달 비용에 대한 세액공제 한도를 대폭 확대하고, ***

***장기 리스 지원 보증 기금을 상시 운영해야 한다. ***

삼성전자·SK하이닉스 파운드리의 MPW(멀티프로젝트웨이퍼) 슬롯을 국내 강소 팹리스에 우선 할당하는 제도적 장치가 필요하다.

그것이 없으면 세계 최초의 기술을 개발한 팀이 양산 단계에서 외국 자본에 팔리거나, 외국 팹리스에 흡수되는 일이 반복된다.

인류가 AI 인프라를 어떻게 설계할 것인가를 두고 지금 새로운 규칙이 쓰이고 있다.

그 규칙을 쓰는 테이블에 한국 기업들이 앉아 있다. 처음으로.

9. 메모리 벽의 저편

30년 전에 이름 붙여진 문제가 있다고 했다. 메모리 벽.

그 벽을 넘으려는 시도는 계속 있었다. 더 빠른 DRAM을 만들고, 더 많은 채널을 연결하고, 더 고밀도 칩을 적층했다. 그런데 벽은 사라지지 않았다.

아키텍처 자체가 그 벽을 만들고 있었기 때문이다.

CXL은 아키텍처를 바꾸는 시도다. 메모리와 프로세서의 경계를 허물고, 읽기와 쓰기가 동시에 흐를 수 있는 물리 선로를 만들고, 고정된 노드에 묶여 방치되던 메모리를 공유 자원으로 만든다.

이 변화가 완성될 때 어떤 세상이 오는가.

더 빠른 AI가 아니다. 더 적은 전기로 더 많은 AI가 가능한 세상이다.

지금 AI 인프라 확장의 진짜 장벽이 토지가 아니고 전력망이라면 — 그리고 그 전력 낭비의 상당 부분이 데이터가 기다리는 시간에서 온다면 —

CXL이 푸는 문제는 기술 문제가 아니다. 에너지 문제다.

데이터를 더 효율적으로 이동시킬 수 있다면, AI를 더 적은 비용으로 더 많은 사람에게 줄 수 있다.

지금 당신이 쓰고 있는 AI 서비스의 응답 속도와 구독 비용의 일부는, 이 메모리 버스의 방향 전환 패널티에서 오고 있다.

그렇다면 질문이 남는다.

우리는 30년 동안 ‘더 강한 프로세서’를 향해 달려왔다. 벽은 언제나 다른 곳에 있었다. 다음 벽은 어디에 있을까. 그리고 그 벽을 발견하는 데 우리는 또 얼마나 걸릴까.

fiber optic cables light data flow abstract technology blue

참고 문헌

CXL Consortium Technical Working Group. CXL 2.0 및 3.0 사양 표준 백서 (Compute Express Link Specification). Compute Express Link 공식 기술 문서 저장소. 2022–2024.
카이스트(KAIST) 차세대 메모리 시스템 공동 연구소. 차세대 고대역폭 컴퓨팅을 위한 메모리 계층 및 CXL 인터커넥트 성능 분석. 대한민국 학술원 전자공학 회보. 2023.
삼성전자 메모리사업부 신사업전략팀. CMM-D 제품군 기술 로드맵 및 데이터센터 메모리 병목 극복 가치 평가. Samsung Semiconductor 기술 백서 시리즈. 2022–2024.
ZeroPoint Technologies; Rambus 공동 분석 연구진. CXL 메모리 풀링 환경에서의 총소유비용(TCO) 및 전력 효율 모델 분석. IEEE Computer Architecture Letters. 2024.
노근창 외. 한국 시스템 반도체 기업들의 이기종 컴퓨팅 패러다임 선점 분석 보고서. 현대차증권 산업 분석 리포트. 2024–2025.
SK하이닉스 솔루션개발 센터 소프트웨어 연구소. HMSDK 및 헤테로지니어스 아키텍처를 위한 오픈소스 제어 스택 기술 동향. SK Hynix 기술 세미나 발표 자료. 2026.
Wulf, Wm. A.; McKee, Sally A. Hitting the Memory Wall: Implications of the Obvious. ACM SIGARCH Computer Architecture News. 1995.
NVIDIA Corporation. Vera CPU Architecture Overview and CXL Integration Roadmap. NVIDIA GTC Technical Proceedings. 2025.
Intel Corporation. 5th Gen Intel Xeon Processor Platform: CXL 2.0 Implementation Guide. Intel Developer Zone Technical Documentation. 2024.
AMD Corporation. EPYC Turin Architecture: Memory Subsystem and CXL Controller Design. AMD Developer Resources. 2024.
Google Infrastructure. Hyperscale Memory Disaggregation with CXL: Early Deployment Data from Production Workloads. Google Research Technical Report. 2025.
Rambus Inc. PCIe 6.0 Physical Layer Controller for CXL 3.1: Performance and Power Characterization. Rambus Product Technical Documentation. 2024.
파네시아(Panmnesia). PCIe 6.4-CXL 3.2 Fusion Switch: Low-Latency Composable Memory Architecture. CES 2025 Innovation Award Technical Submission. 2025.
메티스엑스(MetisX). Computational Memory Architecture on CXL 3.0: Near-Memory Processing for AI Vector Workloads. Hot Chips Symposium Proceedings. 2025.
네오셈(Neosem). CXL 2.0 Module Burn-in Test Solution: Field Validation Report for Next-Generation Memory Qualification. 반도체 장비 기술 협의회 발표 자료. 2024.