신경망을 반도체 회로로 직접 새긴다...FPGA에 'KAN' 올려 나노초급 추론·실시간 학습 구현...연구진 "기존 KAN-FPGA보다 2700배 빨라"

발행: 2026년 6월 10일

한 연구진이 FPGA에서 인공지능을 나노초 단위로 구동하는 기술을 선보였다.

[한국정보기술신문] 인공지능(AI) 신경망을 별도의 프로그램이 아니라 반도체 칩 안의 디지털 논리회로로 직접 구현해, 100만분의 1초보다 짧은 시간에 결과를 내놓는 기술이 공개됐다. 미국의 연구자 아루시 굽타(Aarush Gupta)는 6월 7일 자신의 블로그에 석사 학위 논문을 쉽게 풀어 쓴 글을 올리고, 콜모고로프-아놀드 네트워크(KAN)라는 신경망 구조를 FPGA라는 반도체 위에 효율적으로 올리는 방법을 소개했다. 이 연구는 둑 호앙(Duc Hoang)·필립 해리스(Philip Harris) 등과 함께 쓴 두 편의 논문으로, 하나는 올해 FPGA 분야 국제학술대회(FPGA 2026)에서 최우수 논문상을 받았고 다른 하나는 머신러닝 학회(ICML 2026)에 제출됐다. 연구진은 이 방식이 기존의 KAN-FPGA 구현보다 추론 속도를 2700배 끌어올렸다고 밝혔다.

Only a small fraction of basis functions are computed for the KAN activation, compared to dense matmuls for MLPs., aarushgupta.io 제공

GPU로는 안 되는 영역...'나노초' 응답이 필요한 곳

오늘날 대부분의 AI 학습과 추론은 그래픽처리장치(GPU)에서 이뤄진다. GPU는 많은 데이터에 같은 계산을 한꺼번에 처리하는 데 뛰어나, 덩치 큰 모델이나 대량 학습에 적합하다. 추론이란 학습을 마친 모델에 새 데이터를 넣어 답을 얻는 과정을 말한다.

문제는 응답이 극도로 빨라야 하는 분야다. CPU나 GPU 같은 일반 프로세서는 명령을 순서대로 처리하고 메모리를 그때그때 찾아 쓰는 과정에서 시간이 새어 나간다. 그래서 100만분의 1초(마이크로초)보다도 짧은, 10억분의 1초(나노초) 수준의 반응이 필요한 작업에는 맞지 않는다. 연구진은 이런 영역에서는 용도에 맞춰 따로 설계한 전용 하드웨어 가속기가 더 낫다고 설명했다.

여기서 등장하는 것이 FPGA다. FPGA는 내부 회로를 사용자가 원하는 대로 다시 연결해 쓸 수 있는 반도체로, 그 안에는 정해진 입력에 대한 출력값을 미리 적어 둔 표인 '룩업테이블(LUT)'과 상태를 저장하는 소자 등이 들어 있다. 이 부품들을 새로 이어 붙이면 원하는 회로를 직접 만들 수 있다. 연구진은 이 위에서 신경망을 명령어로 실행하는 것이 아니라 디지털 회로 그 자체로 구현한다는 점을 강조했다.

룩업테이블로 신경망을 만든다...핵심은 '활성화 함수'

FPGA가 계산을 처리하는 기본 부품이 바로 룩업테이블이다. 룩업테이블은 가능한 입력마다 그에 대응하는 출력을 미리 저장해 둔 표여서, 어떤 함수든 표 한 장으로 흉내 낼 수 있다. 연구진은 이 표 자체를 신경망의 기본 단위로 학습시키는 방식(LUT 신경망)에 주목했다.

다만 표를 직접 학습시키기는 어렵다. 그래서 연구진은 먼저 실수 구간에서 매끄러운 함수를 학습시킨 뒤, 이를 정해진 자릿수의 2진수로 바꾸는 '양자화'를 거쳐 표로 옮기는 방법을 택했다. 양자화란 끊임없이 이어지는 실수 값을 컴퓨터가 다룰 수 있는 한정된 비트열로 근사해 표현하는 과정으로, 이 과정에서 생기는 오차를 줄이는 것이 효율적인 AI 하드웨어 설계의 관건이다.

이때 핵심 역할을 하는 것이 KAN이다. 기존의 다층 퍼셉트론(MLP) 신경망은 연결마다 곱하는 가중치(숫자)를 두고 정해진 활성화 함수를 거치게 하는데, KAN은 연결마다 '학습되는 함수' 자체를 둔다. 즉, 고정된 함수와 숫자 대신 입력값에 따라 출력을 정하는 함수를 직접 배우는 구조다. 연구진은 바로 이 특성이 룩업테이블과 잘 맞는다고 봤다.

KAN이 FPGA에 잘 맞는 이유...곱셈 폭증 없이 표 한 장으로

여러 LUT 신경망 방식은 여러 입력을 한꺼번에 받는 함수를 표로 만들려다 표의 크기가 입력 개수에 따라 기하급수적으로 불어나는 한계가 있었다. 반면 KAN은 입력 하나만 받는 함수들을 따로 계산한 뒤 단순히 더하는 구조여서 이런 폭증이 일어나지 않는다고 연구진은 설명했다. 덕분에 중요하지 않은 함수를 떼어내 자원을 아끼는 '가지치기'도 쉽다. 또 각 함수가 좁고 한정된 범위 안에서만 정의되기 때문에, 양자화로 표를 만들 때 입력 범위 전체를 빠짐없이 담을 수 있다는 장점도 있다.

연구진은 학습을 마친 KAN의 각 함수를 하나의 룩업테이블로 바꿔 FPGA에 올리고, 여러 함수의 결과를 덧셈 회로로 합치는 방식으로 추론 회로를 구성했다. 첫 번째 논문(KANELÉ)에서는 이 방식이 지연 시간과 자원 사용량 같은 지표에서 기존 최고 수준의 FPGA 신경망 가속기와 견주거나 이를 앞섰으며, 앞선 KAN-FPGA 구현보다 2700배 빠른 속도를 냈다고 밝혔다.

칩 위에서 직접 배운다...실시간 학습까지

두 번째 논문은 한발 더 나아가, 미리 학습한 모델을 올리는 데 그치지 않고 FPGA 위에서 실시간으로 모델을 학습시키는 '온라인 학습'을 다뤘다. 양자 제어나 핵융합 제어처럼 대상의 상태가 시시각각 바뀌는 분야에서는, 추론을 하는 동안에도 모델이 100만분의 1초 안에 스스로를 고쳐야 하는 경우가 있기 때문이다.

그동안 FPGA 위에서 기울기를 계산해 모델을 직접 고치는 학습은 거의 다뤄지지 않았고 사실상 불가능에 가깝다는 인식이 많았다. 데이터를 CPU나 GPU로 보내고 다시 받아 오는 데만도 이미 100만분의 1초가 넘게 걸려, 칩 밖으로 데이터를 내보내는 순간 실시간성을 잃기 때문이다. 연구진은 추론에 쓰던 LUT 기반 KAN의 아이디어를 학습 단계까지 확장하면 이 시간 안에 학습이 가능하다는 점을 보였다.

이를 위해 연구진은 학습이 진행되며 계속 바뀌는 함수 대신, 변하지 않는 기본 함수(B-스플라인)를 표에 저장하는 방식을 썼다. 학습 도중 값이 바뀌는 부분은 미리 계산해 둘 수 없으므로, 고정된 기본 함수만 표에서 찾아 쓰고 변하는 값과 곱해 합치는 구조다. 그리고 이 기본 함수가 가진 두 가지 성질을 활용했다. 하나는 어떤 입력에서도 극히 일부 함수만 작동한다는 '국소성'으로, 이 덕분에 학습에 필요한 회로 규모를 모델의 표현력과 무관하게 작게 유지할 수 있다. 다른 하나는 함수 값의 합이 항상 1로 일정하다는 성질로, 이 때문에 계산 결과와 학습 신호(기울기)가 예측 가능한 범위 안에 머물러 양자화 오차가 줄고 학습이 안정된다.

연구진은 이 방식으로 10만 개가 넘는 매개변수를 가진 모델을 100만분의 1초보다 짧은 시간에 학습·추론할 수 있었으며, 이는 기울기 기반 학습에서 지금까지 이뤄지지 않은 성과라고 설명했다. 또 모델 규모를 키워도 자원 사용량이 거의 늘지 않아, MLP보다 하드웨어 확장성이 뛰어났다고 덧붙였다. 연구진은 함수 근사, 양자컴퓨터의 큐비트 상태 판독, 시시각각 변하는 대상의 제어 등 여러 과제에서 이 방식이 잘 작동했다고 밝혔다. 다만 이 같은 성능 수치는 연구진이 자체 실험으로 제시한 것으로, 다양한 환경에서의 폭넓은 검증은 앞으로의 과제로 남아 있다.

연구진은 KAN의 학습된 함수가 룩업테이블에 자연스럽게 대응되는 점, 그리고 기본 함수의 국소성과 범위 제한이라는 성질이 GPU에서는 살리기 어렵지만 전용 하드웨어에서는 강점이 된다는 점을 들어, 이 분야를 더 깊이 탐구할 필요가 있다고 결론지었다.

한국정보기술신문 반도체분과 이남규 기자 news@kitpa.org

신경망을 반도체 회로로 직접 새긴다...FPGA에 'KAN' 올려 나노초급 추론·실시간 학습 구현...연구진 "기존 KAN-FPGA보다 2700배 빨라"

GPU로는 안 되는 영역...'나노초' 응답이 필요한 곳

룩업테이블로 신경망을 만든다...핵심은 '활성화 함수'

KAN이 FPGA에 잘 맞는 이유...곱셈 폭증 없이 표 한 장으로

칩 위에서 직접 배운다...실시간 학습까지

함께 읽으면 좋은 기사

컴퓨터 비전 라이브러리 'OpenCV 5' 정식 출시...DNN 엔진 새로 짜 ONNX 80% 넘기고 LLM·VLM까지 직접 구동

신경망을 반도체 회로로 직접 새긴다...FPGA에 'KAN' 올려 나노초급 추론·실시간 학습 구현...연구진 "기존 KAN-FPGA보다 2700배 빨라"

독일 법원 "구글 'AI 개요'는 구글 자신의 말"...허위 답변에 직접 책임 묻는다...뮌헨지법, 검색엔진 면책 논리는 AI에 적용 안 돼

구글, '6월 안드로이드 드롭'서 개인화·안전 기능 대거 공개...사칭 전화 경고하고 사진으로 옷장 만들며 아이폰과 파일 주고받는다

한국 정부 'MOIS SSL 루트인증서', 모질라 파이어폭스 신뢰목록 등재 추진...행안부·한국지역정보개발원 2년째 심사, 공개검토 문턱서 모질라 '과거 정부 PKI 이력' 추가 소명 요구...등재 반대 의견도

법무부-경찰청, 스토킹 가해자 '실시간 위치추적·대응 시스템' 구축 착수...법무부 위험경보를 112가 자동 접수·지령, 경찰은 이동 경로 보며 출동

기술평론가 에드 지트론 "AI 산업, 멈추는 순간 무너진다"...2030년까지 연 매출 2조달러 넘겨야 거액 투자 정당화되지만 '둔화 신호'

깃허브, npm v12서 '설치 스크립트 자동 실행' 기본 차단한다...깃·원격 URL 의존성도 기본 차단해 공급망 보안 강화

앤트로픽, 역대 최고 성능 AI 모델 '클로드 페이블 5' 일반 공개...안전장치 더해 6월 9일 출시, 위험 질의는 오푸스 4.8이 대신 응답

서버 한 대로 동시 접속 1만 개, 'C10K 문제'란 무엇인가...epoll과 이벤트 구동 구조가 해법으로, 이제는 C10M 시대

한국정보기술진흥원, 'AI 올림피아드' 6월 13일 온라인 필기시험...중·고등부 나눠 시행, 결과는 15일 발표

애플, WWDC26서 차세대 애플 인텔리전스·시리 AI 종합 공개...자녀 보호 강화하고 6개 운영체제 전반 손질...앱 실행·사진·에어드롭 속도 개선, 개발자 시험 시작·올가을 일반 제공