[ETRI 보도자료] ETRI, 국내 최초 슈퍼컴퓨터용 가속기 칩 개발_241028_F.hwp
닫기
Embargo |
- |
|
||||
배포일자 : 2024.10.30.(수) |
배포번호 : 2024-67호 |
|||||
문의 |
인공지능컴퓨팅연구소 |
지능형반도체연구본부장 |
구본태(042-860-1329) |
E-mail : koobt@etri.re.kr |
||
지능형반도체연구본부 |
초거대AI반도체연구실장 |
여준기(042-860-1248) |
E-mail : cglyuh@etri.re.kr |
|||
초성능컴퓨팅연구본부 슈퍼컴퓨팅시스템연구실 |
연구위원(책임연구원) |
한우종(042-860-6670) |
E-mail : woojong.han@etri.re.kr |
|||
대외협력부 |
홍보실장 |
정길호(042-860-0670) |
E-mail : khchong@etri.re.kr |
|||
홍보실 |
행정원 |
이서진(042-860-0635) |
E-mail : seojin@etri.re.kr |
|||
매수 : 보도자료 3매(참고자료 3매, 사진자료 7매, CG자료 1매) |
배포처 : ETRI 홍보실 |
ETRI, 국내 최초 슈퍼컴퓨터용 가속기 칩 개발
- 세계 5번째 슈퍼컴 제조국 물꼬 터....동일 가속기 대비 성능 뛰어나
- NPU와 달리 배정도 정밀연산 가속, 도메인 특화형 가속기 시장 열어
국내 연구진이 슈퍼컴퓨터의 핵심기술인 가속기용 칩을 개발했다. 국내 최초로 만들어진 가속기용 칩은 슈퍼컴의 계산을 빠르게 해주는 역할을 한다. 본 기술이 상용화되면 세계 5번째 슈퍼컴 제조국으로 거듭나는 데 획기적인 전기가 될 전망이다.
한국전자통신연구원(ETRI)은 ‘K-AB21’이라 불리는 시스템온칩(SoC) 형태의 가속기 개발에 성공했다고 밝혔다. 연구진이 개발한 가속기 칩의 크기는 77mm x 67mm이고, 12나노 공정으로 제작되었다.
연구진이 개발한 슈퍼컴퓨터용 가속기에는 범용 프로세서와 64비트 병렬 연산기가 통합, 내장되어 있고, 배정도 부동소숫점(FP64) 연산 병렬처리용으로 8테라플롭스(TFLOPS) 성능을 가진다. 3U 크기 계산노드 1대에는 액체 냉각시스템을 포함한 가속기 칩 2개까지 탑재할 수 있다.
ETRI는 오는 11월, 미국 애틀란타에서 개최되는 세계 최대 규모의 슈퍼컴퓨팅 기술 전시회(SuperComputing24)에 칩을 통합한 계산노드를 전시한다. 이를 통해 개발한 가속기의 기능검증을 시연할 계획이다. 내년 상반기 무렵에는 고성능 컴퓨팅 서버와 SW를 통합해 실증을 추진한다는 방침이다.
현재, 슈퍼컴퓨터를 자체 생산할 수 있는 나라는 미국, 중국, 일본, EU(프랑스) 총 4개 국가다. 각국은 범용가속기를 도입해 연산 성능을 높여가고 있다.
하지만, 범용가속기들이 AI용 저정밀도 연산에 초점을 맞추고 있어 고정밀도 연산이 필요한 전통 슈퍼컴퓨터 응용에서는 사용효율이 떨어진다. AI 추론용 가속기인 신경망처리장치(NPU)는 저정밀도 연산만 지원하다 보니 정확한 과학계산이나 정밀한 엔지니어링 시뮬레이션에는 적합하지 않다.
이에, 연구진은 전통적인 고정밀도 슈퍼컴퓨터 응용을 가속하기 위한 목적으로 핵심기술인 슈퍼컴 가속기 칩(SoC), SW, 계산노드를 자체 개발했다. 가속기 칩 내에는 약 100억 개의 트랜지스터(TR)가 들어가 있는 국내 개발 최대 규모의 초병렬 프로세서(가속기 칩)이다. 일종의 GPU와 같은 셈이다.
칩 내에는 ▲고성능 코어 ▲4천여 개의 병렬 부동소수점 연산기 ▲DDR5, PCIe GEN5 등의 초고속 인터페이스 등이 있다. 그리고 SW는 ▲컴파일러 ▲런타임 ▲디바이스 드라이버 등으로 구성되어 있다.
가속기 시장이 기술분야에 특화되어 다변화(GPGPU, TPU, NPU, IPU 등) 되는 시점에서 ETRI의 슈퍼컴퓨터용 가속기의 개발로 국내기술 확보뿐만 아니라 세계 시장 진출을 노려볼 수 있다고 연구진은 내다봤다.
ETRI 조일연 인공지능컴퓨팅연구소장은 “본 성과는 12나노 동일공정 세계 최고의 제품보다 우수한 것으로 평가된다. 칩부터 시스템에 이르기까지 연구진의 노력으로 만들어진 값진 성과로 향후 우리나라 슈퍼컴퓨터 기반 생태계 조성과 활성화에 큰 도움이 될 것이다”고 설명했다.
사업책임자인 ETRI 슈퍼컴퓨팅시스템연구실 한우종 연구위원도 “글로벌 빅테크들이 독식하고 있는 가속기 시장을 슈퍼컴퓨터 분야에서만큼은 우리 기술로 대체해 독립하겠다. 그동안 외산에 전적으로 의존했던 슈퍼컴퓨팅 시스템을 국내기술로 개발하는 데 도움이 되길 바란다”고 밝혔다.
연구진은 본 연구를 통해 국내·외 특허 29건 출원, SCI 논문 15편, 기술이전 3건 등의 성과를 냈다.
연구진은 특히 본 성과의 기술검증이 끝나고 난 후, 상용화 시 대규모·고성능의 슈퍼컴퓨터의 틈새시장을 공략할 계획이다. 크기와 가격 등에 초점을 맞춰 고객 타겟팅 한다는 방침이다.
연구진은 본 성과를 슈퍼컴퓨터 시스템구축업체와 데이터 센터, 시스템 통합(SI)업체, 냉각업체뿐만 아니라 자율주행자동차, 로봇, 엣지서버, 클라우드 서비스 AI교육 등 관련 업체에 기술이전 할 계획이다.
연구진은 추가 연구개발을 통해 슈퍼컴퓨터를 만들 수 있는 체계로 더욱 고도화하고 관련 산업생태계 조성과 관련 기업 육성하는데 크게 기여하겠다는 계획도 갖고 있다.
ETRI는 이번 성과가 그동안 연구진이 10여년 넘게 개발해 왔던 유전체 분석용 슈퍼컴퓨터 ‘마하’의 노하우와 시스템 소프트웨어 개발능력이 뒷받침되어 성공할 수 있었다고 밝혔다.
정부는 그동안 국가 연구개발 지원을 통해 슈퍼컴퓨팅 핵심기술 확보와 초고성능컴퓨팅 기술의 내재화를 추진해 왔다. 이를 통해 우리나라도 당당히 세계에서 다섯 번째로 슈퍼컴퓨터를 만들 수 있는 기틀을 마련하게 되었다. 글로벌 무대에서 연구진들의 성과가 빛이 날 수 있도록 틈새시장 기술전략으로 기술수출에 적극 지원하겠다는 방침이다.
첨단산업개발 및 과학기술 분야에서 필수적인 슈퍼컴퓨터라는 인프라를 그동안은 외국산에 의존했지만, 본 기술 개발 및 기술독립을 통해 이제는 관련 산업생태계 활성화는 물론, 인력양성 및 공급에도 탄력이 붙을 전망이다.
본 성과는 과학기술정보통신부와 한국연구재단(NRF)의 “초병렬 프로세서 기반 슈퍼컴퓨터 계산노드개발”과제를 통해 개발되었다. ETRI에서 총괄 주관하였으며 한국과학기술정보연구원이 SW개발을 주도하였고, 10여 개 대학 연구실과 2개의 국내 기업이 SW 및 계산노드 개발에 협력했다. <보도자료 본문 끝>
용어설명 |
1) K-AB21 : ETRI에서 개발한 초병렬가속기능을 갖는 시스템 온 칩(SoC)의 코드명 (고유명사)
2) 배정도 부동소수점 : 부동 소수 Floating point numbers, 부동 소수는 실수를 표현하는 방법 중 하나. 고정 소수와 달리 소숫점 자리가 움직인다고 부동 소수라고 부름. 부동 소수는 숫자를 표현(저장)하기 위해 사용하는 비트 수에 따라 반정도, 단정도, 배정도 자료형 등으로 나눌 수 있음(IEEE754 표준). 비트 수를 많이 사용할수록 정밀도가 높음. 배정도 FP64, double-precision: 64 비트 = 8 바이트
3) 테라플롭스(TFLOPS, Tera Floating Point Operations Per Second) : 초당 연산 수행 횟수를 알리는 지표로 테라플롭스는 1초에 1조 번 계산 가능한 수준을 의미/초당 부동소수점 연산(FLOPS, FLoating point OPerations per Second), 테라플롭스는 10의 12제곱, 조를 뜻함. 테라플롭스는 1초에 1조회 연산함을 뜻함
4) 3U크기 : 표준 랙 유닛의 높이를 표시하는 단위로 1U는 1.75인치임. 3U크기란 높이가 5.25인치인 표준 랙 유닛을 의미함
5) DDR5, PCIe GEN5 : DDR5는 제품에 사용되고 있는 가장 최신의 메인메모리용 DRAM 표준으로서 최대 8800MT/s의 전송속도까지 정의되며, 4800MT/s 속도가 널리 채용되고 있다. / PCIe Gen5는 PCI express 표준의 5세대 제품으로서, pin 당 32GT/s의 속도를 제공한다.
6) GPGPU (General Purpose Graphic Processing Unit) : 범용가속기로서 AI처리용, 그래픽 처리용, HPC 처리용 다목적 병렬연산기가 포함된 가속기
7) TPU (Tensor Processing Unit) : 텐서 병렬연산기로서 AI 훈련, 추론에 특화된 가속기
8) NPU (Neural Processing Unit) : 신경망(Neural Network) 연산에 초점을 맞춘 저정밀 병렬연산기로서 AI 추론에 특화된 가속기
9) IPU (Infra Processing Unit) : 데이터 처리 가속에 특화된 가속기
참고1 |
슈퍼컴퓨터 개발 선도사업 |
□ 개요
○ (목적) 초병렬 프로세서 등 핵심원천기술 개발‧실증을 통해 4차 산업혁명 필수 기반시설인 슈퍼컴퓨터의 단계적 독자개발 추진 기틀 마련
○ (기간/예산) '20년~’24년
○ (사업수행체계) 한국연구재단(관리)–ETRI 주관 컨소시엄(수행)
□ 주요 내용
○ 상용 ISA 기반의 슈퍼컴퓨터 계산노드 기술개발
- 초병렬 프로세서(슈퍼컴가속기 SoC)* 프로토타입을 개발하고, 대용량 데이터 처리를 위한
메모리 계층 기술, 칩 간 연결 및 외부 주변장치와 연결기술 개발(1세부-SoC)
* 초병렬 프로세서의 용도가 ‘슈퍼컴가속기’이며, 상용 ISA 기반의 멀티코어와 초병렬 연산기(가속기)가 하나의 다이에 통합된 SoC로 구현됨
- 초병렬 프로세서(슈퍼컴가속기 SoC)의 기능을 활용, 성능을 높이기 위한 소프트웨어(SW)를 개발(2세부)
- 초병렬 프로세서(슈퍼컴가속기 SoC)‧SW 기술을 통합한 계산 노드 및 클러스터 시제품 개발(1세부-노드)
○ 오픈 ISA 기반의 초병렬 프로세서(슈퍼컴가속기 SoC) 코어 기술개발
- 슈퍼컴퓨터를 위한 오픈 ISA* 기반의 초병렬 프로세서(슈퍼컴가속기 SoC) 성능 및 전력 소모 최적화를 위한 코어 칩 설계 기술 개발(3세부)
* 설계가 공개되어 있고, 개발자가 이를 자유롭게 사용·변경할 수 있는 오픈소스 명령어 구조
참고2 |
슈퍼컴퓨터 개발 주요 성과 |
ㅇ 성과 지표 및 달성도(20~24년)
성과지표 |
구분 |
2020 |
2021 |
2022 |
2023 |
2024 |
2024목표치 산출근거 |
측정산식 (또는 측정방법) |
자료수집방법 (또는 자료출처) |
핵심기술 확보 건수 (단위 : 건) |
목표 |
- |
3 |
7 |
11 |
11 |
연구개발계획상 핵심HW 및 SW 연도별 개발 계획에 따라 11개로 설정 |
SW시제품 건수 + HW시제품 건수 |
연구실적보고서 |
실적 |
- |
3 |
7 |
11 |
|||||
달성도 |
- |
100 |
100 |
100 |
ㅇ정량적․정성적 성과(논문, 특허, 기술 사업화건수, 매출액, 고용창출 등 사업특성을 잘 나타낼 수 있는 성과)
- SCI 논문 게재 16건, 비SCI 논문 게재 12건, 특허 출원 35건(국내 28, 국외 7),
기술이전 3건(3.9억/ETRI2건, KISTI 1건), 국제 협력 MOU 체결 1건(ETRI-ATOS/EVIDEN)
ㅇ대표성과
- 국내 최초 초병렬 프로세서(슈퍼컴가속기 SoC) 칩(RISC-V 코어+병렬 매트릭스 연산기)과
SW (컴파일러, 런타임, 디바이스 드라이버)
<AB21 칩>
구분 |
슈퍼컴가속기 SoC(코드명 : K-AB21) |
NVIDIA V100 |
NVIDIA A100 |
NVIDIA H100 |
AMD MI250X |
시기 |
’24.5. |
’17.6. |
’20.5. |
’22.3. |
’21.11. |
성능목표 (단위:TFLOPS) |
8 |
7 |
9.7 |
26 |
47 |
반도체 공정 |
TSMC 12nm |
TSMC 12nm |
TSMC 7nm |
TSMC 4nm |
TSMC 6nm |
※ 동일 공정(12nm) 제품(NVIDIA V100) 보다 우수할 것으로 예상, 미세공정일수록 비용 급상승
- 국내 최초 초병렬 프로세서(슈퍼컴가속기 SoC) 탑재용 고집적 계산노드 프로토타입, 클러스터, 2단계 절연냉각기술
<계산노드> <단일 랙규모 클러스터 > <냉각장치>
참고3 |
K-AB21 반도체 칩 |
반도체 칩 외형 |
사양 |
성능 |
|
(명칭) K-AB21 (크기) 77mm(W)x67mm(H) (동작주파수) 1GHz (시스템코어) ARM Neoverse V1 (자체개발 연산코어) 64비트 범용 프로세서와 FP64/FP32 병렬연산기 통합 구조 (반도체공정) TSMC 12nm |
(연산성능) 8 TFLOPS@FP64 32 TFLOPS@FP32 (소모전력) 350W |