보안뉴스 창간 17주년을 축하합니다!!

Home > 전체기사

ETRI, 문장 입력하면 2초 만에 뚝딱 이미지 만든다

입력 : 2024-01-30 13:41
페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기 네이버 블로그 보내기
초고속 생성형 시각지능 모델 공개, 이미지 생성 모델 3종 및 대화형 시각언어모델 2종

[보안뉴스 박미영 기자] 국내 연구진이 생성형 인공지능과 시각지능 기술을 결합해 문장 입력 시 2초 만에 이미지를 만드는 기술을 일반에 공개한다. 이로써 초고속 생성형 시각지능 연구에 탄력이 붙을 전망이다.

[사진=ETRI]


한국전자통신연구원(ETRI)은 문장을 입력해 이미지를 만드는 데 기존 대비 5배 빠른 ‘코알라(KOALA)’ 3종 모델과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’ 2종 등 총 5종 모델을 일반에 공개한다고 밝혔다.

먼저, ‘코알라(KOALA)’ 모델은 공개SW 모델의 2.56B(25억개) 파라미터를 지식 증류 기법을 적용해 700M(7억개)로 획기적으로 줄였다. 파라미터 수가 크면 연산량이 많아 시간이 오래 걸리고 서비스 운영 비용도 증가한다.

연구진은 모델 크기를 1/3로 축소했고 고해상도 이미지를 기존 대비 2배, 달리(DALL-E) 3 대비 5배가량 빠르게 개선했다.

ETRI는 모델 생성 속도를 2초 내외로 만들고 모델의 크기도 대폭 줄여, 최근 문장(텍스트)에서 이미지를 만드는 국내외 경쟁 속에서 8㎇의 저용량의 메모리를 갖는 저가의 그래픽처리장치(GPU)에서도 구동할 수 있다고 밝혔다. ETRI에서 자체 개발한 파라미터별 ‘코알라(KOALA)’ 3종 모델은 허깅페이스(HuggingFace) 환경에서 공개됐다.

실제로 연구진이 ‘달 아래 화성에서 책을 읽고 있는 우주비행사의 사진’이라는 문장을 입력하자, ETRI가 만든 코알라 700M(7억개)는 1.6초 만에 이미지를 뚝딱 만들어 냈다. 칼로(카카오브레인)는 3.8초, 달리 2(오픈AI)는 12.3초, 달리 3(오픈AI)는 13.7초가 걸렸다.

ETRI는 기존 공개S/W인 스테이블 디퓨전 모델 2종, 기업에서 공개한 BK-SDM, 칼로(Karlo), 달리(DALL-E) 2, 달리(DALL-E) 3의 4종을 포함 총 9개 모델을 직접 비교 체험해 볼 수 있는 사이트 및 모델 제공 사이트를 만들어 공개했다.

연구진은 또한 챗GPT와 같은 대화형 인공지능에 시각지능 기술을 더해 이미지나 비디오를 불러와 한국어로 이미지나 비디오에 관해 질의응답할 수 있는 대화형 시각언어모델인 ‘코라바(Ko-LLaVA)’ 모델도 함께 공개했다.

‘라바(LLaVA)’ 모델은 미국 위스콘신대 매디슨과 ETRI 연구진의 국제공동연구로 개발했다. 인공지능 분야 최우수학회인 뉴립스(NeurIPS 2023)에 발표했고, GPT-4 수준의 이미지 해석 능력을 지닌 오픈소스 라바(LLaVA)를 활용했다.

연구진은 이미지를 포함한 멀티모달 모델의 대안으로 떠오르고 있는 라바 모델을 기반으로 한글을 더욱 잘 이해할 수 있고 기존에 없는 비디오 해석을 할 수 있도록 확장 연구를 진행했다.

아울러 자체 개발한 한국어 기반 소형 언어 이해-생성 모델(KEByT5)도 사전 공개했다. 공개한 모델[330M(Small), 580M(Base), 1.23B(Large)급]은 신조어와 학습되지 않은 단어를 처리할 수 있는 토큰-프리 기술을 적용했다. 학습 속도는 2.7배 이상, 추론에서는 1.4배 이상 강화했다.

연구진은 현재 생성형 인공지능 시장이 문장 위주의 생성형 모델에서 점차 멀티모달 생성형 모델로 변화가 이뤄지고 있으며, 모델의 크기 경쟁에서 점차 작고 효율적인 모델이 출현할 것으로 예상하고 있다.

ETRI가 본 모델을 공개하는 이유는 모델이 크면 수천대의 서버가 필요한데, 모델을 줄여 중소기업 이용을 활성화해 관련 시장 생태계를 조성한다는 취지다.

향후 연구진은 생성형 AI의 대표적인 공개 언어모델에 시각지능 기술이 더해진 한글 크로스모달 모델에 대한 수요가 많을 것으로 예측하고 있다.

연구진은 본 기술의 핵심 특허가 지식 증류 기반 경량화된 스테이블 디퓨전 기술이라고 설명했다. 인공지능을 활용, 지식을 쌓아 작은 모델로 대형 모델의 역할을 수행할 수 있는 기술이다. ETRI는 본 기술을 일반에 공개한 뒤 이미지 생성서비스, 창작교육 서비스, 콘텐츠 제작 및 사업자 등에 기술이전할 계획이다.

ETRI 이용주 시각지능연구실장은 “향후 생성형 인공지능 기술의 다양한 시도를 통해 크기는 작지만, 성능이 뛰어난 다양한 모델을 공개할 계획이다. 글로벌 연구를 통해 기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 인공지능 기술을 효과적으로 활용할 기회를 제공할 예정”이라고 말했다.

미국 위스콘신대 매디슨의 이용재 교수도 “라바(LLaVA) 프로젝트를 총괄하며 GPT-4에 맞서 오픈소스 기반의 시각언어모델 연구를 통해 더 많은 사람이 활용할 수 있는 연구를 진행했다. 향후 ETRI와 국제공동연구를 통해 멀티모달 생성모델에 관한 연구도 지속할 예정”이라고 밝혔다.

연구진은 전 세계 생성형 인공지능에 관한 연구가 문장 입력에서 문장 응답으로 이어지는 유형을 넘어 사진이나 영상을 문장으로 응답해 주는 유형, 문장에서 이미지나 비디오로 응답해 주는 유형에 발맞춰 세계적인 수준의 연구역량을 선뵌다는 계획이다.

ETRI의 본 성과는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 한국어 대형 언어모델 기술개발사업의 일환으로 ‘효율적 사전학습이 가능한 한국어 대형 언어모델 사전학습 기술 개발’ 과제를 통해 수행됐다.
[박미영 기자(mypark@boannews.com)]

<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>

  •  
  • 0
  • 페이스북 보내기 트위터 보내기 네이버 밴드 보내기 카카오 스토리 보내기 네이버 블로그 보내기

  •  SNS에서도 보안뉴스를 받아보세요!! 
 하이젠 파워비즈 23년 11월 16일~2024년 11월 15일까지 아스트론시큐리티 파워비즈 2023년2월23일 시작 위즈디엔에스 2018 넷앤드 파워비즈 진행 2020년1월8일 시작~2021년 1월8일까지
설문조사
3월 15일부터 시행되고 있는 개정 개인정보보호법과 관련해 가장 까다롭고 이행하기 어려운 조항은 무엇인가요?
인공지능(AI) 등 자동화된 결정에 대한 정보주체 권리 구체화
접근권한 관리 등 개인정보 안전성 확보조치 강화 및 고유식별정보 관리실태 정기조사
영향평가 요약본 공개제도 도입 등 개인정보 영향평가제도
영상정보처리기기 및 안전조치 기준
개인정보 보호책임자의 전문성 강화 위한 전문CPO 지정
국외 수집·이전 개인정보 처리방침 공개 등 개인정보 처리방침 평가제도
손해배상책임 의무대상자 변경 및 확대
공공기관 개인정보 보호수준 평가 확대
기타(댓글로)