인스피치2023 '초차원 공간에서의 대화 텍스트의 비지도 방식 주제 분류 방법‘, ALC2023 라벨링 문제를 해결하기 위한 ‘유사 라벨링’기법 제시, ICASSP 2023 생성 AI를 통해 VQA(Visual Question and Answering) 모델의 학습 프로세스 혁신 등 멀티모달 AI 전문 스타트업 ㈜액션파워(공동대표 조홍식·이지화)이 스타트업임에도 불구하고 자사 연구팀이 인공지능(AI) 분야 글로벌 최고학회에 연이어 채택, 인공지능 기술력을 갖췄음을 확인했다. 액션파워 연구팀은 오는 6월 4일부터 10일까지 그리스 로도스 섬에서 열리는 IEEE 음향, 음성 및 신호 처리국제회의(ICASSP 2023)와 7월 9일부터 14일까지 캐나다 토론토에서 열리는 ACL 2023(컴퓨터언어학협회), 8월 20일부터 24일까지 아일랜드 더블린에서 개최되는 세계 최고 권위의 학회인 INTERSPEECH 2023(음성신호처리학회)에 연이어 채택된 것이다. 특히, INTERSPEECH(인스피치)와 ICASSP(International Conference on Acoustics, Speech, and Signal Processing)는 매년 수천명의 세계적인 AI 전문가들이 최신 연구 성과를 공유하는 음성∙음향∙신호처리 분야의 세계 최대 국제학회다. 또 올해 61년째인 ACL(Association for Computational Linguistics)은 자연어처리(NLP) 등 컴퓨터 과학 전문가들이 최신 연구와 기술에 대해 공유하는 세계적인 학술대회다. 액션파워는 인공지능 지식관리 앱 ‘다글로’를 중심으로, 국내 최고 수준의 NLP, ASR 원천 기술 연구와 서비스 개발을 동시에 추구해왔다. 최근 비전 분야로 영역을 넓히면서, 지난 3년간 INTERSPEECH를 포함한 해외 최고권위 학회에 7편의 논문을 발표해왔으며, 연구 내용으로 기반으로 국내 특허 21개, 해외 특허 2개를 보유하고 있으며, 출원중인 특허도 국내 18건, 해외 11건으로 기술 기업으로서의 핵심 경쟁력을 빠르게 강화하고 있다. 이번 연구는 자연어처리와 이미지 처리의 수준을 높이고 학습 과정의 효율을 크게 개선했다는 점에서 또 한 번의 성장 모멘텀을 확보한 것으로 볼 수 있다. 이런 연구 결과들은 다글로 뿐 아니라 앞으로 B2C, B2B로 제공할 여러 분야의 혁신적인 서비스로 이어질 것으로 기대된다. 먼저 박성민 NLP 리서치팀장은 올 해 두 개의 자연어처리 관련 논문을 발표했다. INTERSPEECH 2023에는 '초차원 공간에서의 대화 텍스트의 비지도 방식 주제 분류 방법(Unsupervised Dialogue Topic Segmentation in Hyperdimensional Space)'란 제목으로 문장의 유사성을 판단하고 구분하는 프로세스를 기존 대비 10배 빠르게 수행할 수 있는 연구결과를 발표했다. 장문의 텍스트를 문장별로 분석해서 문단을 구분하는 ‘topic segmentation’분야의 작동방식을 혁신한 성과다. 기존 topic segmentation 방식에 ‘hyperdimensional vector(초차원 벡터, 1만 차원 이상의 벡터값 사용)’를 적용하여 각 문장에 고유한 특성을 부여하여 명확히 구분하게 되므로, 결과적으로 언어모델이 생성하는 글의 가독성과 정확성을 높이는 과정의 효율을 크게 개선할 수 있게 된다. ACL 2023에는 '극도로 정답이 부족한 환경에서의 태스크간 지식 전달을 통한 텍스트 분류 방법(Cross-task Knowledge Transfer for Extremely Weakly Supervised Text Classification)'란 제목으로 텍스트 데이터에 자동으로 주제를 표시하는 기술을 발표했다. 텍스트를 머신러닝에 사용하기 위해서는 글이 어떤 분야에 관한 것인지에 대한 정답 데이터를 표시하는 라벨링 작업이 필요한데, 셀 수 없이 많은 글에 일일이 라벨링할 수 없다는 문제를 해결하기 위해 ‘Pseudo-labeling’기법을 개발했다. 이 방식은, 문단의 마지막이나 글의 마지막에 ‘이 글은 00에 대한 글이다’라는 문장을 추가하고, 실제 내용과 추가한 문장의 설명이 자연스럽게 연결되면 해당 글에 ‘00에 대한 글’로 labeling하는 것이다. 이 역시 머신러닝의 속도를 대폭 개선할 수 있는 연구 결과다. 또한 김경호 NLP 담당 연구원은 ICASSP 2023에서는 'VQA를 위해 필요한 모든 것, 이미지 생성(IMAGE GENERATION IS MAY ALL YOU NEED FOR VQA)'란 제목으로 생성 AI를 통해 VQA(Visual Question and Answering) 모델의 학습 프로세스를 혁신하는 연구결과를 제시했다. VQA 모델의 학습을 위해서는 이미지, 이미지에 대한 질문, 질문에 대한 답이 필요하다. 이때 질문과 답은 비교적 쉽게 만들 수 있지만 보통 이미지 데이터 확보가 어렵다. 이번 연구는, 질문과 정답을 프롬프트로 사용해서 여러 개의 이미지를 생성함으로써 원본뿐 아니라 수많은 이미지 데이터를 학습에 입력하는 방법을 고안한 것이다. 이 방법은 이미지 데이터에 관련된 인공지능의 발전 속도를 크게 높일 수 있다. 이지화 액션파워 공동대표 겸 CTO는 “우리는 자체 개발한 기술을 기반으로 서비스를 만드는 회사로서, 앞으로도 일상의 혁신을 경험하게 할 수 있는 서비스를 제공하기 위해 최고 수준의 인재를 모으고 연구의 수준을 높이는 데에 지속적으로 투자할 계획”이라고 의지를 밝혔다.