이지화 액션파워 대표 “음성인식 다음은 동영상 분석…종합 AI 기업 만든다”

인사이트2021-09-03
기사 원문 보기 >
article image

“회의가 끝나고 집에 갈 때 회의 내용이 자동으로 정리돼 메일함에 와 있으면 어떨까. 컴퓨터가 더 부지런히 일하고 그만큼 사람들은 더 여유를 가졌으면 하는 생각에서 출발했습니다.” 인공지능(AI) 기술개발회사 액션파워의 이지화 공동대표 겸 최고기술경영자(CTO)의 ‘다글로’ 출시 배경이다. 다글로는 AI 음성인식 받아쓰기 서비스다. 다글로 웹사이트에 녹음 파일을 업로드하면 AI 받아쓰기 모델이 음성을 텍스트로 자동 전환한다. 액션파워는 지난 2016년 설립 이후 2년 넘게 음성엔진 개발에 힘을 쏟았다. 이후 다글로 서비스를 내놨고 현재 영상회의 자동 받아쓰기 서비스 어텐드(Atend, https://atend.ai)를 개발, 론칭을 앞두고 있다. 다글로의 최대 장점은 정확도다. 음성인식 기술은 이미 대중화돼 있지만 전문 용어를 사용하는 현장에서 최종 문장 구현에 한계가 있었다. 다글로의 받아쓰기 정확도는 95% 수준에 달한다. 녹음 환경이 좋으면 정확도가 98%까지 올라간다. 또 받아쓰기 편집에 특화된 편집기를 제공해 세부적인 내용을 이용자가 스스로 보완해 완성할 수 있다. 편집기 내 수정을 거듭할수록 이용자의 단어 인식률이 높아지는 식이다. 이 대표는 “안타깝지만 아직은 AI가 사람을 뛰어넘지는 못한다. 100% 정확한 받아쓰기는 아니라는 의미”라며 “다글로 편집기를 활용하면 현재 재생 위치를 노래방처럼 파란색으로 표시해주고 단어마다 타임스탬프가 있어서 현재 편집 중인 위치를 즉시 재생해서 들어보는 동시에 수정할 수 있어 만족도가 높다”고 설명했다. 개발 과정이 순탄하지만은 않았다. 서비스 개발 속도를 내기 위해 외부 기술을 도입할지에 대한 고민도 깊었다. 그러나 외부 기술은 정확도가 낮고 운영 비용과 개발 유연성이 떨어지는 한계를 보였다. 이 대표는 “서비스 개발 속도가 늦어져 외부 기술을 도입한 적도 있다. 하지만 이용자 만족도가 낮았다. 조금 늦더라도 자체 기술을 개발해야겠다고 판단했다”면서 “이러한 결정을 잘했다고 생각하는 사례가 있는데 ‘음성인증’ 기술이 대표적”이라고 말했다. 음성인증은 받아쓰기할 때 화자분리 기술이 사용된다. 녹음 파일에서 누가 말한 것인지 분리해주는 기술인데 기반 기술을 확보하고 있어 이를 음성인증에도 유연하게 적용할 수 있었다. 현재 액션파워는 음성인증 기술 상용화를 위해 삼성금융그룹과 함께 개발을 진행하고 있다. 이 대표는 다글로 서비스를 시작으로 액션파워를 종합 AI 회사로 키울 생각이다. 다양한 환경에서 음성인식 정확도를 높이고 영상 분석까지도 AI 기술을 접목하기 위한 연구개발을 진행 중이다. 이 대표는 “동영상에서 음성이 가지는 정보 밀도가 매우 높아 음성인식 기술이 동영상 분석에도 큰 도움이 된다. 동영상을 빅데이터로 내용을 추출하고 검색할 수 있게 하는 연구를 진행하고 있다”며 “이러한 기술을 개량해 동영상 소셜 미디어에 공개된 모든 영상을 대상으로 텍스트화하고 빅데이터로 다뤄보고 싶다”고 전했다.

Editor박효주
actionpower logo