똑똑한 AI 비서, 음성인식 앱 써보니 [TREND]

매일경제2025-10-20
기사 원문 보기 >
article image

불과 몇 년 전까지만 해도 음성인식은 ‘부정확한 받아쓰기’ 수준에 머물렀다. 말끝이 잘려 나가거나, 이름과 전문용어를 엉뚱하게 인식하는 경우가 허다했다. 하지만 최근에는 회의록을 옮기고, 강의 내용을 정리하고, 인터뷰 내용을 받아 적는 데 드는 시간이 한결 줄었다. 인공지능(AI) 음성인식 애플리케이션(앱)이 우리 일상에 들어오면서다. 이제 ‘회의록 좀 정리해줘’라는 말 대신 AI에 음성 파일을 맡기면 몇 분 만에 텍스트와 요약본이 완성된다. AI 음성인식 기술이 급속도로 발전하면서 이들 앱은 단순 녹음·받아쓰기 도구를 넘어 요약, 회의록 작성 등 다양한 작업을 대신해주는 일종의 ‘AI 비서’로 진화하고 있다. ‘다글로’ ‘티로’ ‘클로바노트’ ‘오터(Otter)’ 등 국내외 시장에서 주목받는 음성인식 앱 4개를 직접 체험해봤다. 한국어 테스트는 주로 인터뷰 중 취재원 양해를 구하고 진행했다. 영어 등 외국어 인식 테스트를 위해서는 간단한 실험을 진행했다. 적당한 소음이 발생하는 사무실에서 각 앱을 작동시킨 뒤 5~10분 분량의 유튜브 영상을 재생하는 방식이다. 실험에는 애플 창업자 스티브 잡스의 2005년 스탠퍼드대 졸업식 연설(약 10분), 7세 소년과 64세 노인이 인생에 대해 나눈 대화(약 4분 30초), 2025 노벨문학상 수상자 발표 생중계(약 20분) 등 영상을 활용했다. 다개 국어 지원하는 다글로·티로 글로벌 앱 ‘오터’ 영어 한정 우등생 우선 4개 앱 모두 언어를 텍스트로 변환하는 능력이 뛰어났다. 모두 받아적은 스크립트를 기반으로 AI가 내용을 요약해주는 기능을 제공하는데 같은 대화에 대해서는 거의 비슷한 결론을 내놨다. 다글로, 클로바노트, 오터의 경우 음성을 파일로 저장했다가 스크립트를 클릭하면 해당 부분을 다시 들어볼 수 있어 회의나 인터뷰, 강의를 다시 찾아볼 때 유용할 듯하다. 그 외 차이를 꼽자면 오터는 영어에 특화된 만큼 영어 대화에 등장하는 여러 명의 화자를 정확히 구분해낸다. 스티브 잡스 연설도, 7세 소년의 부정확한 발음도, 64세 노인 사투리도 정확하게 인식하고 받아 적는다. 다만 ‘영어에만’ 특화돼 있다. 대화에 다른 언어가 끼어드는 순간 스크립트는 엉망이 된다. 다글로와 티로는 다양한 외국어를 우리말로 번역해 요점 정리까지 제공해 좀 더 유연하게 쓸 수 있었다. 다글로는 이미 완성된 스크립트를 한국어, 영어뿐 아니라 중국어, 일본어, 스페인어 등 16개 언어로 재번역해준다. 우리말과 영어 한정이지만 두 언어가 동시에 쓰이는 대화도 기록·요약할 수 있다. AI 요약 기능도 우리말과 영어로만 제공된다. 다글로는 영어 대화에서 화자 구별이 다소 미흡했지만 3명 이상 등장하는 우리말 대화에서 화자를 정확히 구별했다. 티로는 총 12개 언어를 지원한다. 대화 언어는 티로가 자동으로 인식하고, 요약할 언어는 사용자가 직접 선택할 수 있다. 실험에 사용한 2025 노벨문학상 수상자 발표 영상의 경우 스웨덴어, 영어가 섞여 사용됐는데도 처음부터 끝까지 정확하게 받아 적은 앱은 티로가 유일했다. 녹음 시작 전 대화 상황 등 ‘맥락’이나 고유명사, 전문 용어를 미리 입력해두면 음성인식 정확도가 한층 높아지는 점도 눈길을 끈다. 티로의 또 다른 특징은 ‘실시간 대화 기록’ 기능이다. 다글로나 클로바노트가 녹음이 모두 끝난 후에 받아쓰기를 진행하는 것과 차별화되는 지점이다. 티로는 실시간 받아쓰기를 하는 동시에 번역까지 제공한다. 말하는 사람의 언어를 그대로 받아적는 동시에 하단에는 번역본을 보여주는 식이다. 이런 기능은 외국어로 진행되는 강의를 들을 때, 외국인과 인터뷰할 때 빛을 발한다. 누군가 통역해주길 기다릴 필요 없이 실시간으로 화자가 하는 말을 따라갈 수 있다. 회의나 강의 도중 잠시 자리를 비웠다가 돌아왔을 때 어떤 대화가 오갔는지 간편히 확인할 수 있다. 다만 티로는 녹음본을 받아쓰는 경우 화자 구분이 정확한 반면, 실시간 대화 기록을 하는 동안에는 화자 구분을 잘 하지 못했다. 클로바노트는 한국어·영어·일본어·중국어(간·번체) 총 4개 언어를 인식하며 한국어+영어를 동시에 인식하는 기능이 포함돼 있다. 기업(B2B)을 대상으로 운영하는 비즈니스용 클로바노트(유료)의 경우 한국어+일본어 동시 인식 기능도 가능하다. 지원하는 언어는 4개로 상대적으로 적지만 국내 대표 IT 기업이자 ‘파파고’ 번역 서비스를 만든 네이버가 운영하는 만큼 번역 품질이 자연스럽고 매끄러운 편이다. 혹시 클로바노트가 일부 단어를 잘못 인식했을 경우 사용자가 직접 편집할 수 있어 유용하다. 인식하기 어려운 전문 용어 등 자주 쓰는 단어를 200개까지 설정해둘 수 있다. AI 요약 기능이 있지만 아직은 한국어로만 제공되는 점이 아쉽다. 부가 기능이 더 매력적인 토종 앱 AI 챗봇·유튜브·화상 회의 요약까지 한국어 인식이 다소 미비했던 여느 글로벌 빅테크의 음성인식 기술과 달리 클로바노트, 다글로, 티로는 국내 기업이 개발·운영해 한국어를 보다 정확하고 자연스럽게 인식하는 게 특징이다. 특히 국내 AI 스타트업이 개발한 다글로(액션파워)와 티로(더플레이토)는 단순 음성인식·요약을 넘어 다양한 부가 기능을 지원해 여러모로 유용하게 활용할 수 있다. 우선 다글로의 경우 완성된 텍스트를 바탕으로 웹 화면에서 AI 채팅이 가능하다. ‘대화를 바탕으로 오늘 해야 할 일과 우선순위를 정리해줘’ ‘~에 대해서는 어떤 말을 했는지 요약해줘’ 등의 명령어를 넣으면 똑똑한 AI가 답변한다. 보고서를 다양한 양식으로 작성해주거나, 강의 내용을 바탕으로 시험 문제를 만들어주기도 한다. 녹음된 파일 여러 개를 주제별로, 과목별로 한 폴더에 모아놓으면 훌륭한 데이터베이스(DB)가 된다. 이용자가 올린 자료에서 최대한 답변을 내놓기 때문에 챗GPT 등 일반 생성형 AI 도구와 비교해 잘못된 정보를 만들어내는 환각 현상이 현저히 적다는 점도 장점이다. 조홍식 액션파워 대표는 “회의·인터뷰·영업 미팅 등 20여가지로 양식을 세분화해 목적에 맞게 음성기록 결과를 정리해준다”며 “유료 회원은 챗GPT, 제미나이, 클로드, 퍼플렉시티 등 생성형 AI를 다글로 내에서 제한 없이 활용할 수 있다”고 설명했다. 유튜브 영상 내용을 텍스트로 전환해주는 것도 다글로의 차별화 포인트다. 최대 2시간짜리 영상 링크를 붙여넣기만 하면 몇 분 만에 스크립트를 작성해주는 식이다. 연사 4명이 동북아 정세에 대해 40여분간 토론한 ‘세계지식포럼’ 영상 링크를 붙여넣었더니 단 3분 만에 영상 전체 스크립트와 한 페이지 분량 요약본을 완성해줬다. 영어 대화를 한국어로 정리할 때도 큰 도움이 됐다. 티로도 회의록·강의노트·블로그 등 다양한 형태의 문서로 자동 정리해준다. 다글로는 웹(PC)에서만 문서 작성이 가능했던 데 반해 티로는 모바일 앱과 웹에서 모두 가능한 점이 인상적이었다. 노트 내용에 대해 AI와 대화하고 답을 얻을 수 있다는 점도 다글로와 비슷하다. 대화가 진행 중일 때도 대화 내용에 대해 AI에 질문할 수 있다는 점이 차별화된다. PC에서는 줌·구글밋·팀즈 등 비대면 회의 내용을 기록할 수도 있어 활용도가 높다. 주요 앱 4종은 모두 가입만 하면 300 ~600분을 무료로 이용해볼 수 있다. 일부 부가 기능은 월 1만~3만원대 요금제에 가입해야 하는 만큼 직접 사용해본 뒤 자신에게 맞는 앱을 선택하는 것이 좋겠다.

Editor정다운 기자 jeong.dawoon@mk.co.kr
actionpower logo