[AI] 구글 컨포머 보다 빠른 컨볼루션 신경망 아키텍쳐 개발
미디어젠-ETRI 협업, 상용 음성인식 처리 속도 대폭 향상 기대
본문
이번 기술 개발은 한국전자통신연구원(ETRI)의 연구인력 현장지원 프로그램을 통해 이뤄졌으며, ETRI의 이성주 책임 연구원과 미디어젠의 윤종성 AIMZ 연구소장 등 음성인식 전문 인력들이 참여했다.
LJSpeech 데이터셋을 이용한 음성인식 실험결과, 구글의 컨포머는 CER 4.8%, WER 19.6%의 성능을 보였고, 가칭 ‘AIMZformer’(미디어젠 음성인식 시스템)는 CER 4.8%, WER 19.2%의 성능을 각각 확인했다. 이를 바탕으로 구글 컨포머 수준의 음성인식 성능이 유지하는 것을 알 수 있으며, 처리 속도는 컨포머 서브샘플링 40ms 대비 80ms로 크게 향상됐음을 확인할 수 있다. 이로 인해 학습시간이 약 40% 가량 절약된다.
참고로 베이스라인이 되는 트랜스포머 기반의 음성인식 시스템은 CER 6.9%, WER 23.0%의 인식 성능을 나타내고 있는데, 본 실험에서는 순수한 신경망의 성능을 평가하기 위해 빔서치(beam search) 등의 백엔드 처리를 수행하지 않고, 아웃풋 노드의 범주형 교차 엔트로피만으로 학습 및 평가가 진행됐으며, 음성인식에 필요한 유닛으로는 알파벳 기반의 캐릭터(character)를 이용해 인식 난이도가 높다.
구글 컨포머가 엔코더 성능에 집중하는데 반해 이번에 개발된 미디어젠 AIMZ 연구소의 컨볼루션 구조는 범용성에 그 초점을 맞추고 있기 때문에 엔코더뿐만 아니라 디코더의 성능을 향상시켜주는 장점을 갖고 있다. 특히 미디어젠은 임베디드 솔루션 개발에도 경쟁력을 갖고 있으며, 향후 AI 로봇이나 소형 전자 기기 등 네트워크가 없는 전자기기에 탑재할 수 있는 빠른 속도의 엔진 공급을 추진 중이다.
미디어젠 AIMZ 연구소의 윤종성 소장은 “이번 신기술의 개발로 음성인식 성능을 유지하면서도 처리 속도를 크게 높인 자체 컨포머 기술을 확보함으로써 음성인식 반응 속도에 불만을 갖는 사용자들의 만족도를 크게 향상시킬 수 있게 됐다”면서 “향후 음성인식 기술이 활용되는 사업 전반에 속도 개선이 이뤄질 것”이라고 밝혔다.
한편 미디어젠 AIMZ 연구소에서는 음성인식 속도에 초점을 맞춘 다양한 기술 개발뿐만 아니라 하나의 음성인식 모델로 다국어 음성인식을 할 수 있는 기술을 이미 갖추고 있으며, 글로벌 플랫폼 기업들과 동등한 수준의 국제적 기술 경쟁력을 갖추기 위해 새로운 거대 모델(LLM) 개발도 병행 중에 있다.
<virgin37@reviewtimes.co.kr>
<저작권자 ⓒ리뷰타임스, 무단전재 및 재배포 금지〉
추천한 회원
TepiphanyI리뷰어김민철l기자의 최신 기사
-
[Consumer] [의류 및 잡화] 아디다스 오리지널스, 서울의 낮과 밤을 담은 ‘데이 앤 나잇 서울’ 컬렉션 출시16시간 23분전
-
[Consumer] [식품] 농심, 짜파게티 더블랙 사발 출시2024-11-21
-
[IT] [AI] 팀뷰어, MS 팀즈에 AI 기반 ‘세션 인사이트’ 통합… IT 지원의 새 시대 열어2024-11-21
-
[공공] [봉사] 한국교직원공제회, 사랑의 김장나눔 봉사활동 진행2024-11-20
-
[Culture] [영화관] ‘나만 알고싶은 영화관’ MONOPLEX@RYSE, 11월 20일 홍대 라이즈호텔에 그랜드 오픈2024-11-20
-
[Consumer] [모빌리티] 현대차 ‘아반떼 N TCR 에디션’ 공개2024-11-18
-
[Culture] [전시] 한-이탈리아 수교 140주년 기념, 이탈리아 ‘모자이크’의 2000년 역사를 담아낸 미디어아트 전시 개최2024-11-18
-
[IT] [AI] 로블록스, 창작 및 글로벌 콘텐츠 참여를 가속화하는 AI 기술 확장2024-11-15
댓글목록0