[태그:] Smart_Watch

(특별연재) 인공지능 자동번역은 언어를 사람처럼 이해하는 건가요? _ 2
자동 번역의 혁신, 알파고 딥러닝, 스스로 학습하는 기계

앞서 살펴본 것과 같이 변화무쌍한 언어 규칙을 찾거나 최적화된 통계 모델을 찾기 위한 컴퓨터 알고리즘을 만드는 작업은 수많은 언어공학박사들이 있어야 하고 어마어마한 노력이 필요합니다. 만약 학습데이터만 입력해주면 컴퓨터 “스스로” 번역하는 방법을 찾을 수 있다면 획기적이겠죠? 그렇습니다. 최신 자동 번역 기술은 알파고를 만들었던 인공지능 딥러닝 시스템으로 컴퓨터 스스로 학습데이터를 분석해서 번역하는 방법을 찾아냅니다.

한 가지 흥미로운 사실은 이 기술의 선구자가 바로 한국인입니다. 조경훈 씨가 2014년에 발표한 논문에서 딥러닝 기법을 이용하여 획기적인 돌파구를 만들었습니다. 이 시스템은 병렬 코퍼스(원문과 번역문 쌍으로 된 학습데이터)를 이용해서 사람의 개입 없이 두 언어 간 번역하는 방법을 스스로 학습하도록 하였습니다.

Recurrent Neural Network(순환신경명, 약자로 RNN)과 Encoding(인코딩)이라는 두 가지 컨셉을 영리하게 조합함으로써 스스로 학습하는 번역 시스템이 탄생하게 되었습니다.

RNN (Recurrent Neural Network, 순환신경망)이 뭔가요?

General Neural Network (기본신경망)

일반적인 신경망 구조의 딥러닝은 일련의 숫자를 입력 데이터로 받아서 결과를 도출하는 기계 학습 알고리즘입니다. 신경망 딥러닝은 블랙박스 방식(개발자는 틀만 만들어 둔 것이며, 실제 어떤 내용이 들어가게 될지 모름)으로 다양한 문제에 대한 해법을 제시할 수 있습니다. 예를 들어, 렌터카 업체에서 지난 몇 년간 예약 데이터를 학습시켜서 미래 특정 날짜에 얼마나 많은 손님이 예약할지 예측해 볼 수 있습니다.

Recurrent Neural Network (RNN)

RNN은 기본신경망의 변형된 형태로 이전 결과값을 다시 Input으로 사용해서 다음 결과값을 얻습니다. 즉, 이전 결과값이 다음 결과값에 영향을 미치게 됩니다.

RNN은 데이터 시퀀스 패턴을 학습하는 것인데요. 시간 흐름이나 연속된 값의 패턴을 찾는데 용이합니다. 렌터카 예약 예측 모델에서 환경 변수가 아니라 이어지는 추세 패턴이 더 적절한 것이라면 RNN 방식이 더 정확한 결과를 도출할 수 있습니다.

RNN은 다음에 나올 값을 예측하는 것이므로, 예를 들어, 문장의 첫 단어를 제시하면 다음에 어떤 단어가 나오는 것이 가장 확률이 높은지 예측하는 모델을 만들 수 있습니다. 셰익스피어 문집을 몽땅 RNN으로 학습시켜 만든 신경망 모델에 아무 단어나 하나를 넣으면 셰익스피어 문체를 닮은 문장이 자동으로 만들어집니다.

RNN을 이용하면 번역, 챗봇, 주가 예측 등 시퀀스 기반의 다양한 모델을 만들 수 있습니다. 예를 들어, RNN으로 사인(sine) 파동을 수학 모델 없이 정확하게 그릴(예측) 수 있습니다.

Encoding(인코딩)

인코딩은 쉽게 말해서 컴퓨터가 이해할 수 있는 값으로 변환하는 것을 의미합니다. 예를 들어, 사람 얼굴을 컴퓨터가 비교하려면 얼굴의 특성값을 수집해야 합니다. 미간의 넓이, 눈 크기, 눈썹 길이 등의 값을 측정하고 두 얼굴에서 이런 특성값을 비교합니다. 이와 같이 얼굴 사진을 특성값으로 변환하는 과정을 인코딩이라고 할 수 있습니다.

딥러닝에서는 어떤 특성값을 찾아야 하는지 별도로 지정할 필요가 없습니다. 신경망을 이용하면 얼굴 사진 비교를 위한 특성값을 자동으로 추출할 수 있습니다.

바로 이 과정이 인코딩입니다. 위 그림은 얼굴 사진을 128개의 특성값으로 인코딩한 것입니다. 사진마다 이렇게 128개 숫자로 인코딩하면, 숫자의 유사성을 비교해서 “같은 사람일 확률 92%” 이런 식으로 결과를 얻을 수 있죠.

대충 감을 잡으셨겠지만, 언어 문장도 같은 방식으로 변환할 수 있습니다. 아래 그림과 같이 모든 문장을 각각 고유한 숫자 값으로 인코딩할 수 있습니다.

RNN 모델에 한 번에 한 단어씩 넣어주고, 마지막 단어까지 처리되면 최종적으로 문장의 인코딩을 값을 얻을 수 있습니다.

이런 방식으로 모든 문장을 숫자로 표현할 수 있게 되었습니다. 이들 숫자가 무엇을 의미하는지는 중요하지 않습니다. 문장을 고유한 값으로 식별하는 방법이 생긴 것입니다.

RNN으로 번역하기

RNN을 이용해서 문장을 고유한 값으로 인코딩하는 방법까지 알아봤습니다. 그렇다면, RNN을 두개 장착해서 첫 번째 RNN은 문장을 숫자로 인코딩하고, 두 번째 RNN은 다시 인코딩된 숫자를 문장으로 되돌려(디코딩) 놓을 수 있지 않을까요? 혁신적인 아이디어는 바로 이것입니다.

물론, 원문으로 다시 되돌려 놓는 게 무슨 의미가 있겠습니까. 만약, 두 번째 RNN에서 문장을 영어 원문이 아닌 스페인어로 디코딩하도록 학습시킨다면? 확보해둔 병렬 코퍼스(원문과 번역문 쌍으로 된 학습데이터)를 이용해서 이 과정을 학습시킬 수 있습니다.

바로 이것입니다. 영어 단어가 나열된 문장을 스페인어 문장으로 변환시킬 수 있는 모델이 탄생했습니다.

획기적인 시스템인 이유:
- 학습데이터와 컴퓨터 파워만 있으면 번역기를 만들 수 있음. 이 방식이 탄생한 지는 겨우 3년밖에 되지 않았으나 20년 넘게 개발했던 기존 번역기보다 월등한 성능을 보여주고 있음
- 언어 규칙 알고리즘이 필요하지 않음. 딥러닝 신경망이 스스로 규칙을 찾아냄. 즉, 수많은 언어공학자가 필요하지 않음
- 언어마다 다른 개발이 필요하지 않으며, 학습데이터만 충분히 준비하면 됨
특별 연재 마지막 편에서는 “인공지능 자동번역이 휴먼번역을 대체할 수 있을 것인지”에 대해 얘기해 보겠습니다.

-다음 특별편 이어서-

Click here > WiseTranslate.net ▼
2019년 1월 21일
(특별연재) 인공지능 자동번역은 언어를 사람처럼 이해하는 건가요? _ 1

이미 많은 분이 Google Translate나 파파고와 같은 번역기를 사용해 보았을 겁니다. 100여 개가 넘는 언어를 순식간에 번역할 수 있죠. 웹에서뿐만 아니라 스마트워치와 같은 모바일 기기에서도 손쉽게 사용할 수 있습니다. Google Translate에 사용된 기술을 Machine Translation(기계 번역 또는 자동 번역)이라고 부릅니다. 자동 번역기 덕분에 우리는 세계 여러 나라 사람들과 언어 소통의 장벽을 손쉽게 극복할 수 있게 되었습니다.

초등학생도 다 알고 있는 Google Translate를 소개하려는 것은 아니고요. Machine Translation이 어떻게 언어를 이해하고 동작하는지 여러분과 살펴보려고 합니다.

불과 몇 년 사이에 Machine Translation 기술이 비약적인 발전을 이루었습니다. 2016년 9월 Google은 Deep Learning 방식으로 개발한 완전히 새로운 자동 번역기를 발표하고, Google 블로그에 아래와 같은 글을 올렸습니다.

Google’s AI translation system is approaching human-level accuracy (인간 번역 수준에 근접한 Google의 인공지능 번역기)

위 그래프에서 “PBMT”는 예전 방식의 자동번역이고, “GNMT”가 새롭게 발표한 자동번역 기술입니다. 바로 이날을 기점으로 자동 번역 기술의 역사는 새롭게 시작됩니다. 흔히, 번역이 맘에 들지 않을 때 “Google 번역 같아요”라고 핀잔을 주곤 했었죠. 이젠 그렇게 말할 수 없습니다. 현재 Google 번역 수준을 한 번 보겠습니다.

어떤가요? 거의 완벽하지 않나요? 2016년 9월 이전에는 “Google 번역 같아요”가 핀잔이었지만 지금은 칭찬이 될 수도 있습니다. 이러한 혁신적인 자동 번역은 어떻게 만들어졌을까요? 바로 이 궁금증에 대해 알아보겠습니다.

자동 번역 기술의 시작

컴퓨터가 어떻게 언어를 번역하는 걸까요? 가장 간단한 방식은 문장의 각 단어를 번역할 언어로 치환하는 것입니다. 영어를 한국어로 단어 단위로 순서대로 번역하면 이렇게 되겠죠.

관사와 전치사는 지면 관계상 하나로 묶었습니다. 이렇게 번역하기 위해선 단어 사전만 있으면 되니 무척 간단합니다. 그러나, 언어 문법과 어순이 완전히 무시되어 번역이 엉망입니다.

해당 언어의 규칙을 알고리즘으로 만들어 적용하면 더 나은 결과를 만들 수 있습니다. 예를 들어, 우리말 어순에 맞게 동사를 맨 뒤로 이동시키면 이런 모습이 되겠네요.

이제 여기에 조사를 추가하고 문법과 각종 구문을 언어 규칙으로 만들어서 추가하면 어떤 문장이라도 번역할 수 있겠죠? 이런 방식을 “규칙 기반 자동 번역(Rule-based MT)”이라고 합니다.

이런 식으로 컴퓨터 자동 번역기를 만들었던 것이 최초의 방식이었습니다. 언어 공학 박사들이 복잡한 규칙을 만들고 그러한 규칙을 프로그램으로 하나씩 코딩했었죠. 냉전 시기에 소련의 통신을 엿듣고 번역하려고 세계적인 언어 공학자들이 수년간 번역 시스템을 만들기도 했습니다.

그러나, 이 방식은 초등학교 교과서 같이 쉽고 간단한 문장만 번역할 수 있었고 정작 일상에서 필요한 문서들은 제대로 번역하지 못했습니다.

그렇습니다. 우리가 사용하는 언어는 정형화된 규칙을 항상 따르지는 않죠. 언어는 수많은 예외가 있고, 지역과 문화에 따라 변화무쌍하게 달라집니다. 시대에 세대에 따라 규칙은 계속 바뀝니다.

더 나은 번역, 통계적으로 접근

규칙 기반 자동 번역 시스템의 실패 후 시작된 새로운 시도는 문법 대신 확률과 통계 기반 모델을 만드는 것이었습니다.

통계 기반 번역 시스템을 구축하려면 엄청난 양의 학습 데이터가 필요하며, 학습 데이터는 언어쌍으로 있어야 합니다. 이러한 언어 쌍 데이터를 전문 용어로 “병렬 코퍼스(parallel corpora)”라고 합니다. 17세기에 이집트 상형문자를 판독하기 위해 과학자들이 로제타스톤을 사용했던 것처럼 병렬 코퍼스를 사용해서 언어 번역을 어떻게 해야 할지 컴퓨터 프로그램으로 추론할 수 있습니다.

학습 데이터를 구하는 것이 관건인데, 유럽의회로부터 21개 언어로 된 번역 데이터를 손쉽게 구할 수 있었습니다. 유럽의뢰는 모든 의사 진행 자료를 21개 언어로 번역해서 보관하고 있었습니다. 이 자료는 누구나 접근할 수 있습니다.

확률적 접근법

통계 기반 번역 시스템의 가장 근본적인 차이는 한 가지 동일한 번역을 도출하지 않고 수천 가지 가능한 번역을 만든 다음 각각 정확도 순위를 매깁니다. 정확도 순위는 학습 데이터와 비교한 근사치를 기준으로 판단합니다. 어떻게 동작하는 것인지 좀 더 자세히 살펴보겠습니다.

1 단계: 문장을 작은 단위로 쪼개기

쉽게 번역할 수 있는 작은 단위로 쪼갭니다.

2 단계: 조각별로 적용할 수 있는 모든 번역 찾기

조각별로 학습 데이터를 뒤져서 기존 번역을 모두 찾습니다. 사전을 찾는 것이 아니라 실제 사람이 번역했던 데이터를 찾는 것입니다. 즉, 각기 다른 문맥에 사용되었던 다양한 표현을 가져올 수 있죠.

여러 표현 중 학습 데이터에 사용되었던 빈도가 높은 순으로 순위를 매깁니다.

3 단계: 조합 가능한 모든 번역을 나열하고 가장 근접한 번역 찾기

이번에는 각 조각을 모아서 조합 가능한 모든 번역을 만듭니다. 위 2단계에 나열한 번역을 모두 조합해 보면 672가지 번역을 만들 수 있죠. 어순, 조사, 어미 등 문법적 요소까지 정리된 것을 전제로 몇 가지 나열해 보겠습니다.

나는 / 6시에 / 약속을 / 갖고 있다

나는 / 6시에 / 약속이 / 있다

나는 / 6시에 / 약속을 / 소유한다

나는 / 6시에 / 약속을 / 먹다

이렇게 나열한 뒤에는 가장 “인간다운” 번역을 찾아야 하는데, 이를 위해 각 조합 문장을 다시 책이나 뉴스 기사 등 학습 데이터에 실제 사용되었던 수백만 개의 문장과 비교해서 가장 유사한 (높은 확률) 형태를 보이는 조합을 찾습니다.

통계 기반 자동 번역, 새로운 지평 그러나 한계점 드러남

학습 데이터가 충분하다면 통계 기반 번역 시스템은 규칙 기반보다 훨씬 뛰어난 결과를 보여줍니다. 2000년 초반 Google Translate의 탄생 배경이기도 하며, 자동 번역 시스템이 비로소 대중에게 많이 알려지게 되었습니다.

자동 번역 품질이 분명히 향상되었으나 개발과 유지가 매우 복잡하고 힘들었습니다. 새로운 언어쌍을 개발할 때마다 언어전문가가 필요했고 여러 단계를 거쳐야 하는 번역 프로세스를 계속 뜯어고쳐야 했습니다.

이러한 복잡성으로 인해 편법(?)이 자행됩니다. 예를 들어, 조지아어(Georgian)에서 텔루구어(Telugu)로 번역해야 한다면, 내부적으로 영어(English)로 먼저 번역한 후 영어에서 텔루구어로 번역하는 방식을 선택할 수밖에 없습니다. 왜냐하면 조지아어에서 텔루그어로 번역된 학습 데이터를 충분히 확보하기 어렵고, 이 둘 언어의 언어 공학 연구도 쉽지 않기 때문입니다.

언어학 박사 공학 박사 없이 컴퓨터가 이런 복잡성을 모두 해결해 줄 수 있다면 어떨까요?
다음 편에 이 내용을 살펴보겠습니다.

-이어서-

Click here > WiseTranslate.net ▼

2018년 12월 31일