BLEU RIBES

Report 13 Downloads 68 Views
SAS STATISTICAL MACHINE TRANSLATION SYSTEM FOR WAT 2014 Rui Wang, Xu Yang and Yan Gao SAS Institute Inc, Beijing, China

Introduction This paper describes the machine translation system employed by SAS Institute Inc in the 1st Workshop on Asian Translation. We participate in two subtasks in this year’s WAT: Chinese to Japanese; English to Japanese. The sentence structure of Japanese is different with that of English/Chinese. Japanese is typically a Subject-Object-Verb (SOV) language while Chinese and English are Subject-VerbObject (SVO) languages, as illustrated in the following Figure. Japanese: 私は 日本語 を好きです 。 ( I ) (Japanese) (like) (.) S O V

English: English: II SS

like like VV

Chinese:

喜欢 (like) V

我 (I) S

Japanese Japanese .. O O 日语 。 (Japanese) (.) O

1.Chinese to Japanese reordering rules VP-rule: VP (VV AS (XXX)) →VP ( (XXX) VV AS) to move the verb (VV) and the auxiliary word (AS) behind VV to the end of the verb phrase (VP) (IP (NP (NR 本文 (this paper) )) (VP (VV 汇总 (summarize) ) (AS 了) (NP (NP (CP (IP (VP (NP (NT 目前 (current) )) (IP (NP (NR 本文 (this paper)(VP )) (VRD (VV 查) (VV 到) (found) )))) (VP (VV 汇总 (summarize) ) )) (DEC 的 (of) (AS 了) (NP (NN 影响 (influence) ))) (NP (NP (IP (and) (VP (NP ) (NT 目前 (current) )) 以及 (CC(CP (VRD (VV 到))) (found) )))) (future) 今后查) (NT (VV (NP (NP (CP (IP (VP(VP (DEC 的 (of) (VP))(VV 预测 (predicted) )))) (NP (NN的影响 ))) )) (of) (influence) (DEC (CC 以及 ) (influence) ))))) (NN 影响 (NP(and) (NP (CP (IP (VP (NP (NT 今后 (future) )) (PU 。)) (VP (VV 预测 (predicted) )))) )) 以及 今后 预测 的 影响 。 影响 的 (of) 查到 的 本文 汇总 了 目前 (DEC (NP (NN 影响 (influence) ))))) (PU 。)) 時点 で 検出されて いる 影響 および 今後 予測さ れる 影響 を まとめた 。 本文 汇总 了

目前 查到 的 影响 以及

(a) Original今后

预测 的

影响 。

Phrase-based model [Koehn, et.al 2003]  

translate phrases as units; "Standard Model" used by Google Translate Limited capacity for long distance reordering.

Syntax-based models [Liu et al., 2006] Forest-based models [Mi et al., 2008]  

Improve the translation System is complex and time consuming during decoding

Syntactic reordering approaches 

Effectively improve the translation results

System Architecture

1. Effect of the segmentation tool of SAS® Text Miner

(IP paper) )))) (this paper) 本文 (this (NR 本文 (NP (NR (IP (NP (VP (current) )))) 目前 (current) (NT 目前 (NP (NT (VP (NP (IP (VP (CP (IP (NP (CP (NP (NP (VP (NP (VP )))) (found) )))) 到) (found) (VV 到) 查) (VV (VV 查) (VRD (VV (VP (VRD (DEC (of) )))) 的 (of) (DEC 的 (IP paper) )))) (influence) (NN (NP (IP (NP (NP (NR (NR 本文 本文 (this (this paper) ))) (influence) ))) 影响 (NN 影响 (NP (VP (IP (VP )) (NT 以及 (CC (VP (NP (NP (NP (NP (CP (IP(and) (VP (NP (NP (NT 目前 目前 (current) (current) )))) (and) 以及 (CC(CP (VV (VV )))) (found) (future) (NT (NP (NP (VP (VRD (VV 查) 查) (VV 到) 到) (found) )))) )))) (future) 今后 (NT 今后 (NP(VRD (VP(VP (IP (VP (CP (IP (NP (CP (DEC (of) )) (DEC 的 的 (VP (of)(VV )) 预测 )))) (predicted) )))) 预测 (predicted) (VV (VP (NP (NN (NP (NN 影响 (influence) ))) ))) (of) 的 (DEC (of) ))))(influence) 的影响 (DEC (CC (and) )) (influence) (CC 以及 以及 (and) 影响 (NP ))))) (influence) ))))) 影响 (NN (NP (NN (CP (IP (NP (CP (IP (VP (VP (NP (NP )(NT 今后 (future) (future) )))) (summarize) 汇总 (VV )(NT 今后 (summarize) 汇总 (VV(NP (VP (VP (VV (VV 预测 预测 (predicted) (predicted) )))) )))) (AS 了) (AS 了) (DEC (DEC 的 的 (of) (of) )))) (PU 。)) (PU 。)) (NP (NP (NN (NN 影响 影响 (influence) (influence) ))))) ))))) (VV (summarize) (VV 汇总 汇总 (summarize) 的 查到 本文 。 汇总了 。 影响 汇总了 的 影响 预测 的 今后 预测 以及 今后 影响)) 以及 的 影响 查到 目前 本文 目前 (AS (AS 了) 了) (PU (PU 。)) 。)) 時点 。 まとめた 。 を まとめた 影響 を れる 影響 予測さ れる 今後 予測さ および 今後 影響 および いる 影響 検出されて いる で 検出されて 時点 で

Baseline (phrase-based model provided by the organizer) : Japanese: Juman segmentation tool Chinese: Stanford Word Segmenter SAS segmentation: SAS segmentation tool of SAS® Text Miner for Chinese and Japanese.

以及 (a) 本文 本文 目前 目前 查到 查到 的 的(b)影响 影响 以及 今后 今后 预测 预测 的 的 影响 影响 Reordered

(NP (NN 修改 (modify) )))) (VP (VV 进行 (process) ) (NP (NN 方针 (policy) )) (DEC 的)) 选址法 进行 方针 的 修改 根据 大型 零售商店 (NP (NN 修改 (modify) ))))

汇总了 汇总了 。 。

時点 時点 で で 検出されて 検出されて いる いる 影響 影響 および および 今後 今後 予測さ 予測さ れる れる 影響 影響 を を まとめた まとめた 。 。 (IP (large) )))) 大型 (large) (JJ 大型 (ADJP (JJ (NP (ADJP (PP (NP (VP (PP (IP (VP (NP (shop) )) 商店 (shop) (NN 商店 (retail) )) (NN 零售 (retail) (NN 零售 (NP (NN (NN )))) method) )))) (locating method) 选址法 (locating (NN 选址法 (P on) )) (based on) 根据 (based (P 根据 (IP (IP (VP (VP (PP (PP (NP (NP (ADJP (ADJP (JJ (JJ 大型 大型 (large) (large) )))) (VP (policy) )))) 方针 (policy) (NN 方针 (NP (NN (VP (NP (NP (NN 零售 (NP (NN 零售 (retail) (retail) )) (NN (NN 商店 商店 (shop) (shop) )) 的)) (DEC 的)) (locating method) )))) (DEC (NN 选址法 (NN 选址法 (locating method) )))) )))) (modify) 修改 (NN (NP )))) (modify) 修改 (NN (NP (P (P 根据 根据 (based (based on) on) )) )) (process) 进行 (VV (process) 进行 (VV(NN (VP (NP 方针 (policy) (VP (NP (NN 方针 (policy) )))) (DEC (DEC 的)) 的)) (NP (NN (modify) )))) (NN 修改 修改 (modify) 方针 根据 大型 进行 修改 进行 的 修改 方针))))的 根据 选址法 零售商店(NP选址法 大型 零售商店 (VV (VV 进行 进行 (process) (process) ))

大規模 ついて に ついて 改定 に の 改定 指針 の 基づく 指針 に 基づく 立地法 に 小売店舗 立地法 大規模 小売店舗 大型 零售商店 选址法 根据 方针 的 修改 进行 大型 零售商店 选址法 根据 方针 的 修改 进行

大規模 小売店舗 立地法 に 基づく 指針 の 改定 に ついて

BLEU Baseline 34.86 Baseline+VP 36.19 Baseline+PP 36.30 Baseline+PP+VP 36.40 Hierarchical 36.06 Hierarchical+PP+VP 37.38

BLEU Baseline 28.52 Baseline+reorder 31.09 Hierarchical 31.23 Hierarchical+reorder 31.65

大規模 大規模 小売店舗 小売店舗 立地法 立地法 に に 基づく 基づく 指針 指針 の の 改定 改定 に に ついて ついて

(b) Reordered

(b)

Reordering rule: Head Finalization [Isozaki 2010] Move syntactic heads to the end of the corresponding syntactic constituents. Use dependency parser: ENJU Parser (developed by University of Tokyo ) * *

C0 C0 C2 C2 C4 C4

Conclusion: C2 C2

*

C4 C4

RIBES 0.690350 0.765005 0.743135 0.767323

Conclusion & Future Work

*

C1 C1

C3

RIBES 0.769962 0.826146 0.815694 0.826015 0.814207 0.830909

Baseline (phrase-based model provided by the organizer) We gain 3.13 in BLEU scores compared with the baseline.

2. English to Japanese reordering rules

C1 C1

35.31 0.809631

Baseline (phrase-based model provided by the organizer) We gain 2.07 in BLEU scores compared with the baseline.

(b)

C0 C0

SAS segmentation

3. English to Japanese translation

大規模 小売店舗 立地法 に 基づく 指針 の 改定 に ついて 根据 大型 零售商店 选址法 进行 方针 的 修改

(a) Original

Baseline

BLEU RIBES 34.86 0.769962

2. Chinese to Japanese translation

The statistic machine translation between Japanese and the いる 影響 および 今後 予測さ れる 影響 を まとめた 。 SVO language is particularly difficult because of the long dis- 時点 で 検出されて on) ) (based 根据(P (IP (VP (PP (PPP PP-rule: (XXX)) → PP ((XXX) P) (a) tance difference of word orders. We propose a simple syntactic (NP (ADJP (JJ 大型 (large) )) to move P (NP to (NN the零售 end of )PP .商店 (shop) ) (NN (retail) reordering approach to transform Chinese/English into SVO (NN 选址法 (locating method) )))) (IP (VP (PP (P 根据 (based on) ) languages. (VP (VV 进行 (process) ) (NP (ADJP (JJ 大型 (large) )) (NP (NN 方针 (policy) )) In addition, we apply the segmentation tool in SAS® Text (NP (NN 零售 (retail) ) (NN 商店 (shop) ) (DEC 的)) Miner to the corpus and obtain improvement of the translation. (NN 选址法 (locating method) ))))

Background

Experiments

Syntactic Reordering Approaches

Introduce the system architecture of SAS at WAT 2014; Describe the reordering approaches in detail; Show experiments results to illustrate the effect of our system.

*

*



C3



T1 T1 I

T2 love

C5 C5

C6 C6

T3 T3

T4 T4

the

children

T1 T1 I

C5 C5

C6 C6

T3 T3

T4 T4

the

children

Future work:

T2 love





私は

子供 を

(a) Original

愛していま

(a) Original sentence



私は

子供 を

愛していま

(b) Reordered

(b) Reordered sentence

す 

Consider Japanese Case Marker in the translation; Add more reordering rules on Chinese to Japanese translation; Attend the work to English to Chinese translation.