“…Most methods rely on supervision encoded in parallel data, at the document level (Vulić and Moens, 2015), the sentence level (Zou et al, 2013;Chandar A P et al, 2014;Hermann and Blunsom, 2014;Kočiský et al, 2014;Luong et al, 2015;Coulmance et al, 2015;Oshikiri et al, 2016), or the word level (i.e. in the form of seed lexicon) (Gouws and Søgaard, 2015;Wick et al, 2016;Duong et al, 2016;Shi et al, 2015;Mikolov et al, 2013a;Faruqui and Dyer, 2014;Lu et al, 2015;Ammar et al, 2016;Zhang et al, 2016aZhang et al, , 2017Smith et al, 2017).…”