**[本文暂时不更新,更多内容请参阅REFERENCES]**Word2vec是目前一种比较火的词向量方案,接下来就探究一下其本质。目前word2vec分为两大方式,一种是cbow一种是skip-gram,这两种方式主要是输入和输出不同。

干什么?

传统的词向量是采用one-hot编码方式,如果有100万个词语的情况下,词向量就有100万维,这对于电脑内存的打击是毁灭性的,而且在这种编码方式下大部分都是0只有一个1也确实浪费了很多空间,因此word2vec就是一种降维手段,可以将这种向量嵌入到一个非常小的空间中,提升计算效率,因此word2vec也是一种词嵌入手段(word embedding)。

模型

cbow是输入词的上下文来预测这个词

skip-gram是输出一个词,来预测他周围的上下文

怎么工作?

以skip-gram模型为例,输入的是一个one-hot编码的词语,整个词语只有一个1

REFERENCES