Please enable JavaScript.

Coggle requires JavaScript to display documents.

Word2Vec (模型分类 (Skip-Gram (2. 从句子提取训练数据 (优化 (对高频词抽样 (抽样率计算 (概述 …

- - - - 例如
        
        I am a boy,就是(a, boy)
      - 概述
        
        确定input_word/context_word，output_word/target_word并组合起来
      - 优化
        
        词组替代单词
        
        一些单词组合（或者词组）的含义和拆开以后具有完全不同的意义。比如“Boston Globe”是一种报刊的名字，而单独的“Boston”和“Globe”这样单个的单词却表达不出这样的含义
        
        对高频词抽样
        
        问题
        
        当我们得到成对的单词训练样本时，("fox", "the") 这样的训练样本并不会给我们提供关于“fox”更多的语义信息，因为“the”在每个单词的上下文中几乎都会出现
        
        由于在文本中“the”这样的常用词出现概率很大，因此我们将会有大量的（”the“，...）这样的训练样本，而这些样本数量远远超过了我们学习“the”这个词向量所需的训练样本数
        
        抽样率计算
        
        概述
        
        对于我们在训练原始文本中遇到的每一个单词，它们都有一定概率被我们从文本中删掉，而这个被删除的概率与单词的频率有关
        
        实现
        
        ωi 是一个单词，Z(ωi) 是 ωi 这个单词在所有语料中出现的频次
        
        如果单词“peanut”在10亿规模大小的语料中出现了1000次，那么 Z(peanut) = 1000/1000000000 = 1e - 6
    - - 步骤
        
        输入input_word的Word Embedding
        
        通过一层神经网络
        
        最后softmax得出词典大小的种类的结果，就是targe_word的y_hat
      - 问题
        
        描述
        
        因为需要softmax，所以每次计算y_hat都要计算字典大小的求和，这是非常消耗计算资源
        
        解决方法
        
        原理
        
        负采样每次让一个训练样本仅仅更新一小部分的权重，这样就会降低梯度下降过程中的计算量
        
        也就是最后计算y_hat不用全部计算10000个字典，只需在随机抽出来的几个单词中求和然后计算y_hat
        
        负取样大小
        
        若训练样本较小，k一般选择5～20
        
        若训练样本较大，k一般选择2～5即可
        
        如何选择Negative Word
        
        一个单词被选作negative sample的概率跟它出现的频次有关，出现频次越高的单词越容易被选作negative words
    - - 问题
        
        描述
        
        因为词典有10000个单词，反向传播需要逐个找才能找到对应预测准确的单词，数学期望是n/2
        
        树形分类器
        
        概述
        
        类似于二分法的原理，把一个n+1个节点的树变成一颗二叉树，计算量就减小的logN
        
        实际应用中，对树形分类器做了一些改进。改进后的树形分类器是非对称的，通常选择把比较常用的单词放在树的顶层，而把不常用的单词放在树的底层。这样更能提高搜索速度