Please enable JavaScript.
Coggle requires JavaScript to display documents.
Word2Vec (模型分类 (Skip-Gram (2. 从句子提取训练数据 (优化 (对高频词抽样 (抽样率计算 (概述 …
Word2Vec
模型分类
Skip-Gram
-
2. 从句子提取训练数据
-
概述
确定input_word/context_word,output_word/target_word并组合起来
优化
词组替代单词
一些单词组合(或者词组)的含义和拆开以后具有完全不同的意义。比如“Boston Globe”是一种报刊的名字,而单独的“Boston”和“Globe”这样单个的单词却表达不出这样的含义
对高频词抽样
问题
- 当我们得到成对的单词训练样本时,("fox", "the") 这样的训练样本并不会给我们提供关于“fox”更多的语义信息,因为“the”在每个单词的上下文中几乎都会出现
- 由于在文本中“the”这样的常用词出现概率很大,因此我们将会有大量的(”the“,...)这样的训练样本,而这些样本数量远远超过了我们学习“the”这个词向量所需的训练样本数
抽样率计算
概述
对于我们在训练原始文本中遇到的每一个单词,它们都有一定概率被我们从文本中删掉,而这个被删除的概率与单词的频率有关
实现
- ωi 是一个单词,Z(ωi) 是 ωi 这个单词在所有语料中出现的频次
- 如果单词“peanut”在10亿规模大小的语料中出现了1000次,那么 Z(peanut) = 1000/1000000000 = 1e - 6
-
-
y_hat与y计算交叉熵,反向修正模型及词向量
问题
描述
因为词典有10000个单词,反向传播需要逐个找才能找到对应预测准确的单词,数学期望是n/2
树形分类器
概述
- 类似于二分法的原理,把一个n+1个节点的树变成一颗二叉树,计算量就减小的logN
- 实际应用中,对树形分类器做了一些改进。改进后的树形分类器是非对称的,通常选择把比较常用的单词放在树的顶层,而把不常用的单词放在树的底层。这样更能提高搜索速度
-
定义
从大量文本语料中根据上下文关联关系,以无监督的方式学习语义知识的一种模型
-