Please enable JavaScript.
Coggle requires JavaScript to display documents.
Chinese Sentiment Analysis (datasets (CR, AD, product, hotel,…
Chinese Sentiment Analysis
nn
BERT
微博情感极性分析
gitLab
predicting movie reviews with bert on tf_hub
TF Hub
BERT github
thesis
BERT模型從訓練到部署
:question:
bert-as-service
bert-base
:red_flag:
ERNIE
百度-github
PaddleNLP: 百度开源的NLP 工具
情绪识别(Emotion Detection, EmoTect)
deployment :question:
如何基于PaddleHub加载ERNIE进行 Finetune
本项目依赖于
Paddle Fluid 1.3.1
:question:
清華-github
基於Pytorch和Python3
fastText :question:
wordsVec
similarity words task
BERT-wwm
thesis
BERT-wwm github
public model downloads
训练是在谷歌TPU v3版本(128G HBM)完成的,大约需要1.5天左右。需要注意的是,预训练阶段我们使用的是LAMB Optimizer(TensorFlow版本实现)。该优化器对大的batch有良好的支持。在微调下游任务时,我们采用的是BERT默认的AdamWeightDecayOptimizer。
BERT原生模型中有相应的代码,但是因为两个模型mask策略不同,应该不能直接用原生BERT模型,能不能开源一下修改后的模型呢? :warning:
暂时无法提供代码
。如果要继续pre-training,可以参考谷歌官方的wwm
[create_pretraining_data.py]
处理部分,只需要改动很少的代码。
[page]
需調整之內容
对原始的句子进行中文切词(我们使用的是LTP,你也可以用别的做),得到seq_cws
对原始句子进行WordPiece切词(BERT默认),得到seq_wp
針對seq_cws和seq_wp分析,得到字(wp)到词(cws)对应关系,即哪些连续的wordpiece属于一个中文词
这里中英文处理对应关系:
英文的一个词对应中文的一个词
英文的一个WordPiece对应中文的一个字
单词中华人民共和国,切词后的结果是中华 人民 共和国,为了适配谷歌原版的wwm,你可以将其改为中华 ##人民 ##共和国,这样就能用谷歌原版的wwm处理了,当然这个只是为了识别字与词的从属关系, :pencil2:
最终训练时需要把中文子词的 ##前缀去掉(英文请保留,因为wordpiece处理过的英文是有可能包含##的)。
wwm和百度的ERNIE有什么区别?
A: 因为百度ERNIE的提出先于谷歌提出whole word masking(仅以公开相关工作的时间为基准),基于全词mask的方法应该是百度的相关工作在先。
訓練來源: ERNIE采用了更多的网络数据(百科,贴吧,新闻),而wwm中只使用了中文维基百科数据。 :warning:
因此ERNIE的词表中几乎没有繁体中文。
激活函數
ERNIE使用ReLu和BERT和BERT-wwm使用GeLu
GeLu, GAUSSIAN ERROR LINEAR UNITS
thesis
ReLU, Rectified Linear Unit
mccnn :question:
thesis
datasets
CR
AD
product
hotel
ChineseNlpCorpus
Dimension reduction and visualized
t-SNE
PCA
difference between pca and t-sne
(Chinese Word Segmentation, CWS)
哈工大LTP
icon
:red_flag: 進行中
:question: 暫緩目標
:warning: 警示
:pencil2: tips