Please enable JavaScript.

Coggle requires JavaScript to display documents.

Chinese Sentiment Analysis (datasets (CR, AD, product, hotel,…

- - - - 微博情感极性分析
        
        gitLab
      - predicting movie reviews with bert on tf_hub
        
        TF Hub
      - BERT github
      - thesis
      - BERT模型從訓練到部署
        
        :question: bert-as-service
        
        bert-base :red_flag:
    - - 百度-github
        
        PaddleNLP: 百度开源的NLP 工具
        
        情绪识别（Emotion Detection, EmoTect）
        
        deployment :question:
        
        如何基于PaddleHub加载ERNIE进行 Finetune
        
        本项目依赖于 Paddle Fluid 1.3.1
      - :question: 清華-github
        
        基於Pytorch和Python3
    - - wordsVec
      - similarity words task
    - - thesis
      - BERT-wwm github
        
        public model downloads
        
        训练是在谷歌TPU v3版本（128G HBM）完成的，大约需要1.5天左右。需要注意的是，预训练阶段我们使用的是LAMB Optimizer（TensorFlow版本实现）。该优化器对大的batch有良好的支持。在微调下游任务时，我们采用的是BERT默认的AdamWeightDecayOptimizer。
        
        BERT原生模型中有相应的代码，但是因为两个模型mask策略不同，应该不能直接用原生BERT模型，能不能开源一下修改后的模型呢？ :warning:暂时无法提供代码。如果要继续pre-training，可以参考谷歌官方的wwm[create_pretraining_data.py] 处理部分，只需要改动很少的代码。 [page]
        
        需調整之內容
        
        对原始的句子进行中文切词（我们使用的是LTP，你也可以用别的做），得到seq_cws
        
        对原始句子进行WordPiece切词（BERT默认），得到seq_wp
        
        針對seq_cws和seq_wp分析，得到字（wp）到词（cws）对应关系，即哪些连续的wordpiece属于一个中文词
        
        这里中英文处理对应关系：
        英文的一个词对应中文的一个词
        英文的一个WordPiece对应中文的一个字
        
        单词中华人民共和国，切词后的结果是中华人民共和国，为了适配谷歌原版的wwm，你可以将其改为中华 ##人民 ##共和国，这样就能用谷歌原版的wwm处理了，当然这个只是为了识别字与词的从属关系， :pencil2: 最终训练时需要把中文子词的 ##前缀去掉（英文请保留，因为wordpiece处理过的英文是有可能包含##的）。
      - wwm和百度的ERNIE有什么区别？
        
        A: 因为百度ERNIE的提出先于谷歌提出whole word masking（仅以公开相关工作的时间为基准），基于全词mask的方法应该是百度的相关工作在先。
        
        訓練來源： ERNIE采用了更多的网络数据（百科，贴吧，新闻），而wwm中只使用了中文维基百科数据。 :warning:因此ERNIE的词表中几乎没有繁体中文。
        
        激活函數
        
        ERNIE使用ReLu和BERT和BERT-wwm使用GeLu
        
        GeLu, GAUSSIAN ERROR LINEAR UNITS
        
        thesis
        
        ReLU, Rectified Linear Unit
    - - thesis