BERT and Transformers

Topic: NLP

BERT Architecture

Bidirectional Encoder Representations.

Masked Language Modeling (MLM). Next Sentence Prediction. Deep bidirectional.

Add task head. Train end-to-end. Works for classification, QA.

RoBERTa: more data, better training. ALBERT: parameter sharing. DistilBERT: knowledge distillation.

Get personalized data science help from ChatWhole's AI-powered platform.