BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

学习一下 SOTA 语言模型

这篇文章可以称得上是 2018 年 NLP 方面一个里程碑式的论文了。当时,BERT 模型在 GLUE 评测榜上横扫其他所有模型,在 11 个 NLP 任务上达到最高。尽管这篇论文的阅读笔记在各种博客、论坛等地方都能看到,但我觉得仍然有必要仔细的阅读一遍原文。一来可以加深对论文的理解,二来通过阅读笔记的形式可以更好地记忆这篇文章的细节,不容易忘记。BERT 这篇文章通俗易懂,整体结构完整,条理非常清晰,适合所有学习 NLP 的人阅读。但阅读前需要对 Transformer 有所了解。

阅读更多