BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

学习一下 SOTA 语言模型

这篇文章可以称得上是 2018 年 NLP 方面一个里程碑式的论文了。当时,BERT 模型在 GLUE 评测榜上横扫其他所有模型,在 11 个 NLP 任务上达到最高。尽管这篇论文的阅读笔记在各种博客、论坛等地方都能看到,但我觉得仍然有必要仔细的阅读一遍原文。一来可以加深对论文的理解,二来通过阅读笔记的形式可以更好地记忆这篇文章的细节,不容易忘记。BERT 这篇文章通俗易懂,整体结构完整,条理非常清晰,适合所有学习 NLP 的人阅读。但阅读前需要对 Transformer 有所了解。

阅读更多

A Convolutional Neural Network for Modelling Sentences

使用 DCNN 对语言进行建模

概述

使用 CNN 进行语言建模已经取得了较广泛的应用。本文作者提出了一个动态卷积网络 DCNN,这是一个针对卷积神经网络的扩展,不需要依赖语法树,并且作者提出了许多比较新颖的概念,比如宽卷积、动态 k-max pooling,这些特性使得 DCNN 可以捕获长短依赖,并且丰富了 DCNN 提取的特征。

阅读更多

Convolutional Neural Networks for NLP Classification

今天的论文来自于较老的几篇论文,使用 CNN 进行文本分类。

CNN 最早被成功运用在图像处理中,因为图像的位置不变性、大小不变性使得 CNN 处理图像再适合不过。而将 CNN 运用于文本分类流行于 2014-2015 年左右,大概处于在 NLP 被 RNN 统治的前几年,因此虽然这些论文年代已经相对比较久远,但仍然值得一读,因为通过对这些论文的阅读,还能大致了解为什么 CNN 在 NLP 领域也能取得成功,CNN 在 NLP 领域存在什么问题,以及在 NLP 领域 CNN 的使用是如何慢慢过渡到 RNN 的使用的。

阅读更多