第一章 NLP基础概念学习笔记与复盘 | FXY’S BLOG

type

Post

status

Published

date

Apr 13, 2026

slug

NLP

summary

tags

推荐

思考

category

技术分享

icon

password

本章系统梳理了自然语言处理的定义、发展脉络、典型任务以及文本表示技术的演进。通过学习，我对NLP从规则驱动到统计建模、再到深度学习主导的范式转变建立了清晰的技术框架，尤其理解了文本表示方法如何直接决定下游任务的性能。

1. NLP的定义与核心挑战

NLP旨在让计算机理解、解释并生成人类自然语言，是人工智能中融合计算机科学、语言学、统计学和认知科学的交叉领域。其根本目标是突破符号序列与语义之间的映射障碍，实现从表层语法到深层语义、语境乃至情感文化的建模。

核心挑战在于语言的歧义性、上下文依赖、隐喻讽刺处理以及跨文化差异。以中文为例，由于没有空格分隔，中文分词成为预处理的关键瓶颈，直接影响后续词性标注、命名实体识别和句法分析的准确率。

2. NLP技术发展历程

NLP发展可分为三个阶段：

早期规则驱动阶段：以机器翻译为起点，依赖词典查找和手工规则。图灵测试的提出奠定了智能评估基准，但受限于计算资源，系统只能处理简单词序，泛化能力很弱。

符号主义与统计建模阶段：符号派强调形式语言和逻辑范式，统计派则引入概率模型。随着计算能力提升，统计方法逐渐主导，隐马尔可夫模型和条件随机场取代了大量手工规则，大幅降低了系统维护成本。

神经网络与预训练时代：循环神经网络、长短时记忆网络及注意力机制的引入解决了长距离依赖问题。Word2Vec开启了分布式词向量时代，BERT基于Transformer的双向预训练实现了上下文动态表示，后续GPT系列通过海量参数与自回归生成，达到了接近人类水平的文本生成能力。Transformer架构彻底抛弃了循环结构，成为当前主流。

3. 主要NLP任务

本章列举的核心任务构成了NLP流水线的完整链路：

中文分词与子词切分：分词需处理歧义与未登录词，子词方法通过频次统计将词汇拆解为可复用单元，有效缓解生僻词问题。例如unhappiness可分解为un、happi、ness，保留了词素语义。

词性标注：基于隐马尔可夫模型、条件随机场或双向长短时记忆网络模型为每个词分配标签，是句法分析的前置步骤。

文本分类：从特征工程到端到端神经网络，实现情感分析、主题分类等应用。

命名实体识别：序列标注任务，输出实体边界与类别，是知识图谱构建的基础。

关系抽取：在实体基础上识别语义关系，常采用联合抽取或流水线方式。

文本摘要：抽取式依赖句子重要度排序，生成式则基于序列到序列模型加注意力机制实现语义重构。

机器翻译与自动问答：前者追求语义保真与流畅度，后者涵盖检索式、知识库式与生成式范式，均高度依赖上下文建模。

4. 文本表示技术演进

文本表示是NLP性能的决定性因素，本章重点对比了以下方法：

向量空间模型：以词频或逆文档频率构造高维稀疏向量，维度常达万级，存在维度灾难和数据稀疏问题，同时忽略了词序与语义关联。

N-gram语言模型：基于马尔可夫假设建模条件概率，计算简单但高阶时参数爆炸，无法捕捉长程依赖。

Word2Vec：通过连续词袋模型或跳元模型学习上下文关系，生成低维稠密向量，捕捉语义相似性，但仍是静态表示，无法处理一词多义。

ELMo：采用双向长短时记忆网络语言模型预训练，在下游任务中提取上下文相关向量，实现了动态表示，为后续预训练模型奠定了基础。

Happy-LLM

Description

作者:FXY
链接:https://www.xpy.me/article/NLP
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

Lazy loaded image

拒绝 Relay：记一次 Tailscale 穿透失效的排障

Lazy loaded image

Lazy loaded image

TailScale NAT 技术简介和个人组网方案

Lazy loaded image

惨胜如败：香积寺之战与唐朝命运的思考

Lazy loaded image

Lazy loaded image

NBA Tracker v2 拒绝 Relay：记一次 Tailscale 穿透失效的排障

Loading...

目录

0%

FXY

小朋友

最新发布

第一章 NLP基础概念学习笔记与复盘

拒绝 Relay：记一次 Tailscale 穿透失效的排障

公告

🎉FXY’S BLOG

目录

0%