图书介绍

统计自然语言处理【2025|PDF下载-Epub版本|mobi电子书|kindle百度云盘下载】

统计自然语言处理
  • 宗成庆编著 著
  • 出版社: 北京:清华大学出版社
  • ISBN:730216598X
  • 出版时间:2008
  • 标注页数:475页
  • 文件大小:30MB
  • 文件页数:509页
  • 主题词:统计方法-应用-自然语言处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

统计自然语言处理PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 绪论1

1.1 基本概念1

1.1.1 语言学与语音学1

1.1.2 自然语言处理2

1.1.3 关于“理解”的标准4

1.2 自然语言处理研究的内容和面临的困难4

1.2.1 自然语言处理研究的内容4

1.2.2 自然语言处理涉及的几个层次5

1.2.3 自然语言处理面临的困难6

1.3 自然语言处理的基本方法及其发展8

1.3.1 自然语言处理的基本方法8

1.3.2 自然语言处理的发展9

1.4 自然语言处理的研究现状12

第2章 预备知识14

2.1 概率论基本概念14

2.1.1 概率14

2.1.2 最大似然估计14

2.1.3 条件概率15

2.1.4 贝叶斯法则15

2.1.5 随机变量16

2.1.6 二项式分布17

2.1.7 联合概率分布和条件概率分布17

2.1.8 贝叶斯决策理论17

2.1.9 期望和方差18

2.2 信息论基本概念19

2.2.1 熵19

2.2.2 联合熵和条件熵19

2.2.3 互信息21

2.2.4 相对熵22

2.2.5 交叉熵22

2.2.6 困惑度23

2.2.7 噪声信道模型23

2.3 支持向量机25

2.3.1 线性分类25

2.3.2 线性不可分26

2.3.3 构造核函数26

第3章 形式语言与自动机28

3.1 基本概念28

3.1.1 图28

3.1.2 树28

3.1.3 字符串29

3.2 形式语言30

3.2.1 概述30

3.2.2 形式语法的定义30

3.2.3 形式语法的类型31

3.2.4 CFG识别句子的派生树表示33

3.3 自动机理论34

3.3.1 有限自动机34

3.3.2 正则文法与自动机的关系36

3.3.3 上下文无关文法与下推自动机37

3.3.4 图灵机38

3.3.5 线性界限自动机39

3.4 自动机在自然语言处理中的应用40

3.4.1 单词拼写检查40

3.4.2 单词形态分析43

3.4.3 词性消歧44

第4章 语料库与词汇知识库48

4.1 语料库技术48

4.1.1 概述48

4.1.2 语料库语言学的发展49

4.1.3 语料库的类型52

4.1.4 典型语料库介绍54

4.1.5 汉语语料库建设中的问题60

4.2 词汇知识库62

4.2.1 WordNet62

4.2.2 FrameNet64

4.2.3 EDR64

4.2.4 知网66

4.2.5 概念层次网络70

4.3 语言知识库建设中的本体论71

第5章 语言模型74

5.1 n元语法74

5.2 语言模型性能评价77

5.3 数据平滑77

5.3.1 问题的提出77

5.3.2 加法平滑方法78

5.3.3 古德-图灵(Good-Turing)估计法79

5.3.4 Katz平滑方法79

5.3.5 Jelinek-Mercer平滑方法81

5.3.6 Witten-Bell平滑方法82

5.3.7 绝对减值法83

5.3.8 Kneser-Ney平滑方法84

5.3.9 算法总结86

5.4 其他平滑方法87

5.4.1 Church-Gale平滑方法87

5.4.2 贝叶斯平滑方法88

5.4.3 修正的Kneser-Ney平滑方法88

5.5 平滑方法的比较89

5.6 语言模型自适应方法90

5.6.1 基于缓存的语言模型91

5.6.2 基于混合方法的语言模型92

5.6.3 基于最大熵的语言模型92

第6章 隐马尔可夫模型94

6.1 马尔可夫模型94

6.2 隐马尔可夫模型的构成96

6.3 前后向算法及参数估计97

6.3.1 求解观察序列的概率97

6.3.2 维特比算法101

6.3.3 HMM的参数估计102

第7章 汉语自动分词与词性标注105

7.1 汉语自动分词中的基本问题105

7.1.1 汉语分词规范问题105

7.1.2 歧义切分问题106

7.1.3 未登录词问题108

7.2 基本分词方法109

7.2.1 基于统计语言模型的分词方法109

7.2.2 N-最短路径方法111

7.2.3 基于HMM的分词方法114

7.2.4 基于三元统计模型的分词与词性标注一体化方法115

7.2.5 由字构词的汉语分词方法117

7.2.6 方法比较118

7.3 未登录词处理方法概述120

7.4 基于多特征的命名实体识别模型122

7.4.1 模型描述122

7.4.2 词形和词性上下文模型123

7.4.3 实体模型124

7.4.4 专家知识128

7.4.5 模型训练128

7.4.6 测试结果129

7.5 词性标注130

7.5.1 概述130

7.5.2 基于统计模型的词性标注方法131

7.5.3 基于规则的词性标注方法134

7.5.4 统计方法与规则方法相结合的词性标注方法136

7.5.5 词性标注中的生词处理方法138

7.6 词性标注的一致性检查与自动校对139

7.6.1 词性标注一致性检查方法139

7.6.2 词性标注自动校对方法141

7.7 汉语分词与词性标注系统评测143

第8章 句法分析147

8.1 概述147

8.1.1 基本概念147

8.1.2 语法形式化148

8.1.3 基本方法148

8.2 统计句法分析150

8.2.1 语法驱动的分析方法151

8.2.2 数据驱动的分析方法158

8.2.3 其他分析方法159

8.3 句法分析系统评测160

8.4 汉语句法结构特点163

8.5 层次化汉语长句结构分析165

8.5.1 标点符号在句法分析中的作用165

8.5.2 层次化汉语长句结构分析的思路166

8.5.3 汉语标点符号的分类167

8.5.4 句法规则提取方法168

8.5.5 HP分析算法169

8.5.6 实验171

8.6 浅层句法分析173

8.6.1 概述173

8.6.2 基本名词短语识别问题174

8.6.3 基于支持向量机的base NP识别方法175

8.6.4 基于WINNOW的base NP识别方法177

8.6.5 基于条件随机场的base NP识别方法179

8.7 依存语法理论与依存句法分析181

8.7.1 依存语法理论181

8.7.2 依存句法分析183

第9章 语义消歧190

9.1 概述190

9.2 有监督的词义消歧方法191

9.2.1 基于互信息的消歧方法191

9.2.2 基于贝叶斯分类器的消歧方法193

9.3 基于词典的词义消歧方法194

9.3.1 基于词典语义定义的消歧方法194

9.3.2 基于义类辞典的消歧方法195

9.3.3 基于双语词典的消歧方法195

9.3.4 Yarowsky算法及其相关研究196

9.4 无监督的词义消歧方法197

9.5 词义消歧系统评测199

第10章 统计机器翻译201

10.1 机器翻译概述202

10.1.1 机器翻译的发展202

10.1.2 机器翻译方法202

10.1.3 机器翻译研究现状204

10.2 基于噪声信道模型的统计机器翻译原理205

10.3 IBM的5个翻译模型208

10.3.1 模型1209

10.3.2 模型2212

10.3.3 模型分析214

10.3.4 模型3216

10.3.5 模型4220

10.3.6 模型5223

10.4 基于HMM的词对位模型225

10.5 基于结构的对位模型226

10.6 基于反向转换文法的翻译模型229

10.7 基于有限状态转换机的翻译模型235

10.7.1 加权的有限状态中心转换机235

10.7.2 依存转换模型236

10.7.3 转换算法238

10.7.4 训练方法239

10.8 基于句法的翻译模型242

10.9 基于短语的翻译模型246

10.9.1 层次化短语对位方法246

10.9.2 基于短语的联合概率翻译模型247

10.9.3 基于短语的翻译模型248

10.9.4 一体化短语分割与对位算法252

10.9.5 改进的基于HMM的短语对获取方法254

10.10 基于层次短语的统计翻译模型257

10.10.1 概述257

10.10.2 模型描述258

10.10.3 参数训练260

10.10.4 解码方法261

10.11 基于语块的翻译模型262

10.11.1 基于语块的翻译模型结构263

10.11.2 参数估计265

10.11.3 解码266

10.11.4 方法讨论266

10.12 基于最大熵的翻译模型267

10.12.1 模型介绍267

10.12.2 对位模型与最大近似269

10.12.3 对位模板270

10.12.4 特征函数270

10.12.5 参数训练271

10.13 树到树的翻译模型272

10.14 树到串的翻译模型276

10.15 各种翻译模型的分析279

10.16 解码算法282

10.16.1 基于栈的解码算法282

10.16.2 基于A*搜索的解码算法285

10.16.3 贪心爬山解码算法287

10.16.4 基于动态规划的解码算法290

10.16.5 Pharaoh解码器298

10.16.6 双向搜索算法302

10.17 统计翻译系统实现304

10.18 译文质量评估方法306

10.18.1 概述306

10.18.2 技术指标307

10.18.3 相关评测及系统性能315

10.19 代表系统简介319

第11章 语音翻译323

11.1 语音翻译的基本原理和特点323

11.1.1 语音翻译的基本原理323

11.1.2 语音翻译的特点324

11.2 语音翻译的研究现状325

11.3 C-STAR组织329

11.3.1 C-STAR概况329

11.3.2 C-STAR翻译框架330

11.4 系统与项目介绍331

第12章 文本分类340

12.1 概述340

12.2 文本表示341

12.3 文本特征选择方法343

12.3.1 基于文档频率的特征提取法343

12.3.2 信息增益法344

12.3.3 x2统计量344

12.3.4 互信息法345

12.4 特征权重计算方法346

12.5 分类器设计348

12.5.1 朴素贝叶斯分类器348

12.5.2 基于支持向量机的分类器349

12.5.3 k-最近邻法349

12.5.4 基于神经网络的分类器350

12.5.5 线性最小平方拟合法350

12.5.6 决策树分类器350

12.5.7 模糊分类器351

12.5.8 Rocchio分类器351

12.5.9 基于投票的分类方法352

12.6 文本分类器性能评估方法352

12.6.1 正确率、召回率和F-测度值352

12.6.2 微平均和宏平均353

第13章 信息检索与问答系统354

13.1 信息检索概要354

13.1.1 背景概述354

13.1.2 基本方法和模型355

13.1.3 倒排索引359

13.1.4 文档排序360

13.2 隐含语义标引模型360

13.2.1 隐含语义标引模型360

13.2.2 概率隐含语义标引模型364

13.2.3 弱指导的统计隐含语义标引模型366

13.3 检索系统评测与技术现状368

13.3.1 检索系统评测指标368

13.3.2 信息检索技术现状369

13.4 搜索引擎技术370

13.4.1 搜索引擎核心技术的演进371

13.4.2 搜索引擎的通用化与专业化372

13.5 问答系统373

13.5.1 基本概念373

13.5.2 系统构成374

13.5.3 基本方法375

13.5.4 系统评测与技术现状376

第14章 自动文摘与信息抽取379

14.1 自动文摘技术概要379

14.2 多文档摘要380

14.2.1 基本方法和问题380

14.2.2 文摘评测381

14.2.3 代表系统383

14.3 信息抽取386

14.3.1 概述386

14.3.2 信息抽取技术的发展及其研究现状386

14.3.3 信息抽取系统基本构成与关键技术388

第15章 口语信息处理与人机对话系统390

15.1 汉语口语现象分析390

15.1.1 概述390

15.1.2 口语语言现象分析391

15.1.3 冗余现象分析393

15.1.4 重复现象分析394

15.2 口语句子情感信息分析395

15.2.1 情感词汇分类395

15.2.2 口语句子情感信息分析396

15.3 面向中间表示的口语解析方法398

15.3.1 概述398

15.3.2 中间表示格式399

15.3.3 基于规则和HMM的统计解析方法400

15.3.4 基于语义决策树的口语解析方法405

15.4 基于中间表示的口语生成方法410

15.4.1 基本思路410

15.4.2 微观规划器411

15.4.3 表层生成器412

15.5 人机对话系统413

15.5.1 系统组成413

15.5.2 相关研究414

附录 项目作业417

名词术语索引419

参考文献434

热门推荐