分  享 
分  享 
源  码 
源  码 
课  程 
课  程 
设  计 
设  计 

[人工智能] 【PDF教材】《数据挖掘与分析:概念与算法》PDF完整影印版 [78.9 MB]

[复制链接]
密探007邮箱认证 OneDrive 认证 微信绑定 发表于 2020-1-20 19:08:12 | 显示全部楼层 |阅读模式

欢迎加入「奥学网」学霸平台,让自学改变你的世界!

您需要 登录 才可以下载或查看,没有帐号?账号注册

x


【PDF教材】《数据挖掘与分析:概念与算法》PDF完整影印版 [78.9 MB] - 奥学网

  ● 数据挖据与分析的入门书,针对初学者阐述所有关键概念,包括探索性数据分析、频繁模式挖掘、聚类和分类。 ● 兼顾前沿话题,例如核方法、高维数据分析、复杂图和网络等。 ● 提供算法对应的开源实现方法。 ● 每章均有丰富示例和练习,帮助读者理解和巩固相关主题。 ● 配备丰富教辅资源,包括课程幻灯片、教学视频、数据集等

  本书是专注于数据挖掘与分析的基本算法的入门图书,内容分为数据分析基础、频繁模式挖掘、聚类和分类四个部分,每一部分的各个章节兼顾基础知识和前沿话题,例如核方法、高维数据分析、复杂图和网络等。每一章*后均附有参考书目和习题。

  目录

  第1章 数据挖掘与分析 1

  1.1 数据矩阵 1

  1.2 属性 2

  1.3 数据的几何和代数描述 3

  1.3.1 距离和角度 5

  1.3.2 均值与总方差 8

  1.3.3 正交投影 9

  1.3.4 线性无关与维数 10

  1.4 数据:概率观点 12

  1.4.1 二元随机变量 17

  1.4.2 多元随机变量 20

  1.4.3 随机抽样和统计量 21

  1.5 数据挖掘 22

  1.5.1 探索性数据分析 23

  1.5.2 频繁模式挖掘 24

  1.5.3 聚类 24

  1.5.4 分类 25

  1.6 补充阅读 26

  1.7 习题 26

  第一部分 数据分析基础

  第2章 数值属性 28

  2.1 一元变量分析 28

  2.1.1 数据居中度度量 29

  2.1.2 数据离散度度量 32

  2.2 二元变量分析 35

  2.2.1 位置和离散度的度量 36

  2.2.2 相关性度量 37

  2.3 多元变量分析 40

  2.4 数据规范化 44

  2.5 正态分布 46

  2.5.1 一元正态分布 46

  2.5.2 多元正态分布 47

  2.6 补充阅读 50

  2.7 习题 51

  第3章 类别型属性 53

  3.1 一元分析 53

  3.1.1 伯努利变量(Bernoulli variable) 53

  3.1.2 多元伯努利变量 55

  3.2 二元分析 61

  3.3 多元分析 69

  3.4 距离和角度 74

  3.5 离散化 75

  3.6 补充阅读 77

  3.7 习题 78

  第4章 图数据 79

  4.1 图的概念 79

  4.2 拓扑属性 83

  4.3 中心度分析 86

  4.3.1 基本中心度 86

  4.3.2 Web中心度 88

  4.4 图的模型 96

  4.4.1 Erd s-Rényi随机图模型 98

  4.4.2 Watts-Strogatz小世界图模型 101

  4.4.3 Barabási-Albert无标度模型 104

  4.5 补充阅读 111

  4.6 习题 112

  第5章 核方法 114

  5.1 核矩阵 117

  5.1.1 再生核映射 118

  5.1.2 Mercer核映射 120

  5.2 向量核 122

  5.3 特征空间中的基本核操作 126

  5.4 复杂对象的核 132

  5.4.1 字符串的谱核 132

  5.4.2 图节点的扩散核 133

  5.5 补充阅读 137

  5.6 习题 137

  第6章 高维数据 139

  6.1 高维对象 139

  6.2 高维体积 141

  6.3 超立方体的内接超球面 143

  6.4 薄超球面壳的体积 144

  6.5 超空间的对角线 145

  6.6 多元正态的密度 146

  6.7 附录:球面体积的推导 149

  6.8 补充阅读 153

  6.9 习题 153

  第7章 降维 156

  7.1 背景知识 156

  7.2 主成分分析 160

  7.2.1 最优线近似 160

  7.2.2 最优二维近似 163

  7.2.3 最优r维近似 167

  7.2.4 主成分分析的几何意义 170

  7.3 核主成分分析 172

  7.4 奇异值分解 178

  7.4.1 奇异值分解的几何意义 179

  7.4.2 奇异值分解和主成分分析之间的联系 180

  7.5 补充阅读 182

  7.6 习题 182

  第二部分 频繁模式挖掘

  第8章 项集挖掘 186

  8.1 频繁项集和关联规则 186

  8.2 频繁项集挖掘算法 189

  8.2.1 逐层的方法:Apriori算法 191

  8.2.2 事务标识符集的交集方法:Eclat算法 193

  8.2.3 频繁模式树方法:FPGrowth算法 197

  8.3 生成关联规则 201

  8.4 补充阅读 203

  8.5 习题 203

  第9章 项集概述 208

  9.1 最大频繁项集和闭频繁项集 208

  9.2 挖掘最大频繁项集:GenMax算法 211

  9.3 挖掘闭频繁项集:Charm算法 213

  9.4 非可导项集 215

  9.5 补充阅读 220

  9.6 习题 221

  第10章 序列挖掘 223

  10.1 频繁序列 223

  10.2 挖掘频繁序列 224

  10.2.1 逐层挖掘:GSP 225

  10.2.2 垂直序列挖掘:Spade 226

  10.2.3 基于投影的序列挖掘:PrefixSpan 228

  10.3 基于后缀树的子串挖掘 230

  10.3.1 后缀树 230

  10.3.2 Ukkonen线性时间算法 233

  10.4 补充阅读 238

  10.5 习题 239

  第11章 图模式挖掘 242

  11.1 同形和支撑 242

  11.2 候选生成 245

  11.3 gSpan算法 249

  11.3.1 扩展和支撑计算 250

  11.3.2 权威性测试 255

  11.4 补充阅读 256

  11.5 习题 257

  第12章 模式与规则评估 260

  12.1 规则和模式评估的度量 260

  12.1.1 规则评估度量 260

  12.1.2 模式评估度量 268

  12.1.3 比较多条规则和模式 270

  12.2 显著性检验和置信区间 273

  12.2.1 产生式规则的费希尔精确检验 273

  12.2.2 显著性的置换检验 277

  12.2.3 置信区间内的自助抽样 282

  12.3 补充阅读 284

  12.4 习题 285

  第三部分 聚类

  第13章 基于代表的聚类 288

  13.1 K-means 算法 288

  13.2 核K-means 292

  13.3 期望最大聚类 295

  13.3.1 一维中的EM 297

  13.3.2 d维中的EM 300

  13.3.3 极大似然估计 305

  13.3.4 EM方法 309

  13.4 补充阅读 311

  13.5 习题 312

  第14章 层次式聚类 315

  14.1 预备知识 315

  14.2 聚合型层次式聚类 317

  14.2.1 簇间距离 317

  14.2.2 更新距离矩阵 321

  14.2.3 计算复杂度 322

  14.3 补充阅读 322

  14.4 习题 323

  第15章 基于密度的聚类 325

  15.1 DBSCAN 算法 325

  15.2 核密度估计 328

  15.2.1 一元密度估计 328

  15.2.2 多元密度估计 331

  15.2.3 最近邻密度估计 333

  15.3 基于密度的聚类:DENCLUE 333

  15.4 补充阅读 338

  15.5 习题 339

  第16章 谱聚类和图聚类 341

  16.1 图和矩阵 341

  16.2 基于图的割的聚类 347

  16.2.1 聚类目标函数:比例割与归—割 349

  16.2.2 谱聚类算法 351

  16.2.3 最大化目标:平均割与模块度 354

  16.3 马尔可夫聚类 360

  16.4 补充阅读 366

  16.5 习题 367

  第17章 聚类的验证 368

  17.1 外部验证度量 368

  17.1.1 基于匹配的度量 369

  17.1.2 基于熵的度量 372

  17.1.3 成对度量 375

  17.1.4 关联度量 378

  17.2 内部度量 381

  17.3 相对度量 388

  17.3.1 分簇稳定性 394

  17.3.2 聚类趋向性 396

  17.4 补充阅读 400

  17.5 习题 401

  第四部分 分类

  第18章 基于概率的分类 404

  18.1 贝叶斯分类器 404

  18.1.1 估计先验概率 404

  18.1.2 估计似然 405

  18.2 朴素贝叶斯分类器 409

  18.3 K最近邻分类器 412

  18.4 补充阅读 414

  18.5 习题 415

  第19章 决策树分类器 416

  19.1 决策树 417

  19.2 决策树算法 419

  19.2.1 分割点评估度量 420

  19.2.2 评估分割点 422

  19.3 补充阅读 429

  19.4 习题 429

  第20章 线性判别分析 431

  20.1 最优线性判别 431

  20.2 核判别分析 437

  20.3 补充阅读 443

  20.4 习题 443

  第21章 支持向量机 445

  21.1 支持向量和间隔 445

  21.2 SVM:线性可分的情况 450

  21.3 软间隔SVM:线性不可分的情况 454

  21.3.1 铰链误损 455

  21.3.2 二次误损 458

  21.4 核SVM:非线性情况 459

  21.5 SVM训练算法 462

  21.5.1 对偶解法:随机梯度上升 463

  21.5.2 原始问题解:牛顿优化 467

  21.6 补充阅读 473

  21.7 习题 473

  第22章 分类的评估 475

  22.1 分类性能度量 475

  22.1.1 基于列联表的度量 476

  22.1.2 二值分类:正类和负类 479

  22.1.3 ROC分析 482

  22.2 分类器评估 487

  22.2.1 K折交叉验证 487

  22.2.2 自助抽样 488

  22.2.3 置信区间 489

  22.2.4 分类器比较:配对t检验 493

  22.3 偏置-方差分解 495

  22.4 补充阅读 503

  22.5 习题 504



 百度网盘 / Download(回复可见):
 The following hidden content members only. Join us 
游客,如果您要查看本帖隐藏内容请回复

 

 

楼 主 推 荐
盗葛格 发表于 2020-1-22 10:00:29 | 显示全部楼层
这个是好东西,稀有~~.
回复 支持 反对

使用道具 举报

fk9SS 发表于 2020-1-23 08:30:46 | 显示全部楼层
一个子没看懂.
回复 支持 反对

使用道具 举报

TYADk 发表于 2020-1-23 19:49:00 | 显示全部楼层
祝『奥学网』旗开得胜,越来越强大.
回复 支持 反对

使用道具 举报

lueiluei 发表于 2020-1-26 00:33:40 | 显示全部楼层
想一想怎么回帖恩没错就这样了.
回复 支持 反对

使用道具 举报

py749287203 发表于 2020-1-28 16:56:43 | 显示全部楼层
常常来灌灌水,赚点金币.
回复 支持 反对

使用道具 举报

CG1n 发表于 2020-1-31 08:54:01 | 显示全部楼层
奥学网真的很酷炫,从小白开始就来这里学习,现在算是半个老鸟了.
回复 支持 反对

使用道具 举报

紫玉·红茶OneDrive 认证 邮箱认证 微信绑定 发表于 2020-2-2 02:08:43 | 显示全部楼层
一个有信念者所开发出的力量,大于99个只有兴趣者.
回复 支持 反对

使用道具 举报

ZK6Ax 发表于 2020-2-3 22:48:38 | 显示全部楼层
盼了又盼,终于盼到「F码」打折了.
回复 支持 反对

使用道具 举报

shuangdd 发表于 2020-2-3 23:14:40 | 显示全部楼层
表示支持一下,楼主继续加油吧,新的一年有更多的好东东给我们小菜头下载哈.
回复 支持 反对

使用道具 举报

快速回复 收藏帖子 返回列表
加密...

Try it|SiteMap|奥学网

E-mail: [email protected]

Xtreme-aesthetic Design

© 2012~Now 6SO.SO

快速回复 返回顶部 返回列表