分  享 
分  享 
源  码 
源  码 
课  程 
课  程 
设  计 
设  计 

[数据库] 【PDF教材】《数据整理实践指南》带目录书签-pdf扫描版[76MB]

[复制链接]
密探007微信认证 发表于 2018-2-28 10:43:04 | 显示全部楼层 |阅读模式

欢迎加入「奥学网」学霸平台,让自学改变你的世界!

您需要 登录 才可以下载或查看,没有帐号?账号注册

x
【PDF教材】《数据整理实践指南》带目录书签-pdf扫描版[76MB] - 奥学网

  随着数据科学的热门,数据的优化、整理以及如何处理不良数据成为人们关注的重点。本书通过处理不良数据,进行数据清理的案例,向读者展示了处理数据的方法。

  本书共有19章,从6部分向读者展示了使用和清理不良数据背后的理论和实践。第1部分是Grubby的动手实践指南,它向读者介绍了驾驭、提取数据的方法,如何处理文本数据中的数据以及Web开发中碰到的数据问题。第2部分是让人充满意外的数据,它向读者介绍了数据也会“撒谎”。第3部分是方法,它向读者介绍了处理不良数据的一些方法。第4部分是数据存储和基础设施,它向读者介绍了如何存储数据。第5部分是数据的商业化,它向读者介绍了如何避免数据处理的一些误差。第6部分是数据策略,它向读者介绍了如何追踪数据、评估数据质量以及构建数据质量相关平台等。

  本书适合数据科学家、数据处理和整理相关开发人员阅读。也适合想要进入数据处理领域的读者阅读。

  目录

  第1章从头说起:什么是噪音数据1

  第2章是我的问题还是数据的问题4

  2.1理解数据结构5

  2.2校验8

  2.2.1字段校验8

  2.2.2值校验9

  2.2.3简单统计的物理解释10

  2.3可视化11

  2.3.1关键词竞价排名示例13

  2.3.2搜索来源示例18

  2.3.3推荐分析19

  2.3.4时间序列数据22

  2.4小结27

  第3章数据是给人看的不是给机器看的28

  3.1数据28

  3.1.1问题:数据是给人看的29

  3.1.2对数据的安排29

  3.1.3数据分散在多个文件中32

  3.2解决方案:编写代码34

  3.2.1从糟糕的数据格式中读取数据34

  3.2.2从多个文件中读取数据36

  3.3附言42

  3.4其他格式43

  3.5小结45

  第4章纯文本中潜在的噪音数据46

  4.1使用哪种纯文本编码?46

  4.2猜测文本编码格式50

  4.3对文本规范化处理53

  4.4问题:在纯文本中掺入了特定应用字符55

  4.5通过Python处理文本59

  4.6实践练习题60

  第5章重组Web数据62

  5.1你能获得数据吗63

  5.1.1一般工作流程示例64

  5.1.2 Robots协议65

  5.1.3识别数据组织模式66

  5.1.4存储离线版本68

  5.1.5网页抓取信息69

  5.2真正的困难73

  5.2.1下载原始内容73

  5.2.2表单、对话框和新建窗口73

  5.2.3 Flash 74

  5.3不利情况的解决办法75

  5.4小结75

  第6章检测撒谎者以及相互矛盾网上评论的困惑76

  6.1 Weotta公司76

  6.2获得评论77

  6.3情感分类77

  6.4极化语言78

  6.5创建语料库80

  6.6训练分类器81

  6.7分类器验证82

  6.8用数据设计84

  6.9经验教训84

  6.10小结85

  6.11信息资源86

  第7章请噪音数据站出来87

  7.1实例1:在制造业中减少缺陷87

  7.2实例2:谁打来的电话90

  7.3实例3:当“典型的”不等于“平均的”92

  7.4经验总结95

  7.5到工厂参观能成为试验的一部分吗96

  第8章血、汗和尿97

  8.1书呆子戏剧性工作交换97

  8.2化学家如何整理数字98

  8.3数据库都是我们的99

  8.4仔细检查102

  8.5生命短暂的漂亮代码库103

  8.6改变化学家(和其他电子表单滥用者)104

  8.7传递线(tl)和数据记录器(dr)105

  第9章当数据与现实不匹配107

  9.1到底是谁的报价机108

  9.2股票分割、股利和调整110

  9.3糟糕的现实112

  9.4小结114

  第10章偏差和误差的来源115

  10.1估算上的偏差:一般性的问题117

  10.2报告上的误差:一般性的问题118

  10.3其他偏差来源121

  10.3.1顶层编码/底部编码121

  10.3.2 Seam偏差122

  10.3.3代理报告123

  10.3.4样本选择123

  10.4结论124

  参考文献124

  第11章不要把完美和正确对立起来:噪音数据真是噪音吗128

  11.1回忆学校生活128

  11.2向着专业领域前进129

  11.2.1政府工作130

  11.2.2政府数据非常真实131

  11.3应用实例—服务电话132

  11.4继续前进133

  11.5经验与未来展望134

  第12章数据库攻击:什么时候使用文件135

  12.1历史135

  12.2建立我的工具箱136

  12.3数据存储—我的路障136

  12.4将文件作为数据存储器137

  12.4.1简单的文件138

  12.4.2文件处理一切138

  12.4.3文件可包含任何数据形式138

  12.4.4局部数据破坏139

  12.4.5文件拥有很棒的工具139

  12.4.6没有安装税139

  12.5文件的概念140

  12.5.1编码140

  12.5.2文本文件140

  12.5.3二进制数据140

  12.5.4内存映射文件140

  12.5.5文件格式140

  12.5.6分隔符142

  12.6文件支持的网络框架143

  12.6.1动机143

  12.6.2实现145

  12.7反馈145

  第13章卧库表,隐网络146

  13.1成本分配模型147

  13.2组合展开微妙的作用150

  13.3隐藏网络的浮现151

  13.4存储图表151

  13.5利用Gremlin遍历图表152

  13.6在网络属性里寻找价值154

  13.7从多重数据模型角度考虑并使用正确的工具155

  13.8致谢155

  第14章云计算神话156

  14.1关于云的介绍156

  14.2何谓“云”156

  14.3云和大数据157

  14.4 Fred的故事157

  14.4.1起初一切都好157

  14.4.2基础结构全部放在云端158

  14.4.3随着规模增长,最初的扩展很轻松158

  14.4.4麻烦出现了158

  14.4.5需要提高性能158

  14.4.6关键要提高RAID 10性能158

  14.4.7重要的局部运行中断引发长期停机159

  14.4.8有代价的RAID 10 159

  14.4.9数据规模增大160

  14.4.10地理冗余成为首选160

  14.4.11水平扩展并不像想像得那么简单160

  14.4.12成本显著增长160

  14.5 Fred的荒唐事161

  14.5.1神话1:云是所有基础设施组件的解决方案161

  该神话与Fred故事的联系161

  14.5.2神话2:云可以节约成本161

  该神话与Fred的故事的联系162

  14.5.3神话3:通过RAID可以将cloud 10的性能提高至可接受的水平163

  该神话与Fred故事的联系163

  14.5.4神话4:云计算使水平扩展轻松163

  该神话与Fred故事的联系164

  14.6结论和推荐164

  第15章数据科学的阴暗面165

  15.1避开这些陷阱165

  15.1.1对数据一无所知166

  15.1.2应该只为数据科学家提供一种工具来解决所有问题167

  15.1.3应该为了分析而分析169

  15.1.4应该学会分享169

  15.1.5应该期望数据科学家无所不能170

  15.2数据学家在机构中的位置170

  15.3最后的想法171

  第16章如何雇佣机器学习专家172

  16.1确定问题172

  16.2模型测试173

  16.3创建训练集174

  16.4选择特征175

  16.5数据编码176

  16.6训练集、测试集和解决方案集176

  16.7问题描述177

  16.8回答问题178

  16.9整合解决方案178

  16.10小结179

  第17章数据的可追踪性180

  17.1原因180

  17.2个人经验181

  17.2.1快照181

  17.2.2保存数据源181

  17.2.3衡量数据源182

  17.2.4逆向恢复数据182

  17.2.5分阶段处理数据并保持各阶段的独立性182

  17.2.6识别根源183

  17.2.7寻找要完善的区域183

  17.3不变性:从函数程序设计借来的理念183

  17.4案例184

  17.4.1网络爬虫184

  17.4.2改变185

  17.4.3聚类185

  17.4.4普及度185

  17.5小结186

  第18章社交媒体:是可抹去的印记吗187

  18.1社交媒体:到底是谁的数据188

  18.2管控188

  18.3商业重组190

  18.4对沟通和表达的期望190

  18.5新的最终用户期望的技术含义192

  18.6这个行业是做什么的194

  18.6.1验证API 195

  18.6.2更新通知API 195

  18.7最终用户做什么195

  18.8我们怎样一起工作196

  第19章揭秘数据质量分析:了解什么时候数据足够优质197

  19.1框架介绍:数据质量分析的4个C 198

  19.1.1完整性199

  19.1.2一致性201

  19.1.3准确性203

  19.1.4可解释性205

  19.2结论208



 百度网盘 / Download(回复可见):
 The following hidden content members only. Join us 
游客,如果您要查看本帖隐藏内容请回复




上一篇:【PDF教材】《设计模式精解及面试攻略》卡理曼希-pdf扫描版[55MB]
下一篇:【PDF教材】《深度探索嵌入式操作系统:从零开始设计、架构和开发》高清pdf完整扫描版

 

 

楼 主 推 荐
luyucheng 发表于 2018-2-28 11:27:23 | 显示全部楼层
看看是不是需要的
回复 支持 反对

使用道具 举报

q9doN 发表于 2018-2-28 16:00:11 | 显示全部楼层
那个注册机可以用,但是是英文版
回复 支持 反对

使用道具 举报

b3ADGD 发表于 2018-2-28 19:07:21 | 显示全部楼层
你是百元哥吗?哈哈楼主帖子真不错~~~~~~~~~~
回复 支持 反对

使用道具 举报

海马2014 发表于 2018-3-3 14:43:54 | 显示全部楼层
zzzzzzzzzzzzzzzz…………睡着了……%*()
回复 支持 反对

使用道具 举报

RbXB 发表于 2018-3-3 18:08:18 | 显示全部楼层
想一想怎么回帖恩没错就这样了
回复 支持 反对

使用道具 举报

hinno 发表于 2018-3-8 02:53:50 | 显示全部楼层
我顶啊。接着顶
回复 支持 反对

使用道具 举报

qM4EyB 发表于 2018-3-8 12:08:56 | 显示全部楼层
拿把椅子看表演
回复 支持 反对

使用道具 举报

enwat 发表于 2018-3-11 17:50:56 | 显示全部楼层
长时间没来看了~~
回复 支持 反对

使用道具 举报

箫烟弥漫 发表于 2018-3-12 15:02:55 | 显示全部楼层
咻咻~(@^_^@)~啪啪啪啪,楼主你懂的哈哈哈哈。。。。。
回复 支持 反对

使用道具 举报

快速回复 收藏帖子 返回列表
加密...

SiteMap|奥学网 ( 闽ICP备12011685号-6 )|随机浏览

闽公网安备35021202000025号

Xtreme-aesthetic Design

© 2012~Now 6SO.SO

快速回复 返回顶部 返回列表