Agile Data Science 译者序


大数据时代到来。或者至少可以说,它在概念层面上到来了。然而读者朋友,有没有想过数据的核心价值是什么?

是信息量。数据携带的信息量赋予了人们进一步洞察这个复杂世界的可能性。数据是现实世界的快照。通过分析数据,我们可以对世界有更深入,更准确的理解。若我们能越快、越好地理解这个世界,就越有可能在行动中占得先机。

因此各行各业,都开始讲究数据驱动决策。为了更好地利用数据带来的价值,我们开始构建数据分析应用程序,通过搜集、清洗、聚合、存储、分析、学习数据,挖掘出数据的内在价值,以指导行动。然而构建数据分析应用程序是一项艰苦的工程——构建过程中,用户需求在变化,系统负载在增大,数据质量经常难以保证,改动不断甚至困难重重。究竟如何用有限的资源构建出一条真正带来价值的数据流水线呢?

现在你拿在手里的,就是作者给出的答案–一份帮助读者高效构建数据分析产品,以更快更好地洞察这个复杂世界的实践指南。

作者结合自身数据产品构建经验和大量的例子,介绍如何用现代化的工具和平台,如Pig,MongoDB,Python,Elastic Search,D3.js,AWS等等,构建一个完整、可扩展的数据分析应用。读过本书,读者朋友就大概可以知道在构建数据分析应用时可能遇到的问题,遇到某些问题时可以有哪些选择,设计中有哪些陷阱与反模式,以及如何利用开源项目组合出简洁优雅的解决方案。

本书涉及到构建数据分析产品的方方面面,因此:

  • 架构师,可以参考书中介绍的技术,改进系统设计和新增特性;
  • 数据科学家,可以掌握更多的数据操作工具来处理和展示数据;
  • 项目经理,可以认识到该如何构建团队、分解任务,如何使项目开发流程变得更加敏捷,如何向客户和团队设立合理的预期;
  • 有志于向全栈方向发展的工程师或者学生,也能够进一步开阔眼界,了解自己熟悉的领域之外的生态系统。

2013年秋天我与本书不期而遇,刚好对书中内容有所涉猎,一时技痒,争取到了与阿里的晓风老师一起翻译的机会。过程中晓风老师悉心指导,初稿完成后又字斟句酌地对译文进行了极为细致的审校和润色,让我受益匪浅。还有张春雨编辑在译作过程中为我们铺桥搭路,之后不断给予我们专业的修改意见,在此一并致以衷心的感谢。

当然,由于译者本身的阅历和水平所限,本书的翻译难免存在疏漏和错误,还请读者朋友不吝指正。

最后,感谢你对本书的兴趣,相信你一定会有所收获。

文中
2014年北京

搁笔之际又想起了一个程序员自嘲的段子——“我不生产代码,我只是Github的搬运工”。大致的意思是现今的程序员,仅仅是利用Github上的开源代码,就可以完成很多任务。读罢本书,感受更深。找到正确的方法和合适的工具,将生产效率提升十倍甚至百倍,并非天方夜谭。

Share