跳到主要内容

红皮书作者寄语

回首过去十年,得益于前面数个版本的数据库红皮书,数据管理领域,迎来了爆发式的增长。受益于“大数据”(Big Data)的兴起,以及存算成本的大幅度降低,今天的数据库与数据密集型系统得以运行于前所未有的庞大数据量之上。而云计算与微体系结构的科技趋势,则让分布式与并行计算这组概念无处不在。数据的来源,数据的种类,日益变得丰富,而数据的存储容量,同样也是不断扩充,与此同时,数据的应用场景与对应任务,也不断变得丰富。由此,从新的存储介质与处理器设计,到查询处理的架构,再到应用程序编程的接口,以及新兴应用程序在事务处理与数据分析上面的需求,商业数据库在数个维度上面取得长远发展。伴随着市场上面肉眼可见的波动,以及研究领域的诸多想法,这个时刻令人激动。

时代快速变化,而我们对传统的“数据库红皮书”(Red Book)的更新,其目的依旧在于为(数据管理)领域的核心理念配套出对应的基础,并对我们认定的数据库科学发展趋势,给出参考、解析与评论。一些新的技术,与过去数十年间的古久技术,存在极大的相似共通之处。因此,我们认为,让读者们熟悉这些新兴技术的历史缘由,好处非凡。与此同时,科学技术的进步趋势,要求我们,对数据库系统做一个近乎全面的重新评估,许多经典技术,都需要我们二次反思。所以,在这一版本的红皮书当中,我们的目标就是展现出基本的设计与值得长期研究的课题,并且给出我们认为最与之相关与最前沿的新理念来。

在这个目标的指引之下,我们从数据库领域的早期文章里面,选择出一组经典而传统的论文,同时,也在新时期下面的文章里面选择出最具影响力的文章,涵盖事务处理,查询处理,高级数据分析,Web 数据,以及语言设计。我们将在每一个篇章之中,都将给出我们的技术评论,以及选择这些论文的缘由。而每一则技术评论,都由一位数据库红皮书的编辑来展开撰写,并结合其它编辑的有关意见。我们可不希望我们的技术评论,缺少了什么方面的思考。

而当选择阅读材料的时候,我们搜集的都是那些涉及数据库标准核心领域的文章。首先,我们所选择的每一篇读物,都代表了数据管理的一个主要趋势,并且经由业界的研究热点与市场的具体需求进行了证明。第二,每一篇选中的读物,我们都会确保其权威性,或者近权威性;我们力争为每一个主题搜集最具有代表性的阅读材料。第三,每一篇被选中的阅读材料,都是一个主要的参考来源;实际上我们在我们的技术评论之中,参考了很多由我们选择的阅读材料中的内容。不过,这些阅读材料在此处的作用,意在于给出历史的上下文,帮助我们的读者,思考由它们塑造而成的技术解决方案,同时促进视野的拓宽。最后,这些搜集起来的论文,反映了我们对于当前“何为最重要的”的品位(tastes)。我们期待我们的读者,带着一对敏锐的批判性的眼睛来解读这些文章。

这一个版本的红皮书与先前几个版本的红皮书的主要差异在于,我们处理数据分析与数据集成这两个方面的方式方法。在今天,你可以从研究领域的热点,与市场的反馈当中,清晰发现,它们是数据管理领域内最为紧要的两个问题。它们同时也在研究与实践当中快速演变。有鉴于情况的不断变化,就这些话题中的“规范”达成共识,相当艰难。有鉴于此,我们决定,避免提供“官方阅读材料”,而是选择,单纯给出我们的评论和建议。这种做法所导致的一个直接后果就是,我们的技术评论,对领域内正在上演的现状,充满了高度的偏见。因此,在这些(具有争议,尚无共识的)领域内话题中,我们绝不会,在红皮书中,设置传统应当提供的“要求阅读”(required reading)栏目。相反,我们仅仅将这些技术评论,作为最终答案的一种可能解答:“对于不断变化的目标的一家之言”(Biased Views on Moving Targets)。对于这两个部分,请读者们,务必保持谦和谨慎的态度来进行阅读(甚至要比阅读这本书的其它部分投入的谨慎心更大一些)

我们选择免费发行这一版本的红皮书,并在文本中,附上我们的许可证,我们允许以各种格式展开非商业目的的二次发行。请注意,我们并没有推举论文权力,我们仅仅只是一些提供了帮助读者找到相关论文的谷歌学者链接。

我们期待这种电子格式,能够让这本“书”得以推出更多的版本来。我们同样计划在适当的时候,对这系列的文章与评论进行完善。

最后:红皮书起始于1988年,我们期待,它在未来的岁月中,依旧保持着旺盛的生命力。在这种精神的指引下,我们会持续招募年轻的编辑们,为这个系列注入年轻人的血液。在合适的时候,伴随着时间的发展,红皮书的编辑,或许就会出现一些变化。

Peter Bailis

Joseph M. Hellerstein

Michael Stonebraker