「编辑」「本文源码」

dateflow模型出现的背景

现代数据处理系统演进

原因：数据工作者现在拥有了很多强有力的工具把大规模无序的数据加工成结构化的数据，而结构化的数据拥有远大于原始数据的价值。但是我们仍然认为现存的模型和方法在处理一些常见的场景时有心无力

流媒体平台提供商想要通过视频广告，向广告商收费来实现视频内容变现。收费标准按广告收看次数、时长来收费，该提供商支持在在线和离线播放两种方式。

流媒体平台提供商
1. 想知道每天像广告上收费金额，可以按视频和广告进行统计。
2. 可以在历史离线数据上进行离线分析。
3. 希望有一个简单且灵活的系统，可以处理分散在全球的数据。
广告商
1. 想知道视频被观看了多少次，多长时间
2. 投放了哪些广告，广告投放在哪些视频里，受众人群分布情况
3. 需要付的钱数
视频内容提供者
1. 想知道视频被观看了多少次，多长时间
2. 投放了哪些广告，广告投放在哪些视频里，受众人群分布情况
3. 赚到多少钱，及时调整营销策略和报价

批处理系统MapReduce、FlumeJava、Spark shuffle 无法满足时延的要求。因为它需要再处理前数据都要收集为一个批次。

现有许多提供扩展和容错保证的流处理系统缺乏准确性和语义表达性。

缺少窗口所需的时间原语
1. 比如 Tigon
仅仅限制于基于元组和基于事件处理时间的窗口
1. 比如： Spark Streaming ,Sonora,Trident
提供了基于事件时间的窗口，但依赖排序
1. SqlStream
提供了基于事件时间的窗口，但事件时间窗口的触发语义被限制
1. flink
无法有效表达基于sesiion的窗口
1. CEDR和trill提供了有用的标记触发语义和增量模型，语义是基于标记的。
  缺少高级的编程模型
2. MillWheel和Spark Streaming

版权声明：本文由在 2019年02月22日发表。本文采用CC BY-NC-SA 4.0许可协议，非商业转载请注明出处，不得用于商业目的。
文章题目及链接：《dataflow论文阅读笔记》