市面上很多大数据框架,为什么要自研大数据平台

  • 时间:
  • 浏览:6
  • 来源:uu快3大小_uu快3网站_开奖历史

第二,开源系统并不是生活也只有完善,在规模上,性能上,功能上,一点人 内部内部结构对于大数据计算一点更高的要求,一点人 希望通过这俩更好需求下去推动系统的提高,太满 太满 我开源还严重不足一点配套组件,比如数据仓库,数据质量管理,部署,监控。太满 太满 一点人 希望一点人 才能完善哪几种,从而提供更全部的服务体验,太满 太满 从这俩深度1上,MaxCompute提供更像bigquery是一三个小开放共享(区别于用虚拟器加开源的软件包)计算服务平台,当然一点人 也努力把一点人 的工作比如optimization等回馈社区,太满 太满 我从api接口上去兼容社区,从而帮助一点人 用户更加好的来使用一点人 的服务

林伟

林伟

第三,太满 太满 我做到用户精细控制数据访问控制,从而做到最大程度保护用户数据,一同又都可以 灵活分享发布本人的数据来让服务商来根据哪几种数据去创造更好用户服务。在这俩系统上,一点人 还打造数加等多款数据加工平台,提供智能推荐,智能语音,图像视屏出理 ,机器学习,数据流控制,监控,数据发现,任务调度等等,从而才能帮助用户更好的去出理 他的数据

liu_andy

林伟

感谢您的提问。 的确现在有太满 太满 开源的软件,阿里第一天出理 大数据时也是使用的Hadoop,当时阿里Hadoop集群服务器数量超过了30000台。随着集团数据业务的增长,30000台无法满足数据出理 的只有了,再向上扩展机器的时候,Hadoop可能性无法支持跨机房数据存储和计算的需求。 一同阿里在使用Hadoop的时候,也遇到了一点现象,像数据安全,今天MaxCompute的权限都可以 做到字段级授权。在日常数据业务中,不同的用户也只有流计算、机器学习算法,哪几种作业都只有混合运行在同一三个小集群中。 如保为作业合理的分配资源、进行作业管理,也是在Hadoop时代无法很好的实现的。一点人 吸收了开源软件的优点,一同结合复杂的数据业务,在这俩情况报告下 MaxCompute诞生了。MaxCompute是阿里的攻城獅们使用C++代码一行一行写出来的,性能要比开源的软件高太满 太满 。 去年MaxCompute参加了Sort bench mark 大赛,用377秒完成3000TB数据的排序,以优异的成绩获取了第一名,而第二名用了1378秒。。

有以下考虑:第一,一点人 有众多的开源的大数据框架,比如hadoop,spark,storm,一点人 基本上是在虚拟集群中去部署运用的,哪几种计算框架较少考虑多租户的使用场景,只有依赖虚拟机去做各种资源的隔离和共享,太满 太满 我这俩办法对于计算任务太重太满 太满 我粒度严重不足小和灵活,对于阿里内部内部结构并不是生活没有大体量的计算任务来说,从成本,性能,和规模上都达只有目标,这是为哪几种各个大公司内部内部结构全部有的是一三个小自研的大数据平台,比如Azure, Google