Apache Atlas 数据治理

面对海量且持续增加的各式各样的数据对象,你是否有信心知道哪些数据从哪里来以及它如何随时间而变化?采用Hadoop必须考虑数据管理的实际情况,元数据与数据治理成为企业级数据湖的重要部分。 为寻求数据治理的开源解决方案,Hortonworks 公司联合其他厂商与用户于2015年发起数据治理倡议,包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理等方面。Apache Atlas 项目就是这个倡议的结果,社区伙伴持续的为该项目提供新的功能和特性。该项目用于管理共享元数据、数据分级、审计、安全性以及数据保护等方面,努力与Apache Ranger整合,用于数据权限控制策略

阅读更多

FastDCS 分布式计算系统介绍

FastDCS是一个使用C++开发的轻量级的分布式计算系统,使用它可以解决海量数据的计算和需要分布式服务方面的问题。FastDCS最初是为了解决 瑞读网 的文件格式转换工作而开发的,瑞读网成立于2008年是国内早期提供数字出版的SAAS服务提供商,每天约有10万份Office文档和上千份期刊杂志排版文件需要转换成PDF、JPG、FLASH、HTML、Txt和ePub等文件格式,瑞读网将FastDCS部署在4台服务器上,从2008年至2012年累计提供转换服务7千万次,生成各式文件数40亿,总量300TB的数据;

阅读更多

FastDCS 架构介绍

2013年FastDCS进行了代码重构,大幅度提升了系统的性能和可靠性,并将代码和相关设计文档全部开源。FastDCS是一个轻量级的分布式计算系统,开发者使用它可以快速的完成开发和部署工作,如同系统的名称Fast Distributed Computing System。FastDCS适合用于需要长期运行的计算处理业务,如瑞读网提供了长达4年的在线文档转换服务,它和MapReduce模式的批处理系统有很大的区别。

阅读更多

FastDCS 开发实例

在FastDCS的源代码中的/src/demo/目录下有一个完整的开发样例,该样例演示了如何使用FastDCS对/src/demo/dict.txt文件中的英文单词按照出现的次数进行排序,该样例仅用于FastDCS开发讲解并无实际应用价值;

阅读更多

FastDCS 开发说明

FastDCS通过简洁而有效的设计,为开发者提供一套简洁而有效的分布式计算框架,开发者只需要定制由FastDCS提供的几个用户自定义UDF函数(User defined function),就可以完成整个分布式系统的开发工作。

阅读更多