MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。 概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的...
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。 概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的...
Java HotSpot 虚拟机是 Java SE 平台的一个核心组件。它实现 Java 虚拟机规范,并作为 Java 运行时环境中的一个共享库来提供。作为 Java 字节码...
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2...
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类H...
学习整理: 理解kerberos在spark/hadoop体系下的应用: 说道安全,可能是整个大数据体系中最晦涩难懂的一部分了(确实看了很多也不能很快上手),会涉及到系统中组...
Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX工具软件、应用程...
学习整理: zookeeper有哪些应用,HA热备、分布式锁、集中配置用到了zookeeper的什么? ZooKeeper是一个高可用的分布式数据管理与系统协调框架?;诙訮...
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume...
学习整理: hbase运行原理,rowkey的作用? HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大...
Redis 是一个 Key-Value 存储系统。和 Memcached 类似,它支持存储的 value 类型相对更多,包括 string(字符串)、 list(链表)、 s...
@IT人故事会 谢谢~
恩,你至少看起来是专业的!想到专业,我反正第一个反应就是professional,和这个那些个看不懂摸不着的专业名词,特别是那些关于我们工作中的很多引文词汇,存在便有意义,专业词汇一方面方便了业内人士...