分散クラスタシステムHadoopは、MapReduceという枠組みを利用して処理を行う。MapReduceはさまざまな分散処理を単純な処理の組み合わせで解決できるHadoopの特徴のひとつである。本書ではHadoopでできるデータ処理をシンプルに解説。「理解しにくい」といわれるMapReduce処理を13の単純なパターンで紹介し、それらを使って「株価分析」「ログ解析」「ワードカウント」から簡単な「クラスタ分析」までを試す。ロジックはJavaに基づく簡易コードを使うほか、手続き型処理系「Pig」を使って説明。自分がHadoopに処理させたいことを実現するための考え方を紹介する。
レビュー(0件)