読書会(Hadoop 第2版)第3回議事録
[ 戻る ]
12月17日議事録
4.3.5.2 インメモリシリアライゼーションおよびデシアライゼーション から
参加者 高橋(徹) 高橋(智) 松永 吉本 遠藤 小棚木 門脇 岩室 今井 根
本(記)
Avro シリアライゼーション/デシアライゼーション API http://avro.apache.org/
P118 1行目 仕様APIは誤記。 specific API はひとつ前の generic APIを受けて
いるから specificは仕様ではなく
汎用に対する個別という意味。
P119 一番下の行 GenericRecors <-- GenericRecords のタイポ
P121 中央部 paris.avro -> paris.avro
4.3.5.5 スキーマリゾルーション
jsonスキーマの型を絞り込んだものを使うことで結果の抽出でフィールドを絞り込む
P125 と P127 でのjson定義では "right" と "left"の位置が変換前で位置が入
れ替わっている
これが SwitchPair.avsc
4.4 ファイルベースのデータ構造
sequence fileの意味は巨大なファイルであっても、個別に分割保存されるらしい。
python easy_install
4.4.1.3 コマンドラインインターフェイスでのSequence fileの表
5章 MapReduce アプリケーションの開発
P141 isolationRunnder --> isonationRunner の誤記
P142 assetThat(conf.get("breadth", "wide"), is("wide")), のデフォルトの
wideは
P146 アドスレス --> アドレス
5.2.2 GenericOptionsParser Tool ToolRunner
P146 ToolRunnder -> ToolRunner
P159 プロセス内のクラスタの生成とは同一プロセスでJVMが動いているのかどう
かよくわからない
1プロセスで複数JVMを動かすことができるのか?
5.5 クラスタの実行
P162 タスク指向ID -> タスク試行ID
5.5.5 ジョブのデバッグ
HADOOP_LOG_DIRが出力先
commons loggingは現役か? sl4jの方がいいのではないのか
CPU負荷のサンプリングはCPU時間と実時間取得のふたつの方式がある
プロファイリングは
サンプリングと
インプリメンテーションが
ある
インプリメンテーションは全メソッドの入り口と出口を計測するので重くなる。
5.7 MapReduceのワークフロー
http://mapreduce.me/
は 「Hadoopデザインパターン」のことか
http://www.umiacs.umd.edu/~jimmylin/book.html
P181 まで
次回は 6章 MapReduceの動作 から
[ 戻る ]