[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[jfriends-ml 13610] Hadoop 2 版 を読む会  12 月議事録



皆様
遅れましたが 12月分の議事録をポストします。
よろしくお願いします。

根本
---------------------------------
12月17日議事録

4.3.5.2 インメモリシリアライゼーションおよびデシアライゼーション から
参加者 高橋(徹) 高橋(智) 松永 吉本 遠藤 小棚木 門脇 岩室 今井 根
本(記)

Avro シリアライゼーション/デシアライゼーション API http://avro.apache.org/

P118 1行目 仕様APIは誤記。 specific API はひとつ前の generic APIを受けて
いるから specificは仕様ではなく
汎用に対する個別という意味。
P119 一番下の行 GenericRecors <-- GenericRecords のタイポ
P121 中央部 paris.avro -> paris.avro

4.3.5.5 スキーマリゾルーション
jsonスキーマの型を絞り込んだものを使うことで結果の抽出でフィールドを絞り込む

P125 と P127 でのjson定義では "right" と "left"の位置が変換前で位置が入
れ替わっている
これが SwitchPair.avsc

4.4 ファイルベースのデータ構造
sequence fileの意味は巨大なファイルであっても、個別に分割保存されるらしい。
python easy_install

4.4.1.3 コマンドラインインターフェイスでのSequence fileの表
5章 MapReduce アプリケーションの開発
P141 isolationRunnder --> isonationRunner の誤記

P142 assetThat(conf.get("breadth", "wide"), is("wide")), のデフォルトの
wideは

P146 アドスレス --> アドレス

5.2.2 GenericOptionsParser Tool ToolRunner
P146 ToolRunnder -> ToolRunner

P159 プロセス内のクラスタの生成とは同一プロセスでJVMが動いているのかどう
かよくわからない
 1プロセスで複数JVMを動かすことができるのか?

5.5 クラスタの実行

P162 タスク指向ID -> タスク試行ID
 
5.5.5 ジョブのデバッグ
HADOOP_LOG_DIRが出力先
commons loggingは現役か? sl4jの方がいいのではないのか
CPU負荷のサンプリングはCPU時間と実時間取得のふたつの方式がある
プロファイリングは
 サンプリングと
 インプリメンテーションが
 ある
 インプリメンテーションは全メソッドの入り口と出口を計測するので重くなる。

5.7 MapReduceのワークフロー
http://mapreduce.me/
は 「Hadoopデザインパターン」のことか 
http://www.umiacs.umd.edu/~jimmylin/book.html

P181 まで 
次回は 6章 MapReduceの動作 から