・共通項のあるデータを集計したり、重複を潰すのに、Groupbyというノードを使えば便利らしい。
・使い方をメモしておく。
・以下の表からデータを集計してみる。
・例えば、各家庭(姓)の一番上に挙がっている名前(名)を代表者として、各家庭の平均年齢を集計してみる。
・GroupByのSettingのGroupsはこんな感じになる(下図)。
・「姓」というグループの中で集計をとること、集計対象としては「名」と「年齢」があることになる。
・次に、Manual Aggregationで、「名」は「一番上に挙がっている名前」、「年齢」は「平均年齢」を集計してくれ、と設定する(下図)
・これで実行すると、以下のように集計される。
・年齢情報は不要で、各姓ごとに名をずらっと並べた表を作りたいのであれば、以下のように設定する。
・出力は以下のようになる。
・「年齢」がまとめる項目にも、集計する項目にも入っていないので、集計後には列自体がなくなっている。
終わり。