前回記事を書いていたらデータベースのエラーにより全部吹っ飛んでしまったので手元で下書きしてから投稿することにした。
今回は現在開催中のKaggleのコンペティションの内容を備忘録がてら記録する。
Kaggle自体は前回のAvitoで少し他の人のコードを真似したレベルでまだまだ初心者なので、今回は賞金のついていない、簡単なものをやることに。
今回扱うコンペティション
それで今回選んだのはこちら。
どうやらこのデータセットはコロラド州立大学から提供されたもののよう。
機械学習の練習台枠としてKaggle内で開催されているようだ。
何を求めるのか
今回は、与えられたデータから森林にある木の種類判定を行うのが目的らしい。
この7つの種類にわけるようだ。
1 – Spruce/Fir
2 – Lodgepole Pine
3 – Ponderosa Pine
4 – Cottonwood/Willow
5 – Aspen
6 – Douglas-fir
7 – Krummholz
上から順に写真を検索した。
1 トウヒ
https://www.uoguelph.ca/arboretum/thingstosee/trees/whitespruce より
2 コントルタマツ
http://treetime.ca/productsList.php?pcid=88&tagid=2 より
3 ポンデローザマツ
https://www.tnnursery.net/ponderosa-pine-trees-for-sale/ より
4 ヒロハハコヤナギ(ポプラの一種?)
https://www.tnnursery.net/cottonwood-tree-for-sale/ より
5 ヤマナラシ(ポプラの一種?)
http://www.treeseeds.com/quaking-aspen-tree-seeds より
6 ベイマツ
http://www.forevergreenchristmastree.com/new-products/copy-of-douglas-fir より
7 スイスコウザンマツ
https://en.wikipedia.org/wiki/Krummholz より
なんかかっこいいな。
使うデータ
ルーズベルト国立森林公園(和名適当です)において30メートル四方における観測データを元に先ほどの木の種類を推定します。
トレーニングデータは15120個で、テストデータは565892個らしい。
(テストデータ多いな)
与えられるデータは以下の表の通り。
データ名 | 概要 |
---|---|
Elevation | 標高(m) |
Aspect | 向いている方位 |
Slope | 傾斜 |
Horizontal_Distance_To_Hydrology | 水場までの二次元上(地図上)の距離 |
Vertical_Distance_To_Hydrology | 水源までの標高差 |
Horizontal_Distance_To_Roadways | 最も近い道路までの二次元上の距離 |
Hillshade_9am(0から255までのインデックス) | 陰影起伏のインデックス(午前9時) |
Hillshade_Noon(0から255までのインデックス) | 陰影起伏のインデックス(正午) |
Hillshade_3pm(0から255までのインデックス) | 陰影起伏のインデックス(午後3時) |
Horizontal_Distance_To_Fire_Points | 山火事が起きたポイントまでの水平距離 |
Wilderness_Area(4つの2値のカラム, 0=なし,1=あり) | 荒野の区分 |
Soil_Type(40の2値のカラム,0=なし,1=あり) | 土の性質 |
Cover_Type(1から7までの整数) | 今回求めるもの。観測されたエリアに生えている木の種類 |
雑だが、訳すとこんな感じになった。
Soil_TypeとWilderness_Areaにはそれぞれラベルが40と5つあり、それぞれのラベルに当てはまれば1
を、当てはまらなければ0
が入っているらしい。
これは扱いやすそう。
データの中身をのぞく
公式サイトからtrain.csvをダウンロード。これがトレーニングデータとなる。
とりあえず今回は中身を少しだけ確認するだけにとどめる。
学習などは次回以降にやるつもり。
PythonのPandasを使って中身を見る。
In [1]: import pandas as pd
In [2]: train = pd.read_csv("train.csv")
In [3]: train.head()
Out[3]:
Id Elevation Aspect ... Soil_Type39 Soil_Type40 Cover_Type
0 1 2596 51 ... 0 0 5
1 2 2590 56 ... 0 0 5
2 3 2804 139 ... 0 0 2
3 4 2785 155 ... 0 0 2
4 5 2595 45 ... 0 0 5
[5 rows x 56 columns]
In [4]: train.iloc[0,:]
Out[4]:
Id 1
Elevation 2596
Aspect 51
Slope 3
Horizontal_Distance_To_Hydrology 258
Vertical_Distance_To_Hydrology 0
Horizontal_Distance_To_Roadways 510
Hillshade_9am 221
Hillshade_Noon 232
Hillshade_3pm 148
Horizontal_Distance_To_Fire_Points 6279
Wilderness_Area1 1
Wilderness_Area2 0
Wilderness_Area3 0
Wilderness_Area4 0
Soil_Type1 0
Soil_Type2 0
Soil_Type3 0
Soil_Type4 0
Soil_Type5 0
Soil_Type6 0
Soil_Type7 0
Soil_Type8 0
Soil_Type9 0
Soil_Type10 0
Soil_Type11 0
Soil_Type12 0
Soil_Type13 0
Soil_Type14 0
Soil_Type15 0
Soil_Type16 0
Soil_Type17 0
Soil_Type18 0
Soil_Type19 0
Soil_Type20 0
Soil_Type21 0
Soil_Type22 0
Soil_Type23 0
Soil_Type24 0
Soil_Type25 0
Soil_Type26 0
Soil_Type27 0
Soil_Type28 0
Soil_Type29 1
Soil_Type30 0
Soil_Type31 0
Soil_Type32 0
Soil_Type33 0
Soil_Type34 0
Soil_Type35 0
Soil_Type36 0
Soil_Type37 0
Soil_Type38 0
Soil_Type39 0
Soil_Type40 0
Cover_Type 5
Name: 0, dtype: int64
全て数値データとなっているので扱いやすそうだ。
作戦
RIDGEとかlightGBMくらいしか思いつかない(前回のAvito Demand Predictionで主流の手法だったため)くらいの知識のなさなのでDiscussionをのぞいてどのような手法があるか調べた方がよさそう。
まずは自分なりに少し実装してから色々調べるようにしたい。
まとめ
今回はKaggleのForest Cover Typeというコンペティションの概要を説明した。
次回からは色々とデータをいじっていきたい。