提供データに関する注意点 - Amazon Web Services

Amazon Machine Learning
ハッカソン
with ハンズラボ
テーマ説明
2015/09/12
ハンズラボ株式会社
臼井 友亮
Copyright © 2015. All rights reserved.
アジェンダ
•
•
•
•
軽く自己紹介
使用データ発表
テーマ説明
データ使用に関する説明・注意点
1
自己紹介
• 名前 : 臼井 友亮(うすい ゆうすけ)
• 所属 : ハンズラボ株式会社
• 2012年4月に東急ハンズのIT部門に入社して以来。
• 2015/09/12 現在ハンズ4回生。
• 長谷川体制の中途エンジニアメンバーの中ではわりと古株。
• ロール
• Webアプリケーションエンジニア
• 東急ハンズアプリ、ネットストアのバックエンド等
• 兼 必要なインフラやミドルは頑張ればなんとか準備できる程度のインフ
ラエンジニア手習い
• 兼 自称サイエンティスト
• 名ばかり物理学修士でもう微分方程式があやしい
• 兼 わかり手
• みんなの愚痴や悩みをただただ聞く
• 野生のラインケア
• 逆もまた……
2
自己紹介
• AWS認定SA アソシエイト保有。(2015/03 取得)
• 名ばかりIPAセキュリティスペシャリスト
• 最近の興味 : 畳み込みニューラルネットワークで人間の分類を出来ないか
• 最近の母国語 : PHP(>=5.6)
• 古いPHPのことはわかりません。(<5.3)
• for文を使ったら負け。
• mapとfilterでやれ。
• かつての母国語 : C#, C++/CLI (.NET Framework)
• 「徹頭徹尾全部C#でやりましょう」とか言ってみたい。
• JavaScriptはあんまり好きではない。難しい。
• 「JSを使うところは全部TypeScriptでやりましょう」
3
使用データ発表
• 使っていただくデータは・・・
4
使用データ発表
• 使っていただくデータは・・・
2010年9月から現在までの、
東急ハンズ全店のPOS取引データ!
5
POSデータについて
• 2010/09/28 ~ 2015/08/31 までの、東急ハンズのレジの明細データ
• 購入と返品のデータが全て含まれる。
• 商品名、JANコード、商品カテゴリ、価格、取引合計金額、客層キー、見切
り値引き情報などからなる
• 明細レベルで約4億5千万レコード、取引レベルで約2億レコード
6
その他のデータについて
• 店舗情報
• 店舗コード、店舗名、店舗座標等
• カテゴリマスタ
• 大部門、部門、品番、枝番のコードと名称
• ほか、こんなデータはないか?という要望有れば、調査の上追加可能なので、
随時どんどんお知らせ下さい!
7
テーマ説明
8
テーマ説明
• 2015/09/14(月)~ 2015/09/20(日)の
東急ハンズの売上予測をして下さい!
9
テーマ説明
• 2015/09/14(月)~ 2015/09/20(日)の東急ハンズの売上予測をして下さい!
• 店舗毎売上高を推測する。
• カテゴリレベル(品番×枝番)で売れた数を推測する。
• 参照用アプリケーションを作成する。(任意)
• こんな軸考えた、という軸の追加ランキングを追加で作成していただいて
もOK。
• 答え合わせ結果とデータの処理のやり方、可視化方法、プレゼンで評価し
ます。
10
テーマ説明
• 自由課題
• 売上予測さくっと終わってしまった中上級者の方向け。
• データから課題を自由に設定して、
現在のAML で可能な範囲内の分析をしてみて下さい。
• 店舗毎の売れ方を分析して店舗キャッチフレーズを作る
• メディアでバズる商品・バズりやすいメーカーやシリーズを推定
• など・・・
• こちらも参照用アプリケーションを作成していただけるとなお素晴らしい
です。
• ハンズのメンバーからみた、新規性と実用性、可視化方法、プレゼンで評
価します。
11
提供データに関する注意点(1)
分析する上で、データの特徴や、商品の売れ方や商品の改廃について、
いくつかのキーワードレベルで知っておく必要があると思います。
以下、いくつか説明します。
• 新宿店や渋谷店のような大型店舗から、ハンズビーという業態の小型店舗まで、
店舗ごとの売上規模は、単日で見て最大2桁かそれ以上の差があります。
• クリスマス、バレンタインなど、いわゆる季節商品がかなりの割合を占めます。
• 商品取り扱いは1ヶ月以上前から始まり、当日には店頭撤去が始まるイメー
ジです。
• 8月最終木曜日から翌水曜日まではハンズメッセという年1回のバーゲンのため、
売れ方・販売商品がその他の期間と大きく異なります。
12
提供データに関する注意点(2)
• 商品コードは短期的(数ヶ月程度)にはほぼ一意の商品を指しますが、メーカー
さんによっては商品の改廃やリニューアルで使い回しをしている可能性があり
ます。
• 2,3のJANコードをリニューアルでローテーションで使っている、など。
• 負の値の取引は、返品と解釈して下さい。
• 商品コードのフィールドが
• 8桁(EAN, UPC-E)
• 12桁(UPC-A)
• 13桁(EAN)
以外のデータは、単品管理が成されていないカテゴリ単位集計の商品です。
• 5桁以下の場合は、カテゴリコードが入っていると解釈して下さい。
13
提供データに関する注意点(3)
• 天気のデータ等、ハンズ提供以外のデータを利用するのはもちろんOKです。
• 節度を持ってデータを取得して下さいね。
• 正直に言うと、キレイでないデータも混じっている可能性はあるので、
エイヤっと除外したりする勇気も必要です。
• なんだこのよく分からないデータ、というのも、気軽に随時聞いて下さい
ね。
• でも即答は出来ないかもしれません。すみません。
14
提供データに関する注意点(4)
• 提供データの本ハッカソン以外での無断利用はご遠慮下さい。
• ハッカソン期間終了後は、原則として提供データの破棄をお願いします。
• 本ハッカソンでの成果を、本ハッカソンに続いて行うミートアップ以外で発表
を考えている場合(イベント、学会発表、ブログ、論文等全て)は、
事前にお問い合わせ下さいますようお願いします。
15
提供データに関する注意点(5)
• 全データ量が多いので、AWS利用金額には注意してください。
• 料金表をちゃんと見て、ADSJさまの注意を良く聞いて下さいね。
16