データサイエンティストとビッグデータ [世間話]
はい、お久しぶりです。
えーまぁ色々とありまして人生プランをかなり変更する事になりました。
色々と決まったらちゃんと報告をしたいと思います。
で、まぁプランが変更になったので当然必要な知識も変更になり、ここ数日は日本でデータ分析とかがどんな感じで使われてるのかなぁという事について調べていました。
2年くらい前から結構ビッグデータという単語を聞いたり、それに付随してデータサイエンティストなんか聞いたりします。
それらが具体的に指してる意味って何よ?とか、それ使って何が出来るのよ?とか、どうやってやるのよ?って事を今日は書いて行きます。
データサイエンティストから。
早い話このスライドを見れば良いかと。
http://www.slideshare.net/shoheihido/120913-pfi-dist
ぱっと調べたイメージでは、
「データを分析して何らかの関連だったりパラメーターだったりを推定して、それを使って業務を改善して行ける人。」
といった所でしょうか?
研究者との大きな違いは、「見つけて報告して終了!」ではなくて実際に見つけたものから業務を改善して利益を高める所まで求められているという所でしょう。
気になった点は、どのような手法を使って解析業務をこなしているのか?です。
例えば僕みたいに回帰分析とそれを発展させた手法でゴリゴリ仮説を検証するタイプの人って結構いるんでしょうか?
それとも自然科学系でアルゴリズムとかデータマイニングを勉強してきて、データの中から関連性を見つけてくる様な人ばかりなんでしょうか?
新しい関連性とか事実を見つけてくるには後者のほうが圧倒的に有利なのは否めないでしょう。
ただ、その場合だと見つけてきた関連性に理由をつけるのが難しいのではないかな?と。そういった点では前者のほうにもある程度のメリットがありそう。
あと気になっている点は、「プログラミングのスキルってどのくらい持ってるのかな?」って事。
例えばリコメンドサービスをやりたいとして、アソシエイト分析とかで一緒に買われている商品のセットを発見できるのはわかってると。
じゃぁ片方の商品を今見ている人にもう片方を推奨するようなシステムを実装するのって誰なんでしょ?エンジニアさんなんですかね?それともデータサイエンティストなんですかね?
ビッグデータって何よ?ってお話。
ん〜サンプル数と変数の多いデータセットって所なんじゃないですかね?
ただ、データセットが大きいためにデータの処理が重くなってしまうのが難点っぽいです。
hadoopが注目される理由はおそらくそういった重い処理を分散処理で効率的にこなせる様にできるからなんでしょう。
ちょっとまだ理解できていない点は、結局分析はローカルでやるのか?それともオンラインで(hadoop上で)やるのか?って所。
オンライン上で行う場合には何かしら特別なソフトウェアを用いてるんでしょうか?
mahoutでアソシエーション分析とか協調フィルタリングとか出来るみたいですけど他はどーなんでしょ?
ちなみにhadoopについてはこの2つがとてもわかり易かったです。
http://www.ustream.tv/recorded/17517378
http://www.ustream.tv/recorded/28690598
えーまぁ色々とありまして人生プランをかなり変更する事になりました。
色々と決まったらちゃんと報告をしたいと思います。
で、まぁプランが変更になったので当然必要な知識も変更になり、ここ数日は日本でデータ分析とかがどんな感じで使われてるのかなぁという事について調べていました。
2年くらい前から結構ビッグデータという単語を聞いたり、それに付随してデータサイエンティストなんか聞いたりします。
それらが具体的に指してる意味って何よ?とか、それ使って何が出来るのよ?とか、どうやってやるのよ?って事を今日は書いて行きます。
データサイエンティストから。
早い話このスライドを見れば良いかと。
http://www.slideshare.net/shoheihido/120913-pfi-dist
ぱっと調べたイメージでは、
「データを分析して何らかの関連だったりパラメーターだったりを推定して、それを使って業務を改善して行ける人。」
といった所でしょうか?
研究者との大きな違いは、「見つけて報告して終了!」ではなくて実際に見つけたものから業務を改善して利益を高める所まで求められているという所でしょう。
気になった点は、どのような手法を使って解析業務をこなしているのか?です。
例えば僕みたいに回帰分析とそれを発展させた手法でゴリゴリ仮説を検証するタイプの人って結構いるんでしょうか?
それとも自然科学系でアルゴリズムとかデータマイニングを勉強してきて、データの中から関連性を見つけてくる様な人ばかりなんでしょうか?
新しい関連性とか事実を見つけてくるには後者のほうが圧倒的に有利なのは否めないでしょう。
ただ、その場合だと見つけてきた関連性に理由をつけるのが難しいのではないかな?と。そういった点では前者のほうにもある程度のメリットがありそう。
あと気になっている点は、「プログラミングのスキルってどのくらい持ってるのかな?」って事。
例えばリコメンドサービスをやりたいとして、アソシエイト分析とかで一緒に買われている商品のセットを発見できるのはわかってると。
じゃぁ片方の商品を今見ている人にもう片方を推奨するようなシステムを実装するのって誰なんでしょ?エンジニアさんなんですかね?それともデータサイエンティストなんですかね?
ビッグデータって何よ?ってお話。
ん〜サンプル数と変数の多いデータセットって所なんじゃないですかね?
ただ、データセットが大きいためにデータの処理が重くなってしまうのが難点っぽいです。
hadoopが注目される理由はおそらくそういった重い処理を分散処理で効率的にこなせる様にできるからなんでしょう。
ちょっとまだ理解できていない点は、結局分析はローカルでやるのか?それともオンラインで(hadoop上で)やるのか?って所。
オンライン上で行う場合には何かしら特別なソフトウェアを用いてるんでしょうか?
mahoutでアソシエーション分析とか協調フィルタリングとか出来るみたいですけど他はどーなんでしょ?
ちなみにhadoopについてはこの2つがとてもわかり易かったです。
http://www.ustream.tv/recorded/17517378
http://www.ustream.tv/recorded/28690598
コメント 0