2017年12月19日 星期二

[Data Science 到底是什麼從一個完全外行角度來看][01]開篇

image
圖片來源:https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

又到了新的一屆鐵人賽,這次和之前不一樣的是,多了團隊模式。然後,不知不覺就組成了一個團隊.... 失敗的話應該會永遠被釘死吧。

所以,為了不被釘死,要好好努力來寫啦,已經被警告,別像去年那樣,待補,結果和卡債一樣,永遠翻不了生(雖然到目前為止還在努力的補當中)。

那今年的主題是什麼呢?不是新的程式環境(OS: .Net core哪去了?),不是延伸去年內容打造更完整的建制環境(OS: 整合docker的DevOps哪去了?),而是一個完全不熟悉的領域,Data Science(資料科學)。 (如果你是工程師,那麼別錯過 1/6 在台大的 Study4.TW Study4Love - 與大師對談

今年的題目是:Data Science 到底是什麼 - 從一個完全外行角度來看


同步發佈於第九屆 2018iT 邦幫忙鐵人賽:https://ithelp.ithome.com.tw/articles/10192297

為什麼想寫這個主題?

先給各位我的背景,我其實是一個一般的Web Developer,主要使用微軟的技術,所以都是.Net、Asp .Net這些東西。從我這幾年參加過的鐵人賽可以看出,算是剛脫離junior的階段:第六屆跑去寫了java:,第七屆寫了如何自定自己的框架第八屆寫了建制Devops (也是滑鐵盧的一屆,努力還債中....),今年本來是想延續去年的主題,然後進入到Docker整合DevOps。

不過剛好在最近,因為想了解大數據(Big Data),然後有去上課(如果大家有興趣,然後在台中,可以參考看看, 最近1月也會開課:鏈接),剛好認識了Data Science的整個big picture。

不得不說,我有點震撼到,因為雖然一直以來都有聽到:Hadoop、Big Data、Machine Learning、Internet Of Things這些詞,然後也模模糊糊知道在做什麼,但是並不知道整個組合起來對世界正在造成什麼改變

雖然大家可能常常聽到,我們實在經歷工業4.0的工業革命。但是可能我們比較沒有意識到的是,每一工業革命其實都是對整個世界的巨大改變。而Data Science正是推動工業4.0的其中一個主要的推手。

image
工業革命的大事記。來源:台灣轉不動工業 4.0,如果企業經營者不丟棄成本思維

既然這麼重要,那麼正經歷變革的我們難道不需要有些了解嗎?大變革就像大海的巨浪來襲,是要準備好能在裡面游泳存活下來,還是因為措手不及而淹死?

所以,雖然對於這個領域完全是外行,而且對於我的工作上面也沒有什麼直接幫助(反而要花時間去了解),但是不記錄的話估計一個月就忘光了,因此想要借這個機會把學習到的做一個整理,方便以後回來看。

這個系列的主要程度和內容?

這個系列是給完全不了解這個領域的人看的,所以假設你有聽過Data Science(沒聽過更好)但是不知道在做什麼,那麼這個很適合。會從底層的資料到上面的Machine Learning做一個入門總覽介紹。

如果你是大神級人物(對我來說任何懂Data Science都是大神 XD),那麼也麻煩不吝指教。

整個 Data Science 其實就是在建立一個 預測模型,讓決策者可以依照這個模型去制定策略。Data Science工作就是讓這個預測模型能夠非常準確。要達到這個效果,有好多知識和技能一起組合使用才能達到。

這個系列大概會拆幾個部分:

Data Science的概觀
了解什麼是Data Science、到底在做什麼、為什麼很重要和怎麼改變世界。
Big Data的概念和Hadoop
整個的浪潮會掀起其實是因為Big Data能夠有辦法用一般電腦來做處理。因此,會先從這個部分先介紹,包含:
  • Big Data是什麼
  • Hadoop是什麼
  • 如何架設Hadoop
Data Processing - R 語言介紹
有了資料了之後,接下來就是對資料做處理。這邊會用R來介紹:
  • R的基本介紹
  • 一些統計學的介紹 - 預測其實都是統計模型,因此需要了解一些統計知識
  • 用R做資料處理
  • 視覺化資料 - 找出資料的關係
Machine Learning - 做出預測模型
有了乾淨的資料,可以來了解如何透過machine learning建立模型做出預測:
  • Machine Learning到底是什麼
  • 幾種模型的介紹
總結
一些參考資料和如何繼續下去。

需要準備什麼環境?

基本上只需要一般電腦就好,這邊範例會使用一般的Windows 10的電腦做操作,如果要在Hadoop也跟著做的話,那麼電腦記憶體要高一點,因為會用建立VM的方式架設Ubuntu。

至於後面用到的R基本上一般電腦都可以裝,所以沒有特殊要求。

結語

希望這篇讓大家有個概念,Data Science 很重要Data Science 很重要Data Science 很重要

想想,如果在做決定的時候,透過預測模型,可以讓你本來成功幾率,從-11%到+6%有利,那麼翻個幾次不就整個成功了。

下一篇,從Data Science開始介紹 - 先來了解什麼是Data Science。


沒有留言 :

張貼留言