在上一篇([14]如何問對的問題?)了解到了如何定義一個問題,那麼下一個步奏就是收集然後分析Data以解決定義的問題。
收集Data有很多方式,不過一般來說收集到的Data都需要經過一些處理才有辦法使用。
有什麼麼能處理這些Data?這篇將會對於幾種不同處理Data的方式做些介紹,並且為什麼選擇R和如何準備接下來會用到的環境,RStudio。
分析Data的工具/語言
基本上,要分析Data有兩種方式:
- 使用軟體
- 使用程式語言
使用軟體
最常見的軟體就是Microsoft Office的Excel。可以把Data喂進去,然後透過裡面一些定義好的方法能夠產生出非常漂亮的圖表或者分析表。
其他常見的還有像是tableau其實都是這種類型。
這些軟體因為有GUI所以好上手, 不過這種類型有個比較大的問題,那就是不好確保重複做會是一樣的動作。
舉例來說,如果定期會收到某些格式的資料,但是這些資料都需要經過處理才有辦法做下一步的分析,請問什麼方式才能夠確保每一次的處理動作都會一樣?在這種軟體類型其實並不容易,或者說如果要做到就需要寫一些比較不好維護的script,例如VBScript。
使用程式語言
既然GUI在處理重複性上面比較沒辦法做到,那下一個會看的就是程式語言。
在Data Science的領域裡面,有幾個語言比較流行(其實有很多,用什麼都可以):
- Python
- Scala
- R
Python屬於General Purpose Language,所以本來沒有特別傾向做什麼都可以。不過因為有很大的community都用python,導致了很多package做data science非常方便。
Scala夯起來主要是因為Spark是用Scala寫的,因此用Scala在處理Big Data在速度上面會比R和Python來的好,因此用的很多。
那R的特色呢?為什麼選擇R而不是另外兩個呢?其實不管選什麼都沒關係,重點是好不好用。所以如果已經有習慣用什麼,那就用那個。
R的歷史
了解一個語言的歷史對於整個語言的定位和特色有幫助,因此先來看看R是怎麼誕生。
R其實不是一個新的語言,它誕生至今已經有24年(從1993),而它是從S演進而來,而S當初是為了給統計學家對Fortran的SCS Library開發提供便利。
因此在R的血液裡面,主要是給統計學家用的Specialized Language。
R怎麼突然紅起來呢?個人認為主要是Big Data的興起,和另外兩個重要的推手:
- Revolution R
- 在2007出現 提供commercial support的R,能夠分散運算和處理大量資料後來被Microsoft買走
- RStudio
- 在2011出現,Open Source的R Integrated Development Environment(IDE)。讓開發R變得非常方便,並且一直持續有開發一些讓R開發更加方便的功能,像是Shiny,讓用寫R的方式建立一個互動式網站
從整個歷史會發現:
- R歷史悠久 - 換句話說很多人在用代表很多package(第三方套件) - 而且大部分都是免費。
- R是專門給統計學家用的語言 - 換句話說在處理資料、視覺化非常簡單
安裝R
R小檔案
- R官網
- https://www.r-project.org/
- 最新版本
- 3.4.3
- 檔案大小
- Windows約62MB
- R Windows 3.4.3 直接下載
- 台大Mirror
- R Mac
- 台大Mirror
- R Linux
- 台大Mirror
基本上,下載下來之後,一直下一步即可。
最後裝好之後在桌面會有一個R的icon,執行了之後會是一個command line的界面。
RStudio介紹和安裝
RStudio小檔案
- 最新版本
- 1.1.383
- 檔案大小
- Windows約85.8MB
- 下載頁面
- https://www.rstudio.com/products/rstudio/download/#download
- Windows直接下載鏈接
- RStudio 1.1.383 - Windows Vista/7/8/10
command line其實就夠了,但是如果用過IDE就知道IDE開發的速度上面差異。
因此,這邊也會裝Open Source的R IDE,RStudio。
安裝也很簡單只需要,下一步,下一步就好了,只是要注意,RStudio 並不包含 R,所以兩個要分開安裝。
安裝好了之後,在桌面不會出現,要從Windows的「開始」裡面找。
RStudio 快速介紹
主要界面
執行起來會看到畫面分了四個部分:
- 寫Script的地方 - 寫在這邊之後可以把整個script保存下來
- Console - 同等於R的Command LIne。因此Script內容就是執行在這邊
- 環境參數 - 以我這個例子,可以看到參數x的值
- 其他畫面 - 例如安裝package,繪圖的結果,檔案總管都在這邊
這邊還要注意一下箭頭的部分,如果需要縮起來(例如不需要console直接寫在script),可以按那個放大的icon,旁邊則是縮小。 所以如果沒有看到畫面注意是不是縮小了
幾個設定
設定的地方在Tools > Global Options
這邊提一下兩個設定:
- 字體和樣式
- 預設的script儲存編碼改為utf-8
字體和樣式
一般來說要先調整一下字體和樣式以符合需求:
- 切換到
Appearance
- 可以改font
- 可以改字體大小
- 可以改整個的theme
預設的script儲存編碼改為utf-8
這個是避免script存檔的時候如果有中文可能會亂碼的問題。
- 切換到
Code
- 切換到
Saving
頁簽 - 選擇
Change...
- Default Setting 改成 Utf-8
- 按下
OK
其他R IDE - Visual Studio
R Tools for Visual Studio
- 支援的VS版本
- 2015和2017
- 首頁
- https://www.visualstudio.com/zh-hant/vs/rtvs/
- VS 2017直接下載
- Community版本
R本身只是Script,所以任何自己喜歡的編輯器都可以,基本上所有編輯器都會支援R(這邊指的是例如syntax highlight等)
這邊舉得例子是Visual Studio。
Visual Studio有個 R Tools for Visual Studio,可以用Visual Studio來開發R,基本上RStudio的功能都有,然後在熟悉的界面(如果你用VS的話)
基本上安裝和一般VS安裝畫面差不多,裝完了之後會多出:
- R Tools的選項
- R project template
可以直接在R Tools > Windows > R Interactive
直接開啟Console。
結語
在這篇快速介紹了兩種不同分析Data的方式:軟體和程式語言。
再來介紹了一些比較流行的語言和R的介紹。
最後安裝了R、RStudio和R Tool For Visual Studio。
準備好了之後,在下一篇([16]用R來看股票,透過quantmod了解R的強大)來跑個人認為R的Hello World程式,用quantmod看股票。透過這個快速demo能夠了解R在資料分析和資料視覺有多麼方便。
Wynn Resorts Casino opens with $200m renovation - Goyang
回覆刪除to remodel the property, 가상화폐란 Wynn Las Vegas will 스포츠분석 debut a revamped casino resort in February. The resort 10벳 announced the 먹튀검증 먹튀프렌즈 resort 슈 의 캐릭터 슬롯 머신 will