Alan Tsai 的學習筆記

[開發工具小技巧]NimbleText - 資料處理產生符合特定結構的好用小工具

2018-03-04T01:44:00.000+08:00

圖片來源：https://pixabay.com/en/confused-muddled-illogical-880735/ 和 https://blog.xebialabs.com/2016/03/21/essential-devops-terms/

標題可能有點看不懂，因為不太確定怎麼下比較符合這個工具的主要作用。不過給一個情境應該就能夠比較了解。

有時候需要匯入資料的時候，可能會收到一個email清單，這個email清單需要匯入到DB裡面，如果是產生出匯入的sql語法請問會怎麼做呢？

如果這個email清單只有10筆，手刻sql語法問題還不大，但是如果有1000筆email呢？

在換個和程式開發比較相關的情境，假設SA開了一個清單告訴你這個class所需要的Property有什麼，請問如何快速的產生出這個property呢？

在這篇將會介紹，如何用NimbleText這個工具快速做到上面兩個情境的需求。

NimbleText介紹

NimbleText小檔案

版本的差異
使用介紹

使用情境1 - 依照清單產生出insert sql語法
使用情境2 - 產生出class的property
結語

NimbleText介紹

NimbleText小檔案

官網:http://nimbletext.com/
Live(線上版):http://nimbletext.com/Live
Desktop: 直接下載
版本差異: http://nimbletext.com/Home/Professional

NimbleText這個工具作者給他的描述是：Manipulate text and data with light-weight patterns。

簡單來說，就是把清單資料依照自己定義的範本去產生出內容。

聽起來還是有點抽象，不過等一下有範例的時候就會比較清楚。

版本的差異

NimbleText有3個版本：

Live - 線上版
Desktop - 應用程式版
Desktop + License - 應用程式版加買license

這個工具非常佛心，基本上Live和Desktop都是免費，只有進階功能才需要License。以我目前使用來說，其實Live就很夠用了。

功能版本差異 - 此圖沒有列出全部，詳細請看：http://nimbletext.com/Home/Professional

使用介紹

這邊會介紹Live的版本。

整個畫面有3個部分：

For each row in the list: 每一筆要被處理的資料
Subsitute using this pattern:範本的內容
Result:最後產生的結果

3個基本功能的畫面

在「結果」的右邊部分，能夠設定每一筆資料的:

column separator: 切割字
row separtor: 斷行字
insert: 預存的範本

切割及斷行字

最簡單的使用方式就是：

把要處理的資料丟到For each row in the list
在Subsitute using this pattern調整結果的範本。可以使用 $0代表第一個切割欄位，以此類推
在Result把最後結果複製出來

使用情境1 - 依照清單產生出insert sql語法

這個情景是，有一個清單是insert的一部分值，例如要把每一個email都產生出一個insert sql語法。

假設，拿到的清單如下：

test@test.com
bbb@test.com
ccc@test.com

最後要匯入的sql語法是要到EpaperSubscribetable裡面的email欄位：

INSERT INTO EpaperSubscribe (email)
VALUES ('$0');

最後就可以把Result複製出來在SSMS執行。

最後結果截圖

使用情境2 - 產生出class的property

假設SA開好class裡面所有的property名稱及形態，怎麼快速產生這些property？

假設得到的property類型和名稱清單如下：

int Id
string Name
DateTime CREATEDATE

要產生的property為public包含get及set的版本，範本會是：

public $0  <% $1.toPascalCase() %> { get; set;}

這邊注意到，最後一個欄位名稱是全部大寫，不過透過NimbleText的功能可以建立出符合C#命名規則的Property名稱。

如果說要建立出包含private variable的property，可以從範本裡面選做參考。

上面那個範例要能夠成功，記得column separator要改成空白。

最後產生的結果就直接貼到C#的class裡面。

產生的最後結果

結語

如果沒有NimbleText要達到上面的功能，一般會使用類似RegEx搭配產生，但是實際上並不好寫。

透過使用NimbleText讓整個的操作上變得非常的簡單，並且透過把這些pattern記錄下來隨時都可以讓一樣資料結構產生出需要的結果。

如果有更好的工具及做法也歡迎大家留言給我。

標籤: 「開發工具小技巧」,tool,C#,sql

[開發工具小技巧]在Visual Studio 快速找到對應的程式碼，多多使用「移至」(Go To)及套件Codinion

2018-02-28T19:07:00.000+08:00

圖片來源：https://pixabay.com/en/confused-muddled-illogical-880735/ 和 https://blog.xebialabs.com/2016/03/21/essential-devops-terms/

在開發的時候，能夠用Visual Studio (以下簡稱VS) 快速定義到要改或者想找到的程式碼片段很重要。

假設本來要花10秒才能夠打開要的片段，透過使用VS和套件的功能能夠在3秒內就打開，只要發生10次就能夠節省1分鐘的時間。無形之中就可以省掉很多零碎的時間。

這篇將會介紹如何用VS內建的移至 (Go to)找到某個程式碼片段，用codinion套件快速找到目前打開的檔案member。

移至 (Go to) 功能介紹

如何啟動移至的功能
幾種移至的方式
把移至的篩選限定在當前打開的檔案

使用Codinion套件做移動

套件：codinion小檔案

移至 (Go to) 功能介紹

一般來說，開啟solution之後，接下來就是要打開要修改的code檔案。例如調整某個class內容。

如果不用任何方式的話，那麼就是用Solution Explorer瀏覽到code的檔案位置然後打開。換句話說需要記得資料夾結構。

如果這個Solution並不是自己從頭到尾開發或者說專案很大的話，那麼這樣開就很花時間。

換個角度來看，既然已經知道了要改的class名稱，那麼是否能夠用那個class名稱搜索移動到那個class所在的位置？

這就是移至 (Go to)的功能。

如何啟動移至的功能

可以使用：

快捷鍵：預設是 Ctrl + ,
Menu：Edit -> Go To

用Edit Toolbar開啟設定

由於預設的快速鍵和注音輸入發的逗點快速鍵是一樣，因此很有可能按下之後還是不會出現。

因此建議調整快速鍵，以我自己為例是改成Alt+,

修改預設快捷鍵

幾種移至的方式

當把移至呼叫起來了之後，看到的畫面是：

啟動的畫面

Go To Line (Ctrl+G) 字符：: - 點下這個選項之後，可以輸入要跳過去的行數
Go To File (Ctrl+1, Ctrl+F) 字符: f - 這個選項是搜索檔名
Go To Types (Ctrl+1, Ctrl+T) 字符: t - 這個選項是搜索class、Struct、Enums、Interface和Delegate
Go To Member (Ctrl+1, Ctrl+M) 字符: m - 這個選項是搜索variable、property、method、constant、enum item和event
Go To Symbol (Ctrl+1, Ctrl+S) 字符: # - 這個選項是搜索 Types + Member

這幾個選項如果點下去，會發現其實就是在前面加上一個特殊字符。例如，Go To Line就是加上:。所以完全可以只記得一個快速鍵，就是如何把Go To呼叫起來，然後在打特殊字符做篩選。

如果沒有記錯，Go To是VS 2017才有的功能，VS 2015則是只有Navigate To。兩者最大的差異是在Navigate To沒有這些篩選項目。

把移至的篩選限定在當前打開的檔案

在剛剛那5個不同篩選項目之後都是和設定有關的內容。

這邊只提Symbol選項旁邊的那個，是Current Document (Ctrl+Alit+c)。這個選項的意思是，如果開啟的話，把搜索條件限制在當前檔案。

這個最長和Go To Member做搭配。一般來說想要快速跳到當前檔案的某個property或者method，就會限定在目前這個檔案。

不過這個方式有個缺點，因為很多時候是打搜索的文字到一半，才想起來要限制在當前檔案，這個時候如果加上這個選項，剛剛打到一半的內容會清空。由於共用一個Go To搜索框，所以當要搜索全域的時候，很有可能已經把要打的字打了一半，才發現忘記不要開這個設定，造成要重新打。

這也是為什麼用到Codinion。因為廣域和當前檔案可以分開兩個不同快捷鍵觸發（內建的Go To沒有找到這個快捷鍵）

使用Codinion套件做移動

題外話，在另外一篇有提到Codinion的另外一個功能，為不同類型欄位給出不同的顏色：[開發工具小技巧]調整Visual Studio的字形及文字顏色

套件：codinion小檔案

套件：https://marketplace.visualstudio.com/items?itemName=MartinTopfstedt.Codinion
直接下載：鏈接
官網：https://www.codinion.com/
支援的VS版本：2012、2015、2017

當初會裝Codinion的套件的原因就是因為在VS 2015無法區分，File、Member及Symbol，所以才找到了這個套件。

基本上VS內建的Go To可以取代大部分Codinion的搜索功能，不過當要在當前檔案找到某個member的時候，個人還是覺得Codinion比較好用。

以Codinion找到目前檔案的某個member為例，快速鍵是Alt+M(不確定這個是我自己改的還是內建的快速鍵)，會直接下拉出目前所有member 以及可以打來過濾：

範例畫面

這個對我來說有兩個好處：

有時候我想要看到所有的項目：因為忘記關鍵字是什麼，可以用鍵盤下來快速找
搭配設定的顏色: 這樣可以直覺的找到什麼是什麼。例如我的method是深紅色，那麼看到就可以直覺關聯起來

不過Codinion有時候啟動會比較慢，可能是因為先把清單load出來造成。因此有好有壞。

結語

能夠快速找到想要了解或者修改的程式碼是一個非常重要的技能，因為太常用到了，因此只要能夠提升速度就可以減少很多浪費的時間。

希望透過這篇能夠讓大家知道VS在這方面所提供的功能，也歡迎如果有不同的建議能夠和我做分享。

參考資料

Introducing Go To, the successor to Navigate To: 介紹Go To的功能
Codinion官網: 官網介紹Codinion的功能

標籤: 「開發工具小技巧」,Visual Studio

[開發工具小技巧]調整Visual Studio的字形及文字顏色

2018-02-25T13:06:00.000+08:00

圖片來源：https://pixabay.com/en/confused-muddled-illogical-880735/ 和 https://blog.xebialabs.com/2016/03/21/essential-devops-terms/

Visual Studio(以下簡稱VS)是.Net開發者的最主要工具，而開發者天天面對的就是寫code。所以，讓code看起來舒服，好辨識非常的重要。

這篇將會對於如何讓看code的時候更加舒服，並且透過顏色的方式讓整個code更加容易辨識。

字體及大小設定

code的字體及大小
IntelliSense的字體及大小

調整選取到同樣的參數呈現的顏色

套件：Word Highlight With Margin

套件Word Highlight With Margin小檔案

把不同的code類型給上不同的顏色

套件：codinion小檔案

結語

字體及大小設定

第一個影響到看code的舒適度是找一個適合自己的字體及字體大小。

我自己對於字體沒有太特別的研究，不過一個適合code的字體最少要符合以下幾點：

間距一致 - 也就是所謂的 Monospace Font (等寬字體)
l(小寫 L)、I(大寫 i) 以及 1(數字) 容易分辨
0(數字)、o(英文字母)以及 O (英文字母大寫) 容易分辨

Monospace Font和Propration font的差異 - 可以看到Monospace font每個字體的寬度都一樣，來源：https://en.wikipedia.org/wiki/Monospaced_font

如果不裝任何其他字體的情況下，內建的Consolas就是一個很好用的字體。VS在近幾年的版本預設都是使用consolas 因此如果沒有自己喜歡的字體，其實不用做任何調整。

在VS要調整字體相關的，可以用Font and Colors的設定選項來改，可以直接透過右上角的Quick lunch直接搜索到：

用quick lunch找到設定位置

接下來的主要設定都在這個視窗裡面。

在VS裡面會建議調整兩個地方：

code的字體及大小
IntelliSense的字體及大小

code的字體及大小

Text Editor > Plain Text就是設定主要code的字體及大小。

字體的部分沒有什麼太好的建議，我習慣用consolas，不過字體大小建議放大一點點。以我自己電腦為例，12是適合的大小：

左邊是10的截圖，右邊則是12的截圖

IntelliSense的字體及大小

另外一個可以調整的是寫code裡面出現的IntelliSense。

Editor Tooltip -> Plain Text

預設大小是9，建議大小可以調整為12，字體的部分則沒有特別的建議

設定畫面

從下面可以看出修改前後差異：

左邊是預設的大小，右邊則是改成12大小

調整選取到同樣的參數呈現的顏色

有一個常見的動作是看目前選取的參數還有在那裡有用到。預設這個顏色是灰色，建議可以改成更顯眼的顏色。

修改位置在：Text Editor -> Highlighted Reference

設定位置

修改前後的差異：

左邊是修改前灰色，右邊是修改後的黃色

套件：Word Highlight With Margin

套件Word Highlight With Margin小檔案

套件位置：https://marketplace.visualstudio.com/items?itemName=TrungKienPhan.WordHighlight-18439
直接下載：VS 2017
支援的VS版本：2012、2015和2017

上面提到的改法已經符合一般使用，不過如果還要更一步更明顯的效果，可以考慮套件Word Highlight With Margin。

不過要注意一下，這個套件和剛剛那個做法有點不同在於剛剛那個是 同一個參數 才會被highlight，這個比較像是搜索的概念，符合條件的都列出。

這個套件加了幾個特別的地方：

右邊的scroll bar會呈現目前選取的參數位置
能夠設定當目前游標移動離開的時候還保留剛剛參數選取的狀況(這個模式預設不啟用)

同樣範例用套件呈現的話：

使用套件的截圖

把不同的code類型給上不同的顏色

有時候在看code的時候，能夠容易識別出，那些是傳進來的參數，那些是方法的local參數，那些是方法能夠加強開發速度。

有個條件叫做codinion的其中一個功能就是這個作用。

套件：codinion小檔案

套件：https://marketplace.visualstudio.com/items?itemName=MartinTopfstedt.Codinion
直接下載：鏈接
官網：https://www.codinion.com/
支援的VS版本：2012、2015、2017

設定方式從Codinion (Toolbar) -> Options -> ，options裡面 Highlighting -> CSharp做調整

設定方式

下圖左邊是原本的樣子，右邊則是有加過顏色的部分。可以看到：

傳入的參數是灰色
方法是暗紅色

差異圖

透過這種方式可以一眼看出那個code屬於哪裡

題外話，codinion這個套件當初會安裝主要是為了能夠快速找到solution裡面code的功能。code的顏色這個部分則是意料之外的功能。之後在和大家介紹。

結語

天天面對VS最重要的當然是看起來要舒服，code要好辨識。因此調整為自己適合的字體及大小非常重要。

這邊的一個重點是，不管怎麼設定，適合自己的才是最好。

大家有沒有建議的修改或者常用的字體要推薦呢？

標籤: 「開發工具小技巧」,Visual Studio

[開發工具小技巧]應該怎麼用Visual Studio執行和進入debug比較省時間？搭配ReAttach套件快速進入Debug模式

2018-02-12T01:09:00.000+08:00

圖片來源：https://pixabay.com/en/confused-muddled-illogical-880735/ 和 https://blog.xebialabs.com/2016/03/21/essential-devops-terms/

最近在和同事聊天的時候，才發現到其實雖然我一直以來「以為」有多次強調該如何用Visual Studio run及進入debug比較節省時間，但是其實有些同事還是不知道。

因此，準備一系列我個人認為大家應該都會的開發工具小技巧，這篇將會從開發每天都會做的事情，run及debug開始：在用Visual Studio開發的時候，到底應該怎麼run和debug才是最有效率的方式，以及如何使用免費的套件ReAttach來讓debug流程更加的容易。

一般的開發及debug流程
如何優化run及debug的方式

以 Start Without Debugging（快速鍵 Ctrl+F5）的執行方式替代 F5
當需要debug的時候以Attach Process方式進入debug模式
以套件ReAttach讓attach process的流程更容易

ReAttach小檔案

結語

一般的開發及debug流程

在我以前剛學會Visual Studio開發的時候，那個時候我學習到的做法都是：

改程式
要測試的時候按下快速鍵：F5也就是 Start Debugging的動作（綠色的按鈕）
開始測試功能，如果需要修改，由於在debug模式，需要先停下debug模式，之後才能改
重複第一個步奏

在這個流程裡面，貌似沒有問題，但是實際上：

執行速度慢：debug模式因為要能夠debug，因此會load很多其他東西，因此造成了執行起來速度變慢
需要消耗更多資源：同上一條一樣，因為load的東西多因此消耗的記憶體也多
修改的流程消耗更多時間：由於在debug模式是無法修改，因此需要停下來才能夠修改

如何優化run及debug的方式

既然上面知道了一般的做法有什麼問題，那能夠怎麼優化呢？以下分幾個步奏來執行：

以 Start Without Debugging（快速鍵 Ctrl+F5）的執行方式替代 F5
當需要debug的時候以Attach Process方式進入debug模式
以套件ReAttach讓attach process的流程更容易

以 Start Without Debugging（快速鍵 Ctrl+F5）的執行方式替代 F5

很多時候把網站run起來的目的只是為了測試功能，因此其實不需要進入Debug模式。

題外話：養成不依賴debug功能其實是一個好的習慣，有發生錯誤先思考一下問題發生原因，而不是直接debug一步一步走，在整個的思維鍛煉上其實很有幫助。

所以養成以Ctrl + F5替代F5。

F5及Ctrl + F5在Visual Studio選項位置

不過如果測試過程要改東西怎麼辦？

這個時候可以用 Build (快速鍵 F6)來編譯修改內容。

如果有遇到Build好像沒有很成功，這個時候可以用Clean，或者Rebuild(Rebuild本質上就是clean + build)。

Build、Clean及Rebuild的Visual Studio位置

有些修改其實不需要build，因為這些是動態build出來。一般來說這種類型都是View。例如Asp.net裡面的aspx或者Razor view的cshtml。所以如果修改這種類型，連呼叫build都不需要，只需要存檔然後刷新頁面即可。

透過養成Ctrl + F5的習慣，可以減少很多啟動debug，然後停掉debug在修改所花的時間。

不過下一個問題是，如果遇到問題需要debug怎麼辦？

當需要debug的時候以Attach Process方式進入debug模式

當Visual Studioa用Start Without Debugging把網站run起來之後，這個網站會被IIS Express host起來。

而Visual Studio可以透過Attach to Process (快捷鍵: Cltr+Alt+P)attach到IIS Express達到用Visual Studio啟動debug模式。

啟動 Attach To Process 的畫面: 從Debug Toolbar找到
選擇 iisexpress.exe: 從Available Process找到iisexpress.exe，如果在清單裡面沒有，可以勾選Show process from all users

選擇iisexpress.exe

Attach完了之後，Visual Studio就會進入到一般的debug模式，剩下就和一般debug沒有什麼兩樣。

如果debug完了，停下來，網站是不會停，這個和一般F5不一樣，如果是F5啟動的，當停下debug模式的時候，整個網站也會停下來。

如果attach上去之後，發現無法下中斷點，那麼最有可能是build沒有成功或者沒有乾淨，最好就是先clean，在Ctrl + F5。

了解了Attach To Process，換個角度說其實也可以attach到一般IIS網站，甚至Remote Debug。這個完全做的到，但是這篇就不介紹了。

以套件ReAttach讓attach process的流程更容易

了解了Attach To Process之後，下一個問題就是，每一次都要開那個畫面然後找到iisexpress真的很麻煩，是否有什麼方式讓找這個process更加容易呢？

有人因此建立了一個套件，ReAttach，甚至非常佛心的Open Source以及以Free的方式發佈出來。

ReAttach小檔案

支援的Visual Studio版本：2012+
官網：https://marketplace.visualstudio.com/items?itemName=ErlandR.ReAttach
直接下載：https://marketplace.visualstudio.com/items?itemName=ErlandR.ReAttach
最新版本：2.2
Source Code：https://github.com/erlandranvinge/ReAttach

ReAttach使用非常簡單，安裝了之後，在工具列會有一個紫色的播放按鈕可以按：

ReAttach的功能

在這個功能裡面，可以按旁邊下三角形看到最近的4筆曾經有Attach過的Process。

最新Attach的Process會以第一筆呈現。

只需要選擇要Attach的Process即可。

如果說上面的Process都沒有目前想要Attach的，那麼可以先用F5，然後停下來之後剛剛那個process就會出現在第一筆。

結語

如果養成了只以Ctrl+F5的方式在Run程式，真需要debug的時候在用Attach Process的方式進入debug模式，不止能夠讓整個開發流程速度更快，也能夠鍛煉不debug情況下嘗試解決問題。

希望透過這篇，如果還沒養成這個習慣的可以先試試看，並且裝ReAttach讓整個流程變得更加順利。

如果有不同且能夠更節省開發時間的流程，也請用留言方式互相切磋切磋。

標籤: 「開發工具小技巧」,Visual Studio

[從.Net工程師的角度來看DevOps][27]如何看.Net Dll版號和如何給.Net的Dll打上版號

2018-02-11T15:51:00.000+08:00

圖片來源：https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://blog.xebialabs.com/2016/03/21/essential-devops-terms/

在上一篇([26]Package階段介紹)介紹完了Package階段主要做的兩個事情：打包的格式，以及用來區分差異的版號 (version)。

在接下來的幾篇將會介紹和版號有關的內容。

這篇會從最基本的開始，在.Net裡面是如為某一個library產生出來的dll打上版號?如何看到這個版號的資訊呢？

有寫過的相關文章
一張表看懂dll版號的值和設定版號方式 - TL;DR
如何看dll的版號？
3個版號的差異是什麼？
如何設定dll的版號？
結語

有寫過的相關文章

[.Net]Dll明明有在，為什麼出現找不到DLL錯誤 - 一次搞懂如何處理Dll版本問題(Dll Hell) - 這篇介紹的是如何在runtime的時候選擇想要執行的版本 - 也就是那個版號

一張表看懂dll版號的值和設定版號方式 - TL;DR

	Assembly Version	File Version	Product Version
作用	.Net Runtime對應 dll版本的時候看這個值	區別build出來的dll和上一個版本的差異。一般build資訊會放在這邊。	從產品的角度這個dll的版本用nuget exe產生nuget的時候，會用這個作為nuget的版號
確認dll的版號值	使用powershell： `[System.Reflection .Assembly] ::LoadFrom("d:\xxx.dll") .GetName().Version`	檔案總管右鍵 Property Details 頁簽 File Version	檔案總管右鍵 Property Details 頁簽 Product Version
設定的Attribute名稱	`[assembly: AssemblyVersion("1.0.0.0")]`	`[assembly: AssemblyFileVersion("1.0.0.0")]`	`[assembly: AssemblyInformationalVersion("1.0.0.0")]`

詳細說明往下看。

如何看dll的版號？

當dll build出來之後，可以直接對他點：

右鍵
Property (內容)
切換到頁簽 Details

裡面有兩個欄位有數字：

File Version
Product Version

建立出來的console版號

不過其實這個不是完整的版號內容，在dll裡面還有一個版號，這個版號是Assembly的版號，這個版號是.Net Reference dll看的版號。如果要看這個版號可以用powershell：

[System.Reflection.Assembly]::LoadFrom("d:\ConsoleApplication1.exe").GetName().Version

取得Assembly Version

從上面的資訊可以看出來，一個dll總共有3個版號：

File Version
Product Version
Assembly Version

這3個版號的作用是什麼呢？

3個版號的差異是什麼？

Assembly Version

這個是.Net裡面內部再用的，所以當有reference某個dll，會包含一個版號的資訊。這個版號看的就是Assembly Version這個值。

File Version

原則上這個是用來區分build和build之間差異的版本資訊。因此，一般來說這個會包含像是build number這種資訊。

很有可能Assembly的版號還沒更新，但是在開發的過程，每一次build可能都不一樣，那麼這個時候File Version可能就會因此提升來表示這次build和上次build不同。

Product Version

這個主要用來表示，從一個產品的角度之間的差異。

如果用nuget建立出nuget的package，那麼nuget預設使用Product Version作為版號。

如何設定dll的版號？

到目前為止了解了3種不同版號的用意及如何看到這些版號的值，接下來就是如何在build的時候把這些版號資訊寫進去。

在建立任何專案的時候，都會自動建立出Properties\AssemblyInfo.cs這個檔案。

這個檔案包含一些dll的meta資訊，例如assembly的名稱，assembly描述等。其中一塊就是用來定義3個版號資訊。

這3個attribute分別為：

assembly: AssemblyVersion: 對應到 Assembly Version
assembly: AssemblyFileVersion: 對應到File Version
assembly: AssemblyInformationalVersion: 對應到Product Version

其中 AssemblyInformationalVersion預設不存在，是需要自己手動添加。

設定內容的截圖

結語

這篇介紹了在.Net裡面的3個版號值的名稱，以及怎麼查到一個dll這三個值的方式。

再來介紹了如何在.Net專案透過設定Properties\AssemblyInfo.cs這個檔案來設定build出來的dll的3個值。

在下篇將會介紹版號的組成構架應該是如何，並且使用最常見的版號模式 SemVer 2.0（又稱為Semantic Version 2.0）

標籤: 「從.Net工程師的角度來看DevOps」,「iThome 第八屆鐵人賽」,devops,.net

[從.Net工程師的角度來看DevOps 26]Package階段介紹

2018-02-10T22:50:00.000+08:00

圖片來源：https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://blog.xebialabs.com/2016/03/21/essential-devops-terms/

在上一篇([25]在Visual Studio Team Services執行Build Script和CI Server總結)介紹完了VSTS的build建制之後，基本上build階段算是告一個段落了。

到目前為止，我們的build script不管是在CI Server那一端，還是在local端都能夠執行一樣的build script來產生出能夠執行的內容。

接下來就要進入另外一個階段，也就是怎麼把產生出的內容打包成為適合發佈用的階段，也就是：package。

這篇將會對於package階段的內容做個基本介紹。

Package階段在做什麼
常見的Package格式

壓縮檔 - zip
nuget
Web - web deploy package
DB - dacpac

版號的重要性
結語

Package階段在做什麼

還記得在一開始([02]什麼是DevOps？)介紹CI和CD的整個大框架的時候，有個部分叫做Package - 專門用來在Continus Delivery階段的時候執行：

Package階段

那package實際上是在做什麼事情呢？其實想一下，當我們把程式碼編譯了之後一般來說會做什麼？

是不是會把編譯過的內容更新到機器上面？那要更新過去會遇到一個問題，就是怎麼打包讓攜帶過去更新的時候更加的方便。

既然提到了打包，那麼和直覺的下一個問題就是，打包成為什麼格式。

常見的Package格式

一般來說在.Net的世界裡面有幾種類型的格式：

壓縮檔 - 例如 zip
nuget - 共用library
web在用 - web deploy的package
DB - dacpac

壓縮檔 - zip

一般來說會把編譯過的內容打包成為zip只有一個目的，就是copy過去的時候更快速和方便。由於通用性很好，因此大部分的package本質上都是zip。

不管什麼類型的專案和檔案，也不管目標是什麼版本的windows，基本上把zip帶過去解壓縮就可以用了。因此zip是最常見的一種package方式。

這種類型偏向於是要把程式更版或者提供給他人能夠直接使用。

nuget

如果今天開發的是一個library或者說是用來輔助開發使用的內容，那麼包成nuget是最適合的package。

nuget本質上也是zip，不過和zip不同之處在於他有一些meta資訊，可以提供一些像是package內容說明和版號等資訊。

如果是公開的library，那麼可以放到Microsoft提供的nuget server，或者可以自己架設內部的nuget server。

關於如何建立nuget package，可以參考我部落格裡面和nuget標籤有關的內容：直接連接

Nuget介紹- 如何使用和建立自己的package from Alan Tsai

Web - web deploy package

如果今天要更新的內容是網站類型的內容（例如Asp.Net網站）要更新到IIS，那麼 web deploy package是一個很適合的格式。

Web deploy package本質上也是zip，不過裡面有一些額外資訊可以讓IIS裡面的Web Deploy讀懂，讓更新的時候做到差異更新。

DB - dacpac

如果今天是要更新db schema的部分，那麼dacpac是很適合的格式。

dacpac本質上也是zip，不過裡面記錄了一些資訊，然後工具執行更新的時候，知道需要異動那些schema。

從某種程度來說，dacpac就是同等於web deploy package在IIS裡面的地位。

雖然DB很重要，但是在這個系列不會介紹到dacpac的建立

版號的重要性

了解了不同類型的package格式了之後，下一個問題就是，在可以支援更新的那種package（也就是除了zip以外的所有package），是要怎麼知道到底有沒有更新呢？或者說怎麼知道要更新的內容和目前的內容之間的差異有多少呢？

這就不得提到版號了。

舉個簡單例子，今天裝了Json.Net 1 版的nuget，那麼如果2版出來的時候，因為版號的差異就可以知道屬於往上升的情況。

因此版號的機制非常重要，好的版號機制能夠讓管理的人有個基本概念知道，更新的內容是否會有breaking change。

結語

在這篇介紹了package的兩個基本概念：

格式
版本

基本上格式的部分了解差不多了，剩下只需要了解怎麼產生即可。

不過版本的部分牽涉的內容更多，因此接下來的篇幅將會在更深入的介紹版本的基本概念，以及如何產生版號。

標籤: 「從.Net工程師的角度來看DevOps」,「iThome 第八屆鐵人賽」,devops,.net,nuget

[Data Science 到底是什麼從一個完全外行角度來看][18]R語言基礎中篇 - 1維度資料結構介紹

2018-02-10T20:52:00.000+08:00

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([17]R語言基礎上篇 - 語言特性和資料形態)提到R的Language Paradigm和R的Data Type。

裡面有提到，R其實是Vector base，換句話說一切都是vector。那vector到底有哪幾種（換句話說就是有哪些Data Structure）？

這篇將對R裡面的1維度Data Structure做介紹。

這篇的範例程式碼在github： alantsai/blog-data-science-series 裡面的 src/chapter-18-r-1-dimension-data-structure

R的Data Structure
vector - 1維並且所有內容要是一樣的type

如何建立vector
如何使用vector
如何新增和刪除資料

list - 1維但是內容形態可以不一樣

如何建立list
如何使用List

結語
參考資料

R的Data Structure

在R裡面的Data Structure基本上可以從兩個面向來看：

幾個維度
是否整個資料屬於同一個type

幾種data structure

如果上面的描述還是看不太懂，那麼往下看就會了解這兩個面向的意思。

vector - 1維並且所有內容要是一樣的type

vector是一切的基礎，像我們之前的3+5回傳的是一個vector，裡面只有一個值 5。

如何建立vector

如果要建立一個vector，使用的是c這個function，例如，假設有一組資料要代表成績：

score <- c(20,10,50,60)
score

結果是：[1] 20 10 50 60

上面可以看到，vector只有一個維度，並且都是numeric。

vector沒辦法混不同形態，所以假設如下面，如果最後一個分數不小心用引號包起來：

scoreError <- c(20,10,50,"60")
scoreError

那麼最後結果會是：[1] "20" "10" "50" "60"

注意到了嗎，被轉換成了所有都是char - 而不是數字

除了用c之外，還有一些別的方式可以建立vector，例如假設要建立1到5，可以用：

oneToFive <- 1:5
oneToFive

執行結果：[1] 1 2 3 4 5

如何使用vector

如果要從vector取值，可以用中括弧([])取，不過和一般語言不一樣，它是從1開始算起，而不是0。

例如上面的分數，如果要取得第三個人的分數，可以用：score[3]

除了用取那一筆的方式取得值，也可以用logic值來說這個vector是否要取到，下面例子就是用logic vector 來取值。

假設要找出所有分數在30分以上，可以用：

score > 30
score[score > 30]

第一個得到是一個vector logic，然後用他來取得值

vector logic可以有很多其他運用，舉例來說，如果要找出分數在30以上的比例，可以用：

mean(score > 30)，得到的結果是0.5

因為30以上有2筆，總共4筆，所以是百分之50.

上面那個可以work是因為，logic的FALSE和TRUE其實就是0和1。所以直接做平均從（mean）就是把0和1 相加然後除去總數。

如何新增和刪除資料

要新增一筆資料其實非常簡單，只需要把值assign 到對應的位置即可。

例如假設第5個人的分數是100，那麼可以這樣做：

score[5] <- 100

反過來，如果要刪掉，其實就是重新assing就可以。例如把第5筆資料刪掉就會是：

score <- score[1:4]

上面提到的一些使用和增刪資料和接下來的structure操作起來概念一樣，因此不會特別在介紹。

list - 1維但是內容形態可以不一樣

如果說資料是1個維度但是每一個資料的形態不同，那麼可以使用list。

如何建立list

c是用來建立vector，而list就是用來建立list用。

舉例來說，假設最後一個不知道為什麼是字串，那麼：

listScore <- list(20,10,50,"60")

那麼listScore的值會是：

更合理一點的例子會是，假設要把每一個分數的對應使用者名稱也加上，就可以用兩個vector在用list組合：

name <- c("A", "B", "C", "D")
                scoreWithName <- list(name,score)

這個時候scoreWithName就會是：

[[1]]
                [1] "A" "B" "C" "D"
                
                [[2]]
                [1] 20 10 50 60

如何使用List

雖然list是1維，但是因為可以不同形態，所以很有可能裡面包的是一個vector，甚至是list，因此在取值的方式上面有些許的不同。

要取得第一個list資料用的是兩個中括弧，因此，假設想要取得第一個人的名字，用法會是：

scoreWithName[[1]][1]
                # A

其他和一般vector沒有太大兩樣。

以剛剛的例子，貌似要建立分數和名稱的對應需要用list，但是實際上不太建議，因為取值的時候不太方便並且不直覺。後面介紹的dataframe 反而會是比較適合的形態。

結語

在這篇介紹了R的兩種資料結構，分別為1維度同類型的vector及1維度但可以不同類型的list。

在下一篇將會把整個資料結構做個總結，分別介紹2維度同類型的matrix，及2維度不同類型的dataframe

參考資料

Advanced R 裡面介紹 Data Structure: http://adv-r.had.co.nz/Data-structures.html

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science,R

[Data Science 到底是什麼從一個完全外行角度來看][17]R語言基礎上篇 - 語言特性和資料形態

2018-01-16T23:32:00.000+08:00

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([16]用R來看股票，透過quantmod了解R的強大)用了quantmod快速了解如何使用R並且用他來做資料處理的便利性。

在這篇將會更深入一點點的介紹R的語言特色、幾種不同的資料形態。

這篇的範例程式碼在github：alantsai/blog-data-science-series 裡面的 src/chapter-17-r-language-paradigm-data-type

R的語言特性（Language Paradigm）

Vector Base - 一切都是向量
Functional Programming

R的資料形態(data type)
這篇有用到的R function
結語

R的語言特性（Language Paradigm）

基本上現在任何程式語言都會有多個語言特性，例如C#一開始屬於Object Oriented Language，不過後來吸收了一些別的特性，又多出了像是Functional Language的特性等。知道了語言特性之後，對於整個運作模式會比較了解。那R是屬於什麼類型呢？

基本上，個人覺得R有兩個重要的特性：

Vector Base
Functional Programing

Vector Base - 一切都是向量

基本上在R裡面，最基本的組成是vector，因此就算一個簡單的2+3，最後的結果其實是一個vector：

可以看到最後的結果是 5，不過他的值是[1] - 換句話說就是vector的第一筆

題外話 - 在R裡面，assign variable用的是 <-。雖然用=也可以，但是因為=在特殊地方有特殊含義，因此還是建議用<-。

vector為導向有什麼特別的嗎？vector為主對於做運算非常方便：

單數運算

如果是對單數做加減乘除，會把所有的vector都加上那個值。

b <- c(2,3)
b * 2

可以看到，在vector裡面兩個值都被*上2

兩個vector運算

如果是兩個vector相加，那麼對應的位置會互加。

c <- c(6,7)
b+c

可以看到，對應位置的會互相加

要做到這種所有內容都要運算，一般語言都要用到loop才有辦法做到。不過vector base基本上就不需要，這也是為什麼雖然R有支援loop但是用到比較少。

Functional Programming

基本上R可以理解為functional programing language。因此如果很熟悉functional programming的開發方式，會覺得很親切。

舉例來說，剛剛那個所有vector都+2的範例，如果改成functional寫法可以是：

sapply(b, function(x){x + 2})

得到的結果會是：[1] 4 5

這邊的意思是，對於每一個bvairable的每一個值，會對他們執行一個anonymous function （匿名函數），這個function就是把值+2

apply類型的function很常見，例如：lapply、sapply、vapply等。

基本上每一個用途差不多，差異在於回傳的形態。

如果C#有習慣用lambada，會覺得其實很親切，這個其實就是C#從functional language學習到的特色之一。

R還有一些別的特性，不過個人認為上面兩個最重要，並且因為這兩個的關係，所以雖然R支援loop，但是使用比較少(所以也不會特別介紹)。

對於特性有點概念了之後，來看看R裡面的形態和其他資料結構。

R的資料形態(data type)

R和一般語言不一樣，在C#裡面如果有個variable是int，例如：int a，那麼a的形態就是integer。

但是在R裡面，雖然資料形態是integer，但是他的底層是vector，這也是為什麼說R是vector base，因為一切都是vector。 integer只是代表裡面儲存的資料形態而已。

資料形態	範例值	Note
Logical	`TRUE`, `FALSE`, `T`, `F`	注意要全大寫
Numeric	`10.5`, `2.5`
Integer	`1L`， `2L`	注意後面要加上 `L`
Character	`"abc"`, `'123'`, `"TRUE"`	單引號 `'`或者雙引號 `"`都可以
Complex	`3 + 2i`
Raw	`charToRaw("hello")`
Factor	`factor(c("male", "female"))`	Factor其實就是c#的enum Factor不算data type，不過歸在這邊比較好看

資料形態	範例
Logical	l <- c(TRUE, FALSE, T, F) class(l) is.logical(l)
Numeric	n <- c(10.5, 2.5) class(n) is.numeric(n)
Integer	i <- c(1L,2L) class(i) is.integer(i)
Character	char <- c("abc", '123', 'TRUE') class(char) is.character(char)
Complex	complex <- c(3 + 2i) class(complex) is.complex(complex)
Raw	raw <- charToRaw("hello") class(raw) is.raw(raw)
Factor	gender <- factor(c("male", "female")) class(gender) is.factor(gender)

要非常注意這些Data Type非常重要，之後在分析資料的時候很有可能因為形態錯誤的關係導致使用的演算法結果錯誤。

因此了解這些基本形態會減少掉之後很多問題。

這篇有用到的R function介紹

在這邊用到了三個R的方法（還有c不過這個下一篇介紹）：

class: 這個用來看variable裡面的data type是什麼
is.*: 用來判斷某個variable的class符不符合。
有個function是as.*，用來做轉型用。
factor(): 把vector轉成factor

結語

在這篇首先對R的語言特性先做了介紹，了解到兩個最重要的特性：

Vector base
functional programming

再來看了R裡面的每一個最小單位的不同形態。

在下一篇將會介紹R裡面的資料結構（Data Structure），和如果有問題如何找到相關的文件。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science,R

[Data Science 到底是什麼從一個完全外行角度來看][16]用R來看股票，透過quantmod了解R的強大

2018-01-03T23:05:00.000+08:00

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上篇([15]R是什麼？準備開發R的環境 - RStudio介紹)了解了R的歷史和準備好了接下來的開發環境之後，就可以開始用R來做分析了。

一般來說，在學新的語言都會先看看所謂的Hello World，了解整個語言的Syntax和感覺。

不過R不是一般型的程式語言，是給統計學家用的語言。因此，個人覺得如果只是看Hello World好像看不出來R特別的地方，不過如果直接學語法又太無聊。

因此，這邊透過安裝和使用quantmod這個套件，並且用它來簡單分析股票作為R的入門介紹。

這篇的範例程式碼在github：alantsai/blog-data-science-series 裡面的 src/chapter-16-r-quantmod-intro

quantmod是什麼？
用quantmod分析google股票

安裝和載入quantmod套件
取得google股票資訊和分析得出內容
畫出走勢
畫出黃金和死亡交叉線

結語
參考資料

quantmod是什麼？

quantmod是一個R的套件，全稱是Quantitative Financial Modelling and Trading Framework for R ，它是一個套件用來做股票相關分析。

接下來將會用quantmod來分析google的股票。

用quantmod分析google股票

接下來會分幾個階段進行：

安裝和載入quantmod套件
取得google股票資訊和分析得出內容
畫出走勢
畫出黃金和死亡交叉線

安裝和載入quantmod套件

第一個指令是：library("quantmod")

可以直接放在左上角的script裡面，或者左下角的console執行。

在之後只要看到R的script裡面有出現：library，或者require，表示要載入套件到目前的session。

舉例來說，如果看到library("quantmod")表示需要套件quantmod，這個時候如果沒有這個套件就記得要安裝。

安裝方式有兩種：

透過指令 - install.packages
透過gui

嚴格來說只有一種方式，就是指令，因為gui其實也是呼叫指令。

使用GUI的話，有幾種做法：

選擇右下角的 install
在package名稱輸入 quantmod - 這邊會注意到會有auto complete的效果
最後按下安裝

用gui安裝package

實際上，這個動作同等於在console呼叫install.packages("quantmod")，這邊有件事情要注意一下，安裝的時候會出現紅色的字，那個不是錯誤，只是在這個theme的情形下的訊息。

安裝的畫面

取得google股票資訊和分析得出內容

在這個部分的指令如下：

# 取得google的股票，並且看看前6筆資料
getSymbols("GOOG")
head(GOOG)

這邊用了兩個指令：

getSymbols

這個是quantmod提供的方法，GOOG是google的股票代號，這個資料是從yahoo股市來。

head

這個是r base（核心）的方法，表示看前6筆的資料。

這個會很常看到，當拿到Data不知道是什麼的時候，就會呼叫head看一下內容。

執行結果

head出來的結果看到有6個欄位：

GOOG.Open - 就是開盤價
GOOG.High - 最高價
GOOG.Low - 最低價
GOOG.Close - 收盤價
GOOG.Volime - 成交量
GOOG.Adjusted - 還原權值

每一列是一個日期，換句話說就是每一天。

還記得之前提到Data Science的3個圈圈嗎？其中一塊就是Domain Knowledge。如果不懂股票，那麼剛剛那些數值其實沒有任何意義。接下來也沒有辦法做分析。

畫出走勢

看股票的就知道，會看一個所謂的走勢圖，quantmod讓畫這個走勢圖非常的簡單，只需要呼叫：chartSeries(GOOG)

畫出走勢圖，從20070103到20180102

可以把這張圖放大（放大鏡 Zoom）或者另存（圖片Export）

這個的區間可能非常長，可能看不太清楚，因此可以限制變成只分析進3個月的資料： chartSeries(GOOG["2017-11-03::2018-01-03",])

還記得整個資料像是一個table的樣子，那麼等於我們在限制row（列）的部分，因為每一列是日期。

只顯示3個月

這個是國外的軟體，所以綠色代表漲，紅色代表跌。又是另外一個Domain Knowledge。

畫出黃金和死亡交叉線

有了資料和走勢，接下來是做一些分析。

在股票來說，有個所謂的黃金交叉新和死亡交叉線。

基本上有個概念叫做移動平均數（Moving Average MA），例如如果計算3天均數就是把三天的價加總算出平均。那這個會隨著天數移動，因此叫做移動平均數。

如果一個長期的MA（例如60日季線）屬於下降然後短期的MA（例如20日月線）屬於上升並且交叉，就稱之為黃金交叉，原因是整個趨勢屬於上漲。

死亡交叉是一樣概念，只是反過來。短期的MA屬於下降，然後長期屬於上升，兩者交叉的時候就是死亡交叉。

還是要強調，Domain Knowledge的重要，小弟我不懂股票，了解這個概念也是花了一點時間。

有了這個概念之後，來執行以下語法：

# 計算 20日和60日均線
ma20<-runMean(GOOG[,4],n=20)
ma60<-runMean(GOOG[,4],n=60)
head(ma20, 25)

# 畫上線
chartSeries(GOOG["2017-01-03::2018-01-03",], theme = "white")
addTA(ma20,on=1,col="blue")
addTA(ma60,on=1,col="red")

這邊用了一個新的方法，但是大部分都是quantmod的方法，因此不介紹了，不過有三個地方做一下說明：

runMean(GOOG[,4], n=20)

重點在GOOG[,4]。

這邊有兩個部分：

還記得MA的計算是用收盤價，所以我們要用所有的資料，因此逗點前面是空白，剛好和剛剛過濾日期是顛倒
這邊用的是第四個欄位，也就是收盤價的欄位。R裡面的index是從1開始，而不是像一般從0開始

指令：head(ma20,25)

這邊指的是看前25筆，由於是20日均線，所以前20筆是NA因為不夠計算。

指令：chartSeries(GOOG["2017-01-03::2018-01-03",], theme = "white")

之前只顯示前3個月沒辦法很好的畫，所以把整個時間拉長到1年，並且改成白色比較方便畫線。

畫上均線

結語

希望透過透過這個範例可以看出R的一些特點：不管在過濾列的資料和欄的資料都可以用簡單array的感覺來做到，並且在繪圖上面和呈現非常方便。

不過要注意的是，這邊很多指令都是和quantmod這個套件有關，因此在一般其他的Exploratory analysis比較沒辦法使用到。

因此在接下來將會在下一篇([17]R語言基礎上篇 - 語言特性和資料形態)介紹R的特性，和其他語言差別在哪別和一些特色。

參考資料

quantmod官網: 官網資料使用範例
第一次使用R語言做回測：六分鐘，就上手!: 這篇基本參考了這個部落格裡面內容做介紹，部落格還有延伸一些預測會賺多少的介紹。
http://www.bituzi.com/2014/12/Rbacktest6mins.html

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science,data processing,R

[Data Science 到底是什麼從一個完全外行角度來看][15]R是什麼？準備開發R的環境 - RStudio介紹

2018-01-03T00:10:00.000+08:00

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([14]如何問對的問題？)了解到了如何定義一個問題，那麼下一個步奏就是收集然後分析Data以解決定義的問題。

收集Data有很多方式，不過一般來說收集到的Data都需要經過一些處理才有辦法使用。

有什麼麼能處理這些Data？這篇將會對於幾種不同處理Data的方式做些介紹，並且為什麼選擇R和如何準備接下來會用到的環境，RStudio。

分析Data的工具/語言

使用軟體
使用程式語言

R的歷史
安裝R

R小檔案

RStudio介紹和安裝

RStudio小檔案

RStudio 快速介紹

主要界面
幾個設定

字體和樣式
預設的script儲存編碼改為utf-8

其他R IDE - Visual Studio

R Tools for Visual Studio

結語

分析Data的工具/語言

基本上，要分析Data有兩種方式：

使用軟體
使用程式語言

使用軟體

最常見的軟體就是Microsoft Office的Excel。可以把Data喂進去，然後透過裡面一些定義好的方法能夠產生出非常漂亮的圖表或者分析表。

其他常見的還有像是tableau其實都是這種類型。

這些軟體因為有GUI所以好上手，不過這種類型有個比較大的問題，那就是不好確保重複做會是一樣的動作。

舉例來說，如果定期會收到某些格式的資料，但是這些資料都需要經過處理才有辦法做下一步的分析，請問什麼方式才能夠確保每一次的處理動作都會一樣？在這種軟體類型其實並不容易，或者說如果要做到就需要寫一些比較不好維護的script，例如VBScript。

其實GUI類型的工具都沒有辦法很容易做到自動化或者確保重複操作會一致。

使用程式語言

既然GUI在處理重複性上面比較沒辦法做到，那下一個會看的就是程式語言。

在Data Science的領域裡面，有幾個語言比較流行（其實有很多，用什麼都可以）：

Python
Scala
R

Python屬於General Purpose Language，所以本來沒有特別傾向做什麼都可以。不過因為有很大的community都用python，導致了很多package做data science非常方便。

Scala夯起來主要是因為Spark是用Scala寫的，因此用Scala在處理Big Data在速度上面會比R和Python來的好，因此用的很多。

那R的特色呢？為什麼選擇R而不是另外兩個呢？其實不管選什麼都沒關係，重點是好不好用。所以如果已經有習慣用什麼，那就用那個。

R的歷史

R Logo

了解一個語言的歷史對於整個語言的定位和特色有幫助，因此先來看看R是怎麼誕生。

R其實不是一個新的語言，它誕生至今已經有24年（從1993），而它是從S演進而來，而S當初是為了給統計學家對Fortran的SCS Library開發提供便利。

因此在R的血液裡面，主要是給統計學家用的Specialized Language。

R怎麼突然紅起來呢？個人認為主要是Big Data的興起，和另外兩個重要的推手：

Revolution R: 在2007出現提供commercial support的R，能夠分散運算和處理大量資料後來被Microsoft買走
RStudio: 在2011出現，Open Source的R Integrated Development Environment（IDE）。讓開發R變得非常方便，並且一直持續有開發一些讓R開發更加方便的功能，像是Shiny，讓用寫R的方式建立一個互動式網站

R的歷史

題外話，任何一個火紅的軟體/語言都需要有個重大推手，像git其實2005年就誕生了，但是整個火紅起來是因為2011誕生的Github。

從整個歷史會發現：

R歷史悠久 - 換句話說很多人在用代表很多package（第三方套件） - 而且大部分都是免費。
R是專門給統計學家用的語言 - 換句話說在處理資料、視覺化非常簡單

因此，接下來會用R來入門。

安裝R

R小檔案

R官網: https://www.r-project.org/
最新版本: 3.4.3
檔案大小: Windows約62MB
R Windows 3.4.3 直接下載: 台大Mirror
R Mac: 台大Mirror
R Linux: 台大Mirror

基本上，下載下來之後，一直下一步即可。

最後裝好之後在桌面會有一個R的icon，執行了之後會是一個command line的界面。

執行起來的畫面

RStudio介紹和安裝

RStudio logo

RStudio小檔案

最新版本: 1.1.383
檔案大小: Windows約85.8MB
下載頁面: https://www.rstudio.com/products/rstudio/download/#download
Windows直接下載鏈接: RStudio 1.1.383 - Windows Vista/7/8/10

command line其實就夠了，但是如果用過IDE就知道IDE開發的速度上面差異。

因此，這邊也會裝Open Source的R IDE，RStudio。

安裝也很簡單只需要，下一步，下一步就好了，只是要注意，RStudio 並不包含 R，所以兩個要分開安裝。

安裝好了之後，在桌面不會出現，要從Windows的「開始」裡面找。

RStudio 快速介紹

主要界面

執行起來會看到畫面分了四個部分：

寫Script的地方 - 寫在這邊之後可以把整個script保存下來
Console - 同等於R的Command LIne。因此Script內容就是執行在這邊
環境參數 - 以我這個例子，可以看到參數x的值
其他畫面 - 例如安裝package，繪圖的結果，檔案總管都在這邊

這邊還要注意一下箭頭的部分，如果需要縮起來（例如不需要console直接寫在script），可以按那個放大的icon，旁邊則是縮小。所以如果沒有看到畫面注意是不是縮小了

R主要界面

幾個設定

設定的地方在Tools > Global Options

開啟設定畫面

這邊提一下兩個設定:

字體和樣式
預設的script儲存編碼改為utf-8

字體和樣式

一般來說要先調整一下字體和樣式以符合需求：

切換到 Appearance
可以改font
可以改字體大小
可以改整個的theme

調整樣式

預設的script儲存編碼改為utf-8

這個是避免script存檔的時候如果有中文可能會亂碼的問題。

切換到 Code
切換到Saving頁簽
選擇 Change...
Default Setting 改成 Utf-8
按下OK

設定RStudio的預設字集

其他R IDE - Visual Studio

R Tools for Visual Studio

支援的VS版本: 2015和2017
首頁: https://www.visualstudio.com/zh-hant/vs/rtvs/
VS 2017直接下載: Community版本

R本身只是Script，所以任何自己喜歡的編輯器都可以，基本上所有編輯器都會支援R（這邊指的是例如syntax highlight等）

這邊舉得例子是Visual Studio。

Visual Studio有個 R Tools for Visual Studio，可以用Visual Studio來開發R，基本上RStudio的功能都有，然後在熟悉的界面（如果你用VS的話）

基本上安裝和一般VS安裝畫面差不多，裝完了之後會多出：

R Tools的選項
R project template

可以直接在R Tools > Windows > R Interactive直接開啟Console。

結語

在這篇快速介紹了兩種不同分析Data的方式：軟體和程式語言。

再來介紹了一些比較流行的語言和R的介紹。

最後安裝了R、RStudio和R Tool For Visual Studio。

準備好了之後，在下一篇([16]用R來看股票，透過quantmod了解R的強大)來跑個人認為R的Hello World程式，用quantmod看股票。透過這個快速demo能夠了解R在資料分析和資料視覺有多麼方便。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science,data processing,R

[Data Science 到底是什麼從一個完全外行角度來看][14]如何問對的問題？

2018-01-01T21:26:00.000+08:00

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([13]Data的運用 - 介紹篇)了解了整個Data Process Workflow會經過的每個步奏，並且了解到越前面的越重要

因此這篇將會從最重要的部分開始，怎麼定義一個好的問題？

什麼是好問題？

定義資料範圍
定義預測結果內容
定義預測準確度
定義使用情境
怎麼建立這個模型

看看最後定義的問題
結語

什麼是好問題？

這個聽起來好像不是很難，但是定義明確的問題會讓後面的一些決定變得更加簡單。

舉例來說，假設今天我們的問題是：預測飛機是否會準時到達？

感覺好像很明確了，就是要預測飛機的到達時間，但是如果深入往下想，這個其實還是他廣泛了：

定義資料範圍：資料的範圍在哪裡？那裡的飛機？那些機場的飛機？這些問題對於收集資料非常重要
定義預測的結果內容：最後預測是什麼類型的預測？
定義預測的精準度（Accuracy）：怎麼樣的準確度是可以接受的？
定義使用情境：會怎麼樣使用這個模型？
怎麼建立出這個模型：流程是什麼？

接下來對於每個部分做一些說明，並且看看這個怎麼能夠調整原本的問題。

定義資料範圍

全世界飛機那麼多，到底是要看哪裡到哪裡的飛機？這個非常重要，因為這個會決定第二個步奏裡面的收集資料的方式和方向。

舉例來說，如果今天預測的是美國的飛機，那麼就可以開始找關於美國方面的航班資料。

這個時候，會找到美國Department Of Transport（DOT）有提供資料是美國國內航班的實際起降時間

這個時候整個的問題變成：

使用從美國DOT取得到的資料，預測美國國內飛機是否會準時到達？

定義預測結果內容

既然找到了資料來源，這個時候可以快速看一下DOT所提供的欄位有什麼。

飛機遲到的欄位

從上圖會看到，其實裡面的欄位有幾個和是否延遲(delay)有關係，其中指出的那個是一個binary 欄位，如果延遲超過15分鐘，那麼就會是1，不然就是0。

所以，整個問題變成：

使用從美國DOT取得到的資料，預測美國國內飛機是否會延遲？

這個其實很重要，因為知道結果是0或1這種預測值，之後在Machine Learning選擇Algorithm就可以把一些例如預測數值的Algorithm剃掉。

定義預測準確度

接下來問題會變成，到底準確度到什麼程度是可以接受？也就是，多少預測失敗是可以接受？

一般來說，如果簡單一點，會從大約70%作為目標，因此整個的問題變成：

使用從美國DOT取得到的資料，預測精準度在70%以上，美國國內飛機是否會延遲？

定義使用情境

到目前為止其實比一開始的問題明確，但是如果沒有跟著步奏走下來看的人其實還搞不懂這個情景是什麼。例如：怎麼樣叫做延遲？

所以整個問題可以調整變成：

使用從美國DOT取得到的資料，預測精準度在70%以上，美國國內飛機的降落時間是否會比預定的降落時間晚15分鐘？

怎麼建立這個模型

到目前為止對於最終目標和資料取得的地方都明確了，不過對於怎麼到達最終結果並沒有定義的很清楚。

因此，以假設要建立Machine Learning的預測模型來做這個預測，那麼整個的問題變成：

透過整個Data Processing Workflow的流程，對從美國DOT取得到的資料做清理並且透過Machine Learning建立出預測模型，預測精準度在70%以上，美國國內飛機的降落時間是否會比預定的降落時間晚15分鐘？

看看最後定義的問題

如果把原本的問題和最後得到的問題做比較：

預測飛機是否會準時到達？
透過整個Data Processing Workflow的流程，對從美國DOT取得到的資料做清理並且透過Machine Learning建立出預測模型，預測精準度在70%以上，美國國內飛機的降落時間是否會比預定的降落時間晚15分鐘？

最後的問題很明確：

資料從哪裡來
最後用Machine Learning建立預測模型
準確度目標是70%以上
預測結果是飛機的降落時間是否比預定時間晚15分鐘

可以想象，有了這些明確目標，對於接下來Workflow的每個步奏有問題的時候都可以回來看。

例如，Exploratory Analysis階段的時候，可以盡量找可能和延遲有關的欄位，在Machine Learning的階段，會找和Supervised Learning有關的Algorithm（因為要建立的是預測模型），然後Algorithm是Binary Classification（因為結果是0或1代表延遲或沒有延遲）

上面有些詞目前還看不懂沒關係，因為後面都會介紹。

因此可以發現真的是越前面的階段越重要，因為失之毫釐，差以千里，因此也很用可能會在每個階段來來回回。

如果想一下，其實任何事情都是這樣，專案成不成功一開始的系統分析很重要，事業成不成功，和自己定義的Visio很重要，但是實際上這塊是最難做到的。

所以，真實情況是不可能一步到位，所以Agile為什麼現在這麼夯，重點是fail fast。

結語

這篇希望透過一個很簡單的例子來帶出定義一個明確的問題有多重要，並且這個幫助會有多大。

當然，實際在run的過程可能沒辦法一次就定義這麼清楚，甚至有時候是模糊的，只是拿到一堆資料然後看看能不能找到什麼有趣的資訊。

這個也是Exploratory Analysis（探索性分析）在做的事情。

不過在實際進入Exploratory Analysis之前，要先介紹會用到的工具，R語言。

在下一篇([15]R是什麼？準備開發R的環境 - RStudio介紹)將會快速介紹一下R語言的來源和怎麼準備好開發R。並且跑一個R的Hello World程式，用R來分析股票來看看R在分析上面的威力。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science,data processing

[Data Science 到底是什麼從一個完全外行角度來看][13]Data的運用 - 介紹篇

2017-12-31T20:50:00.000+08:00

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

還記得之前提到過，如果Data是原油那麼Data Science就是提煉成石油的技術。

到目前為止，解決了Data的儲存和運算的部分。但是就算可以處理Big Data，該怎麼處理？如何把處理結果變成有意義或者可以動作的策略？

如果說，Big Data的儲存和運算在武俠小說裡面屬於內功的話那麼Data Process Workflow（資料處理流程）就同等於招式一樣。

沒有足夠的內力（Data），招式在精妙也沒有用（就像瞎子摸象，就算摸的技巧再好，也因為局限的關係摸不到全貌，一定會有偏頗）。

反過來說，如果內力深厚，但是不會招式，那麼同等於英雄無用武之地。

在這個系列的接下來將會著重在介紹Data Processing的部分。這篇將會是概觀介紹。

Data Processing Workflow指的是什麼？

中間的Big Data
一切從解決問題開始
Exploratory Analysis階段
Machine Learning (機器學習) 階段
發佈

需要有什麼提前知識？
結語

Data Processing Workflow指的是什麼？

Data Processing Workflow其實非常廣的一個詞，所以這邊會定義一下這裡指的是什麼。

Data Processing Workflow圖

還記不記得之前的這張圖？這次有做了一些調整。

中間的Big Data

這邊變成了灰色表示已經講完了。Big Data在中間是因為整個的核心其實是Data。如果沒有Data就算有在好的“招式”也沒有用。

一切從解決問題開始

整個的Workflow從想找到某個問題的解決方案開始。這個非常重要。因為接下來的處理方式都是依照這個問題來延伸出來。

這個和開發軟體一樣，如果一開始的需求分析就錯了，那麼後面做的再好客戶一定不滿意，因為這個不是他想解決的問題。

題外話，還記得之前提到Data Scientist有提到會需要某個Domain Knowledge（領域知識） - 因為沒有這個領域知識根本問不出問題。

Exploratory Analysis階段

在這個部分，將會依照想要處理的問題去收集資料、收集完了之後需要對資料進行處理和分析，然後才會有所謂的clean data（乾淨）。

反過來說，如果一開始問題定義不明確，或者對於整個Domain不熟悉，那麼收集的資料一定會有偏頗，對有偏頗的資料進行處理和分析肯定就錯了。

這個階段會需要：

資料清洗的能力 - 在不同領域有不同名稱，例如：Extract Transofrm and Load (ETL)或者Data Munging
統計學的概念 - 這樣才會有辦法作分析
Data Visualization（資料視覺化）的技能 - 這樣才更好了解資料

這個階段也是傳統Data Analysis在做的事情。

這個階段花的時間最多 - 有做過研究，大約80%的時間都是花在這個階段。

Machine Learning (機器學習) 階段

傳統的Data Analysis（資料分析）是不會有Machine Learning的階段，或者準確一點說，並不會像現在Machine Learning的定義方式來產生出模型。

個人覺得Machine Learning（以下簡稱ML）這個詞有點誤導傾向，因為聽到ML第一個想到的是 AI。好像是在講AI自動進化的感覺。但是，實際上不是，或者說只是AI進化的一小塊部分而已。

ML process

整個Machine Learning的目的是在建立一個Prediction Model。透過這個Prediction Model，只需要把資料丟進去，就會得到“準確”的預測結果。

而Prediction Model其實就是 Clean Data + Algorithm最後產生出來。

而Algorithm是什麼？其實就是一些Statistical Model（統計模型）定義出來。

所以ML和一般程式開發很不一樣，一般程式開發寫的是邏輯，但是ML其實不是寫邏輯，而是挑選最適合目前預測內容和資料的algorithm。所以他在調整的是兩個東西：

Training Data (也就是Clean Data)
Algorithm - 使用哪個演算法和演算法本身參數的調整

所以最後的Prediction Model找到的不是最終解法，而是找到Data之間的關聯性，因此Model不會一直有效，因為假設什麼原因導致那個關聯性斷了，Model就不準確了。

以上是一個非常快速的介紹ML，之後會到了ML階段會有更深入的一些介紹。

發佈

不管有沒有走ML，最後一定會有一些分析結果或者有走ML會有Prediction Model。

這些資訊如何容易的呈現給他人來看？如何把Model變成簡單方式就可以讓一般人操作？這個階段其實就是把整個結果很好的呈現出來。

這個Workflow裡面，越前面的階段越重要，換句話說，定義問題最重要。因為，每一個階段的動作會相依上一個階段的結果，所謂 失之毫釐，差以千里，因此很長會在各個階段往回跳來跳去。

需要有什麼提前知識？

在接下來的內容，會需要有個前置條件，就是多多少少有碰過程式開發。

不需要很深入的了解，但是要有基本知識像是什麼是variable（參數）這種很簡單的概念即可。

因為，接下來的一些資料處理都會使用R語言，這邊不會一個一個語法介紹R。只會把整個的歷史和特色概念介紹一下，剩下都是邊操作邊說明，因此如果從來沒有碰過程式肯能會覺得不太懂（不過應該就算沒有碰過程式開發應該也會看的懂才對）

至於另外一個重要的概念：一些簡單的統計概念也會很有幫助，不過這個部分會有特定篇幅做一些簡單介紹，因為如果沒有這些背景在看一些Data Process的時候會看不太懂。

結語

這篇對於整個Data運用的整個階段做了一個簡單和快速的介紹，為接下來介紹的內容先打下一些基礎。

下篇([14]如何問對的問題？)將會從最終要的部分開始，怎麼定義一個問題？什麼樣的定義才是好的定義。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science,data processing

[Data Science 到底是什麼從一個完全外行角度來看][12]Hadoop總結(下篇) - 一切才剛剛開始

2017-12-30T23:06:00.000+08:00

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

上一篇(11]Hadoop總結(上篇) - 一切才剛剛開始)介紹了Hadoop的Ecosystem之後，了解到有很多package建立在Hadoop上面。

不過一個問題會浮現出來，這門多package，怎麼讓他們互相溝通沒有問題？畢竟版本和版本之間很有可能會有相容性問題。

這就是Hadoop Distribution的作用，一些整理好包成一包的Hadoop Ecosystem，有些distribution還包括一些管理界面讓整個管理變得更加簡單。

Hadoop Distribution

快速總結Distribution的差異
Cloudera's Distribution include Apache Hadoop (CDH)
Hortonworks Data Platform (HDP)
Syncfusion Big Data Platform
Azure HDInsight

一切才剛剛開始 - Data Engineer之路
結語

Hadoop Distribution

當透過這系列的介紹方式把Hadoop POC做完了之後，當真的要測試的時候肯定不是用這種方式管理，而是用Hadoop Distribution。

基本上Hadoop Distribution可以把它想象成一個solution package - 把多個Ecosystem套件組合在一起變成一個完整的package，讓安裝和使用變得簡單。

這邊快速介紹3+1個這種Distribution：

Cloudera's Distribution include Apache Hadoop (CDH) - Linux
Hortonworks Data Platform (HDP) - Linux and Windows
Syncfusion Big Data Platform - Linux and Windows
Microsoft Azure HDInsight - 微軟雲端的big data solution

快速總結Distribution的差異

	CDH	HDP	SBDP	HDInsight
支援的OS	Linux	Windows、Linux	Windows、Linux	NA - 在Azure雲端
是否需要收費？	免費	免費	符合條件免費 - 收費	收費
是否有客制管理界面？	有	沒有	有	有 - Azure管理界面
建議使用情境	如果在Linux環境	如果在Windows並且需要免費	如果在Windows並且願意付費。如果剛開始在Windows學習Hadoop，建議從這個開始，因為安裝和管理界面很容易使用，並且如果符合Community License也是免費。	如果沒有機器但是又想測試Hadoop

接下來會在更深入一些介紹這些Distribution。

Cloudera's Distribution include Apache Hadoop (CDH)

CDH貌似是最早做這種Distribution的機構，基本概念很簡單，整合這些Ecosystem的package在一包裡面並且提供一個管理界面方便管理cluster和這些package。

從下圖可以看到整個CDH提供的服務和內容：

CDH的架構。來源：https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_intro.html

CDH是免費的，不過cloudera也有提供Enterprise服務，也就是收費的服務。基本上就是CDH加上更多管理面和一些Technical Support。

CDH 只支援 Linux，所以如果在Windows就別想了。

參考資料

Overview: CDH Overview
有支援的OS：CDH 5 and Cloudera Manager 5 Requirements and Supported Versions
快速測試的下載鏈接：CDH 5.12 Quick Start Download
快速測試的文件：Cloudera Manager and CDH QuickStart Guide

Hortonworks Data Platform (HDP)

Hortonworks Logo

HDP可以說是最早有支援Windows的Distribution，後面提到的Azure HDInsight內部執行的就是HDP。

HDP可以說是把很多opensource package整合在一起的Distribution，所以不像cloudera那樣有自己的管理界面，而是用Ambari（也是一個open source的package）。

整個架構

HDP支援Windows和Linux。

參考資料

Overview介紹：鏈接 - 對於每個Package有對應說明
下載Sandbox VM做測試：GET STARTED WITH HORTONWORKS SANDBOX

Syncfusion Big Data Platform

Syncfusion的logo

Syncfusion最出名應該是有提供一些免費的ebook叫做Succinctly系列，用短短篇幅介紹一些技術，同時對於Windows的開發有提供很多好用的套件可以快速上手。因此在這邊介紹的Distribution裡面以Windows開發者來說是最親民。

Syncfusion Big Data Platform (下面簡稱SBDP) 是這3個裡面最年輕的Distribution，不過個人認為至少在Windows平台下是最容易操作的一個。

SBDP有包含一個BigData Studio，裡面用tab的方式能夠切換不同的Package，並且有一個界面可以看到這些Package的Service是否有啟動，這個操作起來非常的直覺。

BigData Studio的截圖

SBDP支援Windows和Linux，如果需要在Windows開發個人建議從SBDP做嘗試。

SBDP有提供Community的版本，所以在測試上面是免費，不過如果用在Production如果不符合Community License就會需要一筆費用。

參考資源

首頁介紹：鏈接
下載鏈接（需要先註冊帳號）：鏈接
操作手冊：鏈接

Azure HDInsight

Azure HDInsight不算是Distribution，是微軟Azure上面的一個Hadoop as Service的概念。因此，如果沒有機器但是想要測試Hadoop，可以考慮用Azure HDInsight。

整個Azure HDInsight底層其實就是Hortonworks的HDP。

基本上拆成了兩塊：

HDInsight - 屬於運算的部分(可以理解MapReduce執行的部分)
Azure Storage - HDFS的部分

所以儲存和運算可以分開，由於HDInsight比較貴，因此可以先把資料上傳到Azure Storage（Storage和HDInsight比相對便宜呢多），等到需要執行運算的時候在啟動HDInsight。

架構

參考資料

官方介紹：鏈接
文件：鏈接

一切才剛剛開始 - Data Engineer之路

Data Engineer屬於Data Sciencist的分支的一個部分，主要在做的工作就是專注于在資料儲存這一塊。

因此如果對於Hadoop和整個Ecosystem的管理、維護及使用非常有興趣，那麼可以繼續往下鑽研並且可以找Data Engineer相關的工作。

結語

這個系列關於Data底層儲存就介紹到這邊了，希望對於要往下鑽研能夠提供一個足夠的基礎，至少往下看的時候不會完全看不懂。

之前做的Hadoop VM先不要刪，後面介紹R的時候會介紹R如何和Hadoop接。所以如果到時候要跟著做的話會需用到。

接下來將會開始到下一個階段([13]Data的運用 - 介紹篇)，也就是實際對資料的理解、運用到最後建立出預測模型。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science,hadoop

[Data Science 到底是什麼從一個完全外行角度來看][11]Hadoop總結(上篇)–Ecosystem介紹

2017-12-30T22:46:00.000+08:00

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([10]用.Net Core跑Hadoop MapReduce - Streaming介紹)透過Hadoop Streaming的幫助，改成用.Net Core 2.0的程式作為MapReduce的邏輯，基本上這個系列裡面的Hadoop介紹也要告一個段落。

這一篇，將會快速回顧到目前為止所了解到關於Hadoop的部分，再來介紹Hadoop Ecosystem，和3個比較常見的package介紹。

溫故知新
Hadoop Ecosystem

HIVE
HBase
Spark

結語

溫故知新

先來快速回顧一下到目前為止看了什麼：

從Big Data開始介紹，了解到Big Data裡面的3個V - 由於別的技術的可行性提高，Big Data成長也越來越快：鏈接
再來介紹了Hadoop的誕生 - 為了因應Big Data而誕生的程式：鏈接
在來手動用VM建立了一個pseudo-distributed mode的hadoop：上篇鏈接、下篇鏈接
有了一個可運作的hadoop之後，了解了Hadoop的核心：YARN和MapReduce：鏈接
接下來把Hadoop的VM複製出來用來建立一個worker - 打造了fully-distributed mode：鏈接
最後介紹了MapReduce的程式，先介紹原理，後來介紹如何用.Net Core寫一個：MapReduce原理、Hadoop Streaming執行.Net Core

從目前了解的來看，對於整個Hadoop的核心已經有了基本的概念，馬上浮現的問題是，這樣建立和管理Hadoop不會太麻煩嗎？透過MapReduce寫不同的邏輯太難寫了吧。

相信看完之後會有種感覺，Hadoop感覺很"底層"，從應用程度來說太不Friendly（友善），並且要怎麼管理這些Hadoop Cluster？

題外話，Hadoop給我的感覺就像程式開發裡面的Assembly，速度快，但是不好寫，因此會使用High Level Language像C#。

因此，接下來看看一些在Hadoop上面的Ecosystem和所謂的Hadoop Distribution。

Hadoop Ecosystem

還記得之前提到Hadoop版本的時候介紹了2.0之後其中一個大改變就是加入了YARN。

YARN的加入讓在Hadoop上面開發變得更加的簡單，因此很多Application蓋在了Hadoop的上面，達到利用Hadoop的Cluster運算和HDFS。

下圖是一個Hadoop Ecosystem的幾個重要package，這邊會針對裡面的：

HIVE - 用類似sql語法執行MapReduce的方式
HBase - 在HDFS上面的NoSql儲存
Spark - 另外一種執行工作的模式

多做一些簡單介紹

Hadoop Ecosystem，來源：http://www.dotnettricks.com/learn/hadoop/apache-hadoop-ecosystem-and-components

HIVE

Hive Logo

HIVE一開始是由Facebook開發，後來捐出來變成一個Open Source專案。主要目的是讓懂SQL的人能夠快速上手能從HDFS取資料。

還記得之前提到要寫MapReduce感覺有點麻煩，HIVE其實就是一個使用類似SQL語法的語言，HiveQL來和MapReduce溝通的中間層。

換句話說，用HiveQL語法，HIVE會自動轉成MapReduce從HDFS裡面把資料取出來。

因此，懂SQL就能夠快速上手從HDFS裡面撈出資料。

下面是從Wikipedia截取的WordCount範例，可以看到，基本上會sql基本上看的懂在做什麼，把這個和Java和.Net Core版本做比較，對於會sql的人來說這個簡單多了

DROP TABLE IF EXISTS docs;
CREATE TABLE docs (line STRING);
LOAD DATA INPATH 'input_file' OVERWRITE INTO TABLE docs;
CREATE TABLE word_counts AS
SELECT word, count(1) AS count FROM
 (SELECT explode(split(line, '\s')) AS word FROM docs) temp
GROUP BY word
ORDER BY word;

更多資訊，請參考：官網

HBase

HBase logo

聽到Big Data最長聽到的就是No Sql database，也就是不像sql先定義好每個table有什麼欄位的另外一種Database。

HBase就是一個使用HDFS的No Sql Database。

HBase還提供吧資料儲存在Memory達到快速讀取HDFS資料的一個界面，更好的能夠和其他package結合，例如可以用HIVE去撈HBase的資料。

因為HBase速度的關係，有些會把cold data（封存用的資料少存取）放到HDFS裡面，而hot data（長存取的資料）放到HBase裡面。

題外話，HBase可以不架在YARN上面，只需要HDFS即可。

更多資料請參考：HBase

Spark

spark logo

基本上Spark是整個ecosystem最夯的部分，因為他解決了Hadoop的一個很致命的問題，過慢問題，官網說在最快的情況可以比Hadoop快100倍。

Spark的基本概念很簡單，以Hadoop來說，每一個階段的執行，都會把結果儲存在HDFS，換句話說很多IO操作。

Spark用了另外一個方式，前面一段output會是後面一段的input - 這個的儲存都是在Memory，換句話說減少了IO量，提升了速度。

或許會說，不是都cluster了嗎，怎麼還會慢？這邊的慢指的是相對來說。要記得，這邊處理都是ZB等級的資料，真的跑下去還是很花時間。

更多資料請參考：官網

從Ecosystem的圖可以看到其實還有很多重要的package，而看到這個也會發現Hadoop真的變成了一個很底層的核心。

看到了這麼多package了之後，有個問題會浮現出來，這麼多不同package要自己安裝不是很麻煩嗎？更別說package之間可能還有相容性問題，難道沒有一個一整包包好的服務嗎？還有cluster management怎麼辦？雖然有package做整件事情，但是怎麼整合呢？

這也是所謂的Hadoop Distribution

結語

這篇介紹了整個Hadoop的Ecosystem，並且挑出了3個最夯的：Hive、HBase和Spark。

本來這篇要把整個總結寫完，但是發現篇幅有點長，因此在下一篇在介紹Hadoop Distribution和相關的工作頭銜，Data Engineer介紹。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science,hadoop

[Data Science 到底是什麼從一個完全外行角度來看][10]用.Net Core跑Hadoop MapReduce - Streaming介紹

2017-12-30T13:44:00.000+08:00

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

上一篇([09]了解Hadoop裡的MapReduce到底是什麼？)了解了什麼是MapReduce，並且了解了怎麼用Java寫一個MapReduce的Hello World程式：WordCount。

馬上會想到的一個問題是，難道只有Java可以寫MapReduce的程式嗎？

這篇將會介紹Hadoop的Streaming服務，讓任何語言只要透過Standard Input和Standard Output就可以寫出MapReduce程式。將會使用最熟悉的語言，.Net Core來完成這個事情。

在這篇也會介紹另外一種測試Hadoop的方式，使用Docker來測試。

這篇的範例程式碼在github：alantsai/blog-data-science-series 裡面的 src/chapter-10-dotnet-mapreduce

什麼是Hadoop Streaming
實際操作

Mapper開發
Reducer開發
測試結果

結語

什麼是Hadoop Streaming

當一個MapReduce的程式被執行的時候，會先被切割成為一個一個的Task，然後由那台的DataNode用Java執行那個Task。

所以整個執行類似下圖，整個MapReduce都在JVM的環境下：

JVM的MapReduce

不過Hadoop考量到如果外部需要執行MapReduce要怎麼辦，因此建立了一個叫做Streaming的功能。

基本上，只要那台DataNode可以Run的起來都可以跑。

Hadoop Streaming透過Standard Input/Output/Error 3個管道 來和被Run起來的程式溝通。

MapReduce的程式只需要從Standard Input讀進來，做處理，然後在寫到Output。如果有錯誤訊息可以記錄在Error裡面。

整個概念大概是：

Hadoop Streaming

實際操作

還記得整個MapReduce基本上就是在每個階段做過處理之後，會產生一個key value pair。Hadoop用tab來切割Key 和 Value。

有了這個概念之後來看實際程式，以下使用的是.Net Core的console來開發，分幾個階段：

Mapper開發
Reducer開發
測試結果

Mapper開發

由於是透過Standard Input/Output，因此console非常適合，所以會建立一個Mapper的.Net Core Console程式。

在Mapper的階段，內容會是一行一行讀進來，所以把讀進來的內容做文字切割，每找到一個word，就寫到output，word是key，1是value（代表找到一筆）

會一直迴圈的讀，直到沒有任何檔案為止。如果把這個和之前java比照會發現邏輯一樣。

class Program
{
    static void Main(string[] args)
    {
        string line;

        while ((line = Console.ReadLine()) != null)
        {
            // 用文字切割
            var words = Regex.Matches(line, @"[\w]+");

            foreach (var word in words)
            {
                // 每一個找到的算1筆 - keyvalue用tab切割
                Console.WriteLine("{0}\t1", word);
            }
        }
    }
}

Reducer開發

會在建立另外一個專案用來放Reducer的程式。

Reducer一樣是讀Input然後寫到output。由於這次讀到的內容是從Mapper來的，所以會先用tab做切割，key是word，value就是筆數（也都是1）。

在這邊，有建立一個words dictionary，這個是因為在Mapper階段其實沒有管word有沒有重複，反正出現就是+1。

不過在Reducer因為要加總，因此用了words dictionary作為一個暫存的空間。

最後把所有結果寫到output - 也是 key value pair，key一樣是word，不過value就是word出現的總數。

static void Main(string[] args)
{
    // 用來儲存已經出現過的字 - java版本會自動處理，不過這個stream需要手動記錄
    Dictionary<string, int> words = new Dictionary<string, int>();

    string line;

    while ((line = Console.ReadLine()) != null)
    {
        // 傳過來的key value用tab分割（Mapper也是用tab切割key和value）
        var keyValuePair = line.Split('\t');

        string word = keyValuePair[0];

        int count = Convert.ToInt32(keyValuePair[1]);

        // 如果已經有這個word，和字典的加總，不然就建立新的
        if (words.ContainsKey(word))
        {
            words[word] += count;
        }
        else
        {
            words.Add(word, count);
        }
    }

    // 把所有結果寫出來
    foreach (var word in words)
    {
        Console.WriteLine("{0}\t{1}", word.Key, word.Value);
}

和Java的版本不同，java版本會自動幫忙把key一樣組成一個list比較好操作，但是透過streaming需要自己手動操作。

測試結果

當整個程式準備好了之後，接下來就可以對這個程式做測試了。

在接下來將會用一個docker版本的hadoop做測試 - 希望透過docker方式也可以了解用docker做測試有多方便。

接下來的測試都是在powershell可以直接執行。

如果對docker不熟悉，那麼下面做不了。要跑docker基本上要Windows 10 Professional以上或者linux，並且有裝docker。

裡面用到的docker image是一個linux的container。

下面也可以直接在之前建立的Ubuntu環境裡面執行，不過需要先：

安裝.net core 2.0
跳過前面的步奏，知道後面呼叫hadoop Streaming那段即可

接下來的指令操作都是在從github clone下來的專案裡面src\chapter-10-dotnet-mapreduce的資料夾下面執行。

完整的指令是：

git clone https://github.com/alantsai/blog-data-science-series.git
cd .\blog-data-science-series\src\chapter-10-dotnet-mapreduce

先把.net core的console 發佈出來

在powershell執行指令：dotnet publish -o ${pwd}\dotnetmapreduce .\DotNetMapReduceWordCount\DotNetMapReduceWordCount.sln

發佈結果

把hadoop用docker compose啟動

使用指令把hadoop啟動：docker-compose up -d。會看到：

執行完有1個master 2個worker啟動
在YARN的web節點看到有兩個Node
在DataNode看到有兩個節點

可以看到啟動成功並且有兩個節點

把.Net core程式複製到master的hadoop節點裡面

把剛剛發佈出來的.Net core程式複製到master裡面，並且進入到master裡面的bash並且可以看到有copy進去的內容

docker cp dotnetmapreduce hadoop-dotnet-master:/dotnetmapreduce
docker exec -it hadoop-dotnet-master bash
ls
ls /dotnetmapreduce

進入到master的bash並且檢查copy是否成功

把要計算的檔案放到hadoop的HDFS

透過下面指令把檔案放到hadoop的HDFS的input資料夾並且檢查：

hadoop fs -mkdir -p /input
hadoop fs -copyFromLocal /dotnetmapreduce/jane_austen.txt /input
hadoop fs -ls /input

複製檔案到HDFS

用hadoop Streaming執行net core mapreduce

用hadoop的streaming執行：

hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.7.2.jar \
    -files "/dotnetmapreduce" \
    -mapper "dotnet dotnetmapreduce/DotNetMapReduceWordCount.Mapper.dll" \
    -reducer  "dotnet dotnetmapreduce/DotNetMapReduceWordCount.Reducer.dll" \
    -input /input/* -output /output

和之前執行map reduce的log一樣

檢查結果

執行完了之後，可以看到計算的每個字出現次數

hadoop fs -ls /output
hadoop fs -cat /output/part-00000

執行結果

會注意到這邊的結果和java版本有點不同，因為判斷字的邏輯不同導致。

如果docker不需要了，可以用docker-compose down把整個hadoop關掉。

結語

在這篇介紹了透過Hadoop Streaming達到在hadoop用.Net core 2.0的console程式做MapReduce如何。

這篇也改成使用docker來做hadoop測試而不是用一直以來建立的VM。用docker和VM比較會發現到docker其實做這種事情非常方便，如果對docker不熟悉，可以考慮花點時間做些學習（之後我的部落格也會有個系列介紹docker使用，有興趣的話請持續關注）。

在這個系列的後面，之前建立的VM還會用到 - 用來和R做結合。所以如果對後面操作有興趣，VM還是先保留。

在這個系列的Hadoop介紹也到了一個尾聲，在下一篇([11]Hadoop總結(上篇)–Ecosystem介紹)將會對目前hadoop有介紹的部分做一個總結，介紹hadoop的ecosystem，和還有什麼部分是應該繼續關注下去。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science,hadoop,net-core,docker

[Data Science 到底是什麼從一個完全外行角度來看][09]了解Hadoop裡的MapReduce到底是什麼？

2017-12-27T21:37:00.000+08:00

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([08]Hadoop 改成完全分散模式)透過複製VM的方式建立出了fully-distributed mode，基本上在這個系列裡面對於Hadoop的介紹也快到了一個尾聲。

不過，還有一個部分被忽略了，也就是實際在Hadoop做運算的程式，也是WordCount的實際運算邏輯。

這篇會介紹MapReduce的概念，並且看一下WordCount的java程式是如何撰寫。

什麼是MapReduce
換個方式理解 - 用選舉為例
怎麼在Hadoop寫MapReduce

Map
Reduce
設定

結語

什麼是MapReduce

MapReduce其實是一種開發模式（Program Model），基本上可以把整個邏輯分成為Map階段和Reduce階段。

Map階段基本上會做filtering和sorting並且傳出一個key value pair做結果（以wordcount為例，每一個字會作為最後的key，而value則是1代表有一筆）
Reduce階段基本上會做整合（以wordcount為例，從Map傳過來的key如果一樣，表示同一個字，因此把一樣的key做加總最後的出總筆數）

從下圖可以看到整個的流程：

整個WordCount的MapReduce流程。來源：https://www.mssqltips.com/sqlservertip/3222/big-data-basics--part-5--introduction-to-mapreduce/

input: 這個是要做計算的原始資料，以上圖為例其實就是一堆文字清單
split: 把input資料做分散處理 - 以hadoop來說，當MapReduce工作被輸入的時候，會被切割到各個cluster裡面等待做處理
map: 這個就是MapReduce裡面的Map階段 - 每一個節點會把對應切割出來的資料建立key value結果 - key是字本身，然後value是1代表找到一筆
combine: 這個其實也是在map的機器裡面做 - 把每一個key一樣的先做一次加總，避免傳送多次出去
shuffle & sort: 在進入reduce階段之前，會先被做一個排序，因此相關的key值會放在一起
reduce: 這個階段會做實際的加總，因此每一個key以的的value會被加總
outpu: 這個是最後得到的結果

這邊需要注意一下，當提到map和reduce是小寫的時候，指的會是functional programing提供的方法。MapReduce則是開發模式。

上圖雖然用了小寫，不過這邊指的還是hadoop裡面的MapReduce。

Map和Reduce階段回傳的結果都是一個key value pair。

換個方式理解 - 用選舉為例

如果上面那個例子看了還是有點模糊，換個生活遇到的例子作說明

當台灣遇到選舉的時候，一般來說有選舉權的民眾會去戶籍地去做投票 - 投票完有沒有看當天新聞了解這些投票是怎麼計算的嗎？

如果那個時候看新聞，會注意到，會有跑馬燈一直跑說，某某縣市目前xxx有幾票 - 這個票數是及時在變動：

選舉的時候新聞及時播放票數。來源：http://my-own-post.com/new20150116/

整個數票的動作其實就是MapReduce。

input

所有有投票的票數就是整個input

split

每個可以投票的民眾去戶籍地投票，同等於把這個input split到不同的區域

map

投票時間截止了之後，每一個投票站會開始從箱子取出來，然後唱名這張票屬於哪個候選人。

每一張票的候選人就是key，然後唱名1票就是value

combine

當每一個投票站都分好了之後，會先做一個初步的加總，得到的每個站的總票數。

shuffle & sort

在這個階段，會把每個投票站同一個候選人(key)的放在一起

reduce

做最後加總 - 把所有一樣key的值加在一起

output

最後結果就是誰當選了

首先，每個可以投票的會去戶籍地做投票的動作，這個其實同等於

怎麼在Hadoop寫MapReduce

希望透過上面的比喻方式，對於整個MapReduce有個更清楚的了解，那在Hadoop裡面怎麼寫MapReduce呢？

Hadoop是java的程式，因此用java寫一定是最容易，下面快速介紹一下如何用java寫MapReduce，大概會分幾個部分：

Map
Reduce
設定

Map

public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(LongWritable key, Text value, Context context) throws IOException,
        InterruptedException {

            String line = value.toString();

            StringTokenizer tokenizer = new StringTokenizer(line);

            while (tokenizer.hasMoreTokens()) {
                word.set(tokenizer.nextToken());
                context.write(word, one);
            }
        }
}

基本上，上面建立了一個Mapclass繼承Mapper並且定義了一個方法叫做map。

Hadoop會把每一段文字個用value傳過來，因此用了tokenizer把裡面的word取出來。

每一個取出來的word，會被寫成一組key value pair(context.write(word,one))，word是key，value是數值1。

會一直做，直到整個word都處理完。

Reduce

public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {
 public void reduce(Text key, Iterable<IntWritable> values, Context context) throws
  IOException, InterruptedException {
   int sum = 0;

   for (IntWritable val : values) {
    sum += val.get();
   }

   context.write(key, new IntWritable(sum));
 }
}

Reducer和mapper類似，先定義一個class叫做Reduce繼承Reducer。

裡面有一個reduce的程式定義reduce階段要做什麼

在這邊，java已經有處理好把一樣的key放成一組，因此可以透過迴圈的方式把所有值加總。

最後把整個結果寫出去，一樣是key value pair，key還是原來的key，不過value是所有的加總。

設定

Map階段和Reduce階段的功能都定義好了之後，接下來需要做的是告訴程式執行的時候那個是Map和那個是Reduce。

package org.myorg;

import java.io.IOException;
import java.util.*;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapred.*;
import org.apache.hadoop.util.*;

public class WordCount {

 // 剛剛定義的 Map
 ....

 // 剛剛定義的 Reduce
 ....

 public static void main(String[] args) throws Exception {
  JobConf conf = new JobConf(WordCount.class);
  conf.setJobName("wordcount");

  conf.setOutputKeyClass(Text.class);
  conf.setOutputValueClass(IntWritable.class);

  conf.setMapperClass(Map.class);
  conf.setCombinerClass(Reduce.class);
  conf.setReducerClass(Reduce.class);

  conf.setInputFormat(TextInputFormat.class);
  conf.setOutputFormat(TextOutputFormat.class);

  FileInputFormat.setInputPaths(conf, new Path(args[0]));
  FileOutputFormat.setOutputPath(conf, new Path(args[1]));

  JobClient.runJob(conf);
 }
}

這個程式應該蠻好理解，基本上就是把剛剛定義好的Map和Reduce做設定。

這邊比較特別是Combiner的部分，因為也是加總所以和reduce是一樣的概念。

結語

透過這篇了解了整個MapReduce的運作機制，並且看了如何用Java寫過一個WordCount的MapReduce程式。

這邊會發現到，程式裡面完全沒有任何分散式處理的概念，但是Hadoop會自動以分散式的模式執行。這個讓撰寫變得非常簡單。

可是另外一個問題會浮現出來，難道只有Java可以寫MapReduce嗎？

在下一篇([10]用.Net Core跑Hadoop MapReduce - Streaming介紹)將會介紹如何用.net core寫出可以再Hadoop透過stream的方式執行的MapReduce，並且這次會改成用docker的方式來執行，提供另外一種更快速和容易測試Hadoop的方式。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science,hadoop

[Data Science 到底是什麼從一個完全外行角度來看][08]Hadoop 改成完全分散模式

2017-12-26T21:55:00.000+08:00

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([07]更深入看看Hadoop裡面的YARN和HDFS)了解了整個jps的process代表的意思之後，在這篇將會延續之前([05]建立Hadoop環境 -上篇、[06]建立Hadoop環境 -下篇)建立出來pseudo-distributed mode的hadoop改成 fully-distributed mode

這篇結束之後，除了Master，會建立出一台slave。由於Master裡面也有DataNode和NodeManager，所以總共會有2個DataNode。

建立步奏
修改原本的VM變成Master機器
從Master建立Slave
最後設定
重新Format指令
啟動和驗證
執行WordCount
結語

建立步奏

基本上整個的建立步奏可以分為6個部分：

修改原本的VM變成Master機器
從Master建立Slave
最後設定
重新Format指令
啟動和驗證
執行WordCount

修改原本的VM變成Master機器

修改Hostname改成master

開啟Terminal（快速鍵Ctrl+Alt+ t）然後輸入：sudo gedit /etc/hosts

在裡面的檔案把ubuntu改成master

調整host

記得透過右上角把整個機器重啟，然後開termianl會發現@後面是master

重啟機器和檢查terminal是不是變成master

重啟了之後，當輸入指令會需要等一下，因為他會嘗試和master溝通 - master不存在所以要等一下他timeout才會出現

設定host的ip

透過右上角的network資訊找到目前機器的ip，並且用terminal執行：sudo gedit /etc/hosts

在裡面加入：{ip} master - ip是上面找到的ip

找到ip

設定master的host ip

修改NameNode

在terminal執行：gedit /usr/local/hadoop/etc/hadoop/master

在開的檔案，把裡面內容改成master

改成master

修改cor-site.xml

在terminal輸入：gedit /usr/local/hadoop/etc/hadoop/core-site.xml

把整個configuration內容改成：

    <property>
     <name>fs.default.name</name>
     <value>hdfs://master:9000</value>
    </property>

這邊把localhost改成了master

修改hdfs-site.xml

用terminal開啟：gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml

在Configuration最後一筆的前面加上：

<property>
    <name>dfs.permissions</name>
    <value>false</value>
</property>

修改畫面

修改 mapred-site.xml

在terminal輸入：gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml

增加以下設定Configuration：

<property>
        <name>mapred.job.tracker</name>
        <value>master:54311</value>
    </property>

設定畫面

修改yarn-site.xml

在terminal輸入：gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml

增加以下設定到Configuration:

<property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8025</value>
        </property>
        <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
        </property>
        <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8050</value>
    </property>

增加yarn site設定

slaves檔案設定

用terminal輸入：gedit /usr/local/hadoop/etc/hadoop/slaves

改成以下設定：

    master
    slave1

從Master建立Slave

先從設定找到Master VM的設定位置，並且複製一份出來

透過設定找到VM檔案位置

用開啟VM的方式打開複製出來的VM

開啟VM並且改成hadoop-slave

對開啟的VM做出：

選擇剛剛開啟的VM
選擇設定
切換Options的頁簽
修改VM名稱為hadoop-slave
按下 ok

設定VM名稱

把slave那台啟動起來，當出現選擇的時候，記得選擇I Copied It

選擇I Copied It

最後把兩個VM都啟動起來，可以再上面的title看到那一台是master和那台是slave

兩台機器啟動起來

最後設定

修改slave那台的hostname改成slave1

開啟Terminal（快速鍵 Ctrl+Alt+ t）然後輸入： sudo gedit /etc/hosts

在裡面的檔案把 master改成 slave1

調整host

記得一樣要重啟機器才會有作用

設定slave的ip

透過右上角的network資訊找到slave機器的ip，並且在master和slave的機器terminal執行：sudo gedit /etc/hosts

在裡面加入：{ip} slave1 - ip是上面找到的ip

兩台都要修改

確認master和slave 1可以互動

分別從master那台的terminal呼叫：ping slave1和slave那台機器的terminal呼叫：ping master

確保兩台之間溝通沒有問題

兩台互相ping

在master那台設定slave的sh key

在master的機器把slave ssh key建立出來然後做出測試，在terminal執行：

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    scp -r ~/.ssh slave1:~/
    ssh slave1
    exit

測試ssh畫面

重新Format指令

建立DataNode和NameNode資料夾

在master輸入以下來重建資料夾：

sudo rm -rf /usr/local/hadoop/hadoop_data/hdfs
mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode
mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
sudo chown -R hduser:hduser /usr/local/hadoop

在slave輸入以下來重建對應資料夾：

sudo rm -rf /usr/local/hadoop/hadoop_data/hdfs
mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
sudo chown -R hduser:hduser /usr/local/hadoop

格式化hdfs

在master輸入以下來format hdfs：

hadoop namenode -format
hadoop datanode -format

在slave輸入以下來format hdfs：

hadoop datanode -format

啟動和驗證

在master呼叫start-all.sh(這邊偷懶了，其實比較建議呼叫start-yarn和start-hdfs)來啟動整個hadoop。

啟動了之後可以再兩台的jps看到服務都出現：

master同時也是slave

檢查ResourceManager，在Firefox輸入：http://localhost:8088

可以看到有兩個Node

檢查DataNode，在Firefox輸入：http://localohost:50070

可以看到有兩個DataNode

執行WordCount

執行方式和之前一模一樣：

cd ~/Downloads
hadoop fs -mkdir -p /user/hduser/input
hadoop fs -copyFromLocal jane_austen.txt /user/hduser/input

執行WordCount程式：hadoop jar wordcount2.jar WordCount /user/hduser/input/jane_austen.txt /user/hduser/output

檢查執行結果：hadoop fs -cat /user/hduser/output/part-r-00000

如果要在執行一次計算，需要先把hdfs裡面的output砍掉，要不然會執行不了。指令是：hadoop fs -rm -r /user/hduser/output

如果執行有問題，或者run不起來，可以試試重開機，然後從測試Hadoop裡面的格式化HDFS開始重新做一次。

結語

在這篇，透過之前建立的VM轉換成為Master，並且在從這個Master複製出來變成slave。

可以想象，如果要串聯多台電腦可以用這種方式達到分散式運算和分散式檔案儲存。只不過這邊用VM來模擬這個情況。

基本上，到目前為止對於整個Hadoop應該已經有個比較完整的感覺，並且了解如何建立一個測試來玩玩看。

不過有一個部分還沒有介紹，就是MapReduce裡面執行的WordCount程式是怎麼建立出來。

在下一篇將會介紹MapReduce執行的概念和WordCout是怎麼寫出來。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science,hadoop

[Data Science 到底是什麼從一個完全外行角度來看][07]更深入看看Hadoop裡面的YARN和HDFS

2017-12-25T21:26:00.001+08:00

圖片來源： https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇（[06]建立Hadoop環境 -下篇）把hadoop pseudo-distributed mode整個建立了起來，在這個過程中有透過 jps看到啟動的時候有5個process：

NameNode
SecondaryNameNode
ResourceManager
NodeManager
DataNode

這些process分別是yarn和HDFS執行起來的process，其中Master會有前 3個而slave有後 2個

這篇將會對於這幾個問題做一些介紹。

這篇提到的架構屬於Hadoop 2.x 版本的內容，Hadoop 3 之後有所變動。

Hadoop Cluster架構
JobTracker和TaskTracker

YARN - ResourceManager
localhost:8088

NameNode、DataNode和Secondary NameNode

Secondary NameNode呢？
localhost:50070

結語

Hadoop Cluster架構

在介紹幾個jps之前，需要了解Hadoop Clusted的架構。

Hadoop屬於Client/Server架構，基本上會有 一個Master， 多個slave。

因為Master很重要，所以2.x版本可以為master做High Availability和Federation。

在上一篇建立的屬於 pseudo-distributed mode，換句話說Master和Slave都是同一台，所以才看到了5個process。

以下圖來說，是一個Master配上兩個Slave。master和slave裡面又可以分開兩層：MapReduce 和 HDFS 層

不同層的內容。來源：http://saphanatutorial.com/how-yarn-overcomes-mapreduce-limitations-in-hadoop-2-0/

注意，這邊的MapReduce層用的是Hadoop 1.x 的名稱。以2.0來說應該是YARN層。

JobTracker和TaskTracker

先來看看上面那層，可以看到：

JobTracker - 在Master
TaskTracker - 在Slave

當一個工作被記錄的時候（例如呼叫WordCount.jar），會先進入到 JobTracker，再由JobTracker去切割分派給 slave的 TaskTracker去做執行。最後TaskTracker在回報結果到JobTracker裡面。

job分派情況，來源：http://saphanatutorial.com/mapreduce/

YARN - ResourceManager

看到這邊，或許會奇怪，為什麼jps裡面沒有JobTracker和TaskTracker？原因是，JobTracker和TaskTracker是 MapReduce Layer層的內容，而Hadoop 2.0加上了YARN，因此在jps看到的是 ResourceManager和 NodeManager。

簡單來說，可以理解成為:

JobTracker - ResourceManager
TaskTracker - NodeManager

localhost:8088

Port 8088是ResourceManager的UI界面

因此可以用瀏覽器看到目前：

有幾個cluster - 幾個slave
有哪些工作
工作的執行情況

因此，run起來之後可以用這個來檢查目前情況。

8088的呈現畫面

NameNode、DataNode和Secondary NameNode

基本上HDFS層和MapReduce層有一樣概念，不過這一次變成是儲存資料層的分散式儲存。

NameNode - 在Master
DataNode - 在Slave

NameNode會記錄檔案分散在那幾個DataNode裡面。並且會透過replicate的方式把資料分成N份（一般是3份）儲存在不同DataNode達到檔案高可用性。

以下圖來說，檔案被拆成了兩份：A和C，會自動被儲存在DataNode1~3，因此如果DataNode2掛掉了，NameNode會知道，並且變成由DataNode1和DataNode3來處理。

NameNode和DataNode的關係。來源：https://www.quora.com/Explain-what-is-NameNode-in-Hadoop

Secondary NameNode呢？

上面介紹了NameNode和DataNode，那麼Secondary NameNode呢？

Secondary NameNode用來提供一個Checkpoint輔助NameNode處理資料。

因此Secondary NameNode不是備份用，因此為了避免誤會有時候會成為Checkpoint Node。

localhost:50070

Port 50070是NameNode的一個web UI界面

在這個界面裡面可以看到DataNode有幾台，並且有幾台死掉了等資訊。

50070的畫面

結語

希望透過這篇對於底層的jps process有些了解，並且對於hadoop的cluster更有感覺。

在下一篇([08]Hadoop 改成完全分散模式)，將會回到實際操作的部分，不過這次實際建立一個完整的cluster。Master那台本身是一台slave然後建立另外一台純粹是slave的機器。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science,hadoop

[Data Science 到底是什麼從一個完全外行角度來看][06]建立Hadoop環境 -下篇

2017-12-24T08:54:00.000+08:00

圖片來源：https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

上一篇（[05]建立Hadoop環境 -上篇）透過VMWare Player把Ubuntu裝好並且一些相關環境設定到，等於把hadoop的基礎環境建立好了。

這篇將延續上篇的環境，把Hadoop建立上去，並且讓Hadoop跑一個hello world的範例。

環境準備
建立Hadoop測試環境

安裝和設定Hadoop
測試Hadoop

執行Hadoop的Hello World - WordCount
結語

環境準備

這邊的清單和上一篇一樣，如果上篇已經有抓過，可以跳過：

主機環境

接下來使用到的機器規格如下：

OS - Windows 10 1703
CPU - i7-6500U 雙核
Memory - 16GB

VMWare Player 14

任何虛擬機器軟體都可以，只是剛好用的是VMWare Player 14。

下載頁面
檔案大小約 90MB

Ubuntu 16.04.3

其他版本的Ubuntu也沒問題 - 如果用的是Ubuntu 14，那麼只有等一下安裝openjdk的部分會有問題，其他都一樣。

Hadoop v2.7.4

基本上 v2.x 的都沒有問題，只是剛好手上有2.7.4所以沒有在下載新的。如果是v3.0那麼設定會不同

MapReduce的Hello World程式 - WordCount

這個是用來測試map reduce的hello world程式：

WordCount2.jar
jane_austen.txt - pride and prejudice 前三章 - 測試算字數用

建立Hadoop測試環境

基本上整個的環境建立大概可以分幾個部分：

安裝Ubuntu VM
設定Ubuntu環境
安裝和設定Hadoop
測試Hadoop

這篇會介紹第三步和第四部的部分

安裝和設定Hadoop

下載和解壓縮Hadoop

先用firefox下載（直接下載）hadoop到Downloads資料夾

下載最後位置

在Terminal（快速鍵 Ctrl + Alt + t）裡面執行以下指令：

cd Downloads
sudo tar -zxvf ./hadoop-2.7.4.tar.gz -C /usr/local
cd /usr/local
sudo mv ./hadoop-2.7.4/ ./hadoop
sudo addgroup hadoop
sudo chown -R hduser:hadoop hadoop

這個的作用是把它解壓縮出來，放到/usr/local/hadoop的位置，並且設定執行權限

解壓縮完成看到hadoop資料夾

設定 hadoop/etc/hadoop/core-site.xml

用Terminal執行：gedit /usr/local/hadoop/etc/hadoop/core-site.xml

在 Configuration裡面輸入：

<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>

這個是在設定NameNode位置在哪裡 - NameNode之後會介紹，但是基本上就是主控HDFS的Master。

修改core-site.xml的截圖

修改hadoop-env.sh

這邊要把${JAVA_HOME}的值寫進去（理論上應該不需要才對，因為我們之前有設定參數，但是好像吃不進去，所以要寫死進去）

在Terminal執行：gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh

找到：export JAVA_HOME=${JAVA_HOME}然後把它改成export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

修改之後的結果

設定hdfs-site.xml

這邊設定的是：

每一個在HDFS的檔案要replicate幾份 - 預設都是3
NameNode儲存位置
DataNode儲存位置

在Terminal執行：gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml，然後在Configuration裡面加入：

<property>
 <name>dfs.replication</name>
 <value>3</value>
</property>
<property>
 <name>dfs.namenode.name.dir</name>
 <value> file:/usr/local/hadoop/hadoop_data/hdfs/namenode</value>
</property>
<property>
 <name>dfs.datanode.data.dir</name>
 <value> file:/usr/local/hadoop/hadoop_data/hdfs/datanode</value>
</property

修改畫面

修改yarn-site.xml

這邊修改的是yarn的設定，在Terminal執行gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml，在Configuration裡面加入：

<property>
 <name>yarn.nodemanager.aux-services</name>
 <value>mapreduce_shuffle</value>
</property>
<property>
 <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
 <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
 <name>yarn.nodemanager.resource.cpu-vcores</name>
 <value>1</value>
</property>
<property>
 <name>yarn.nodemanager.resource.memory-mb</name>
 <value>2048</value>
</property>

這邊後面兩個，yarn.nodemanager.resource.cpu-vcores 和 yarn.nodemanager.resource.memory-mb 是設定使用到的資源，如果後面執行不太起來要注意這個值和VM給的資源。

修改完的畫面

修改marped-site.xml

這個檔案預設不存在，所以要從template把它先復製出來。

在Terminal輸入：

cd /usr/local/hadoop/etc/hadoop
sudo cp mapred-site.xml.template mapred-site.xml
cd ~
sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml

打開了之後，把configuration改成：

<property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
</property>

完成設定

建立HDFS用到的目錄

在Terminal輸入：

sudo rm -rf /usr/local/hadoop/hadoop_data/hdfs
mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode
mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
sudo chown -R hduser:hduser /usr/local/hadoop

這個將會建立hdfs的相關資料夾

測試Hadoop

以上就是hadoop的安裝和設定，接下來只需要把它run起來即可。

格式化HDFS

在Terminal執行：

hadoop namenode -format
hadoop datanode -format

中間可能會問是否確定繼續執行，記得要輸入yes

啟動yarn和hdfs

在Terminal輸入：

start-yarn.sh
start-dfs.sh

這個是在Master上面執行，會自動透過ssh的方式把所有Slave也一起啟動。

還有兩種啟動方式：

start-all.sh 和 stop-all.sh - 這個已經被deprecated 不過同等於上面兩個在一起執行
hadoop-daemon.sh namenode/datanode 和 yarn-deamon.sh resourcemanager - 這個是手動在各個節點裡面手動啟動對應服務

確認啟動process是否正常

在Terminal上面執行：jps

檢查執行的服務

這邊會看到5個服務：

NameNode
SecondaryNameNode
ResourceManager
NodeManager
DataNode

在真的分散式架構，前3個只會在Master出現，後面兩個只會在Slave出現

確認Web UI是否正常

服務啟動成功之後可以在Firefox輸入：

http://localhost:8088 - 這個是ResourceManager的web界面
http://localhost:50070- 這個是NameNode的web界面 - 換句話說是hdfs的畫面

ResourceManager的畫面

NameNode的畫面

執行Hadoop的Hello World - WordCount

首先先把 WordCount2.jar和jane_austen.txt下載到Downloads裡面。

下載完的畫面

把檔案複製到 hadoop的HDFS裡面，在Terminal輸入：

cd ~/Downloads
hadoop fs -mkdir -p /user/hduser/input
hadoop fs -copyFromLocal jane_austen.txt /user/hduser/input

可以用hadoop fs -ls /user/hduser/inpu檢查複製進去的檔案。

執行WordCount的程式，hadoop jar wordcount2.jar WordCount /user/hduser/input/jane_austen.txt /user/hduser/output

執行WordCount

檢查執行結果：hadoop fs -cat /user/hduser/output/part-r-00000

看到最後計算結果

如果要在執行一次計算，需要先把hdfs裡面的output砍掉，要不然會執行不了。指令是：hadoop fs -rm -r /user/hduser/output

如果執行有問題，或者run不起來，可以試試重開機，然後從測試Hadoop裡面的格式化HDFS開始重新做一次。

結語

在這篇把整個Hadoop建立完成，並且執行了一個map reduce的word count程式計算出pride and prejudice前3章的字數計算。

在這篇建立出來的hadoop是所謂的pseudo-distributed mode，換句話說Master和Slave在同一台機器，但是實際運作上會有Master對上多個Slave。

不過在進入這種分散式模式之前，需要在了解一些hadoop細節。

在下一篇([07]更深入看看Hadoop裡面的YARN和HDFS)，將會在針對hadoop裡面的分散式模式在做更詳細一點介紹，包含yarn和hdfs裡面對應的process。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science,hadoop

[Data Science 到底是什麼從一個完全外行角度來看][05]建立Hadoop環境 -上篇

2017-12-23T19:24:00.000+08:00

圖片來源：https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

上一篇（[04]Hadoop是什麼？）以一個非常高的overview看了Hadoop是什麼，在接下來將會把理論轉成實際操作，將建立一個Ubuntu 的 VM上面架設hadoop並且跑一個MapReduce的hello world程式，WordCount（算字數）。

等到跑完範例之後，將會在深入一點看hadoop的MapReduce和HDFS運作模式。

首先，從建立環境開始。

環境準備
建立Hadoop測試環境

安裝Ubuntu VM
設定Ubuntu環境

結語

環境準備

整個操作會是在VM（虛擬機器）上面執行，並且因為Hadoop在linux世界比在Windows來的穩定，因此，會建立一個Ubuntu的環境，並且把Hadoop架設在裡面。

在接下來的lab將會用到以下幾個軟體/環境：

主機環境

接下來使用到的機器規格如下：

OS - Windows 10 1703
CPU - i7-6500U 雙核
Memory - 16GB

VMWare Player 14

任何虛擬機器軟體都可以，只是剛好用的是VMWare Player 14。

下載頁面
檔案大小約 90MB

Ubuntu 16.04.3

其他版本的Ubuntu也沒問題 - 如果用的是Ubuntu 14，那麼只有等一下安裝openjdk的部分會有問題，其他都一樣。

Hadoop v2.7.4

基本上 v2.x 的都沒有問題，只是剛好手上有2.7.4所以沒有在下載新的。如果是v3.0那麼設定會不同

MapReduce的Hello World程式 - WordCount

這個是用來測試map reduce的hello world程式：

WordCount2.jar
jane_austen.txt - pride and prejudice 前三章 - 測試算字數用

以上就是整個會用到的程式和環境，接下來就來看看如何建立hadoop環境。

建立Hadoop測試環境

基本上整個的環境建立大概可以分幾個部分：

安裝Ubuntu VM
設定Ubuntu環境
安裝和設定Hadoop
測試Hadoop

由於截圖比較多，所以這篇會先介紹第一步和第二部的部分，hadoop安裝和測試將會在下一篇做介紹

安裝Ubuntu VM

首先先把VMWare Player安裝起來（下載頁面）

把VMWare Player執行起來，先建立VM：

建立VM

選擇下載的Ubuntu iso檔案位置（直接下載）

選擇iso檔案的路徑

設定帳號的部分，建議設定hduser，如果設定不同，在下面的修改需要作出對應修改。

帳號設定畫面

機器的名稱和儲存位置就隨意，只要可以識別即可

VM名稱

VM硬碟的部分，20GB不用動，下面那個選項建議改成第一個選項，原因是之後要複製比較方便。

設定硬碟

設定CPU和memory的部分需要透過：

選擇 Customize Hardware
選擇 Memory
最好至少要有2048MB
按下close即可，修改就會儲存

最好 CPU 能夠給到 2+，Memory最好可以到4096 MB+ - 後面執行比較不會有問題（要不然需要在手動調整一些使用資源避免執行不起來）。

設定資源

接下來VMWare Player會自動安裝，如果有出現要不要安裝 VMWare Tool for linux，建議裝

安裝畫面

最後，安裝好之後，出現的就是登入畫面，直接輸入當初設定的密碼即可。

登入系統

設定Ubuntu環境

Hadoop是java的程式，因此需要先安裝Java - 正常來說Java 7就夠了，不過這邊會裝Java 8。

再來，要設定一些環境參數讓後面用到。

最後，會需要安裝ssh，因為啟動服務的時候會用ssh來溝通避免需要一台一台去啟動服務。

開啟Terminal

登入Ubuntu之後，開啟Terminal（快速鍵 Ctrl + Alt + t）。基本上後面會一直用到，所以記得這個快速鍵

更新package

先更新目前package的情況，使用指令：sudo apt-get update

update畫面

安裝Java 8

在terminal執行：sudo apt-get install openjdk-8-jre openjdk-8-jdk

中間有需要輸入 y 才會繼續執行

設定環境參數

現在terminal執行：gedit ~/.bashrc，然後在檔案最後面加上：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH

設定畫面

最後確認一下參數有沒有進入：

source ~/.bashrc
echo $JAVA_HOME
java -version

參數確認，並且java版本是1.8

安裝ssh server

為了能夠讓master和多個slave溝通，需要安裝ssh，再來設定ssh的key：

sudo apt-get install openssh-server
cd ~/.ssh/
su - hduser
ssh-keygen -t rsa

在產生key的部分，正常是要設定一個密碼比較安全，不過這個是測試用，所以就enter3次下去即可

產生key的畫面

key產生了之後，要把它寫出來並且測試ssh是否正常：

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
ssh localhost
exit

測試和退出的畫面

結語

這篇介紹了建制測試環境的一些設定，由於圖片比較多因此把後半段hadoop的安裝/設定和測試放在下一篇。

在下一篇([06]建立Hadoop環境 -下篇)將會接著這篇目前VM的情況，並且把整個hadoop建制完成。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science,hadoop

[Data Science 到底是什麼從一個完全外行角度來看][04]Hadoop是什麼？

2017-12-22T22:30:00.000+08:00

圖片來源：https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇（[03]Big Data到底是有多Big？）了解到了Big Data的3個V，也就是量、增長速度和多元格式的挑戰，這篇來看看讓管理一切變得有可能的軟體：Hadoop。

這篇將介紹Hadoop的由來，為什麼這麼重要，不同版本之間的差異，和基本架構。

Hadoop的歷史
Hadoop的特色
Hadoop的版本

0.x 和 1.x 版本
2.x版本
3.x版本

結語

Hadoop的歷史

hadoop的logo - 黃色大象

相信對於Hadoop這個詞應該不會陌生，畢竟Hadoop不算是新的東西，自2006誕生以來已經有11年的時間，因為Big Data的關係，多多少少都會提到它。

Hadoop的誕生是因為Google release了一份paper，裡面描述了Google內部的MapReduce（運算）和Google File System（儲存）的運作概念，然後由Doug Cutting用Java把它實作出來，並且用他兒子的黃色大象玩具的名字命名，因此Hadoop就誕生了。

Hadoop的特色

基本上，Hadoop提供了一個用串聯一般電腦來達到處理Big Data所需要的儲存和運算。

這邊，一般電腦非常重要，因為意味著不需要超級電腦就可以裝。一般來說，Scale up（把單一硬體加大）永遠是比Scale Out（平行擴展多台串聯）還要來的貴很多。

因此，當提到Big Data的時候，都會提到Hadoop，因為Hadoop讓儲存大資料量和運算大資料量變得親民。

Hadoop，有兩個重要的核心：

Hadoop Distributed File System（HDFS） - 分散式儲存資料
MapReduce - 分散式運算

Hadoop的版本

基本上Hadoop有3個版本：

0.x 和1.x 版本 - 基本上應該沒人再用了
2.x 版本
3.x 版本

除了大版號的差異之外，小版本之間也是有在maintain，下面可以看到光2.x版本就有4個不同branch。

目前有在maintain的版本

0.x 和 1.x 版本

最早出來的版本基本結構如下：

0.x和1.x版本的架構

可以看到，當初只有兩個最重要的核心：

HDFS
MapReduce

其他第三方的應用，例如HIVE（hadoop上面的SQL）則需要自己處理和底層Hadoop的溝通。換句話說，假設別的套件之間要溝通，基本上做不到，或者要花很多工，因為兩者之間沒有一個共通的頻道。

還有另外一個問題是，Hadoop屬於一個Master多個Slave的架構，換句話說，當Master掛掉了，整個就掛掉了，因此有Single Point Of Failure的問題。

因此2.x出現了。

2.x版本

因為互相之間溝通困難的問題，因此在2.x版本多出了所謂的Yet Antoher Resource Manager (YARN)

因此架構變成了：

2.x的架構

在2.x之後，可以看到，MapReduce不直接架在HDFS上面，而是在YARN的上面，其他的軟體例如HIVE也是在YARN上面，這個時候如果兩邊需要溝通，YARN提供這個渠道。

在2.x也增加了所謂的Hig Availability和Federation的模式，避免第一版的single failure的問題。

3.x版本

3.x版本最近剛剛正式版release（2017/12/13），因此屬於非常新的版本。

這個版本要求JDK版本一定要在8以上，並且YARN和HDFS的部分都有做出了改變，例如本來HDFS預設會儲存3份提供可靠的Storage，這個已經改成了另外一種模式稱為Erasure Coding不止可以維持本來的容錯機制，並且需要的空間更少。

這個部分了解的不算太多，在接下來的操作也會主要focus在2.x版本，因此有興趣可以去官網看到最新的調整。

結語

在這篇，用一個overview的方式快速介紹了Hadoop，了解了幾個重要的元素和Hadoop的幾個特色。

在下一篇（[05]建立Hadoop環境 -上篇）要進入動手的階段（終於不是只有理論了），將會建立Ubuntu的VM並且把Hadoop架設起來，了解如何快速測試玩玩看Hadoop。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science

[Data Science 到底是什麼從一個完全外行角度來看][03]Big Data到底是有多Big？

2017-12-21T22:52:00.001+08:00

圖片來源：https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

在上一篇([02]Data Science 是什麼？)了解了整個Data Science包含的內容，這篇將會看看源頭，Data本身。

這篇先了解到什麼是Big Data？有什麼特性？到底是有多Big？

什麼是Big Data
3V 之 Volume - 量
3V 之 Velocity - 增長速度
3V 只 Variety - 資料的多元性
Big Data帶來的挑戰
結語

什麼是Big Data

目前階段在介紹整個Data Scientist日常的中心，Big Data

Big Data的處理

Big Data 在台灣翻譯成為 巨量資料，但是因為中國那邊反而實際用的比較多，因此大數據反而是比較耳熟能詳的詞。

Big Data其實是個相對詞，對於我們來說是「Big」Data，可能兩年後只是幾天的量而已，事實上，從數據產生出到2003年的資料綜合 = 我們2天的產生量而已；

IDC更研究指出，現今90%的資料，都是這2年產生出來。

這個資料量非常的恐怖，更別說我們還沒完全進入全IoT（Internet Of Things 物聯網）時代，如果到了那個時候估計光每一秒說不定都是現在1天的綜合（這個是個人亂猜，不過估計不久將來應該很快會發生）。

所以Big Data是一個相對詞，不過當描述Big Data的時候，一般來說會有3個特性，因為都是英文字母V開頭，因此也稱為3V:

Volume
Velocity
Variety

3V的含義，資料來源：https://blog.sqlauthority.com/2013/10/02/big-data-what-is-big-data-3-vs-of-big-data-volume-velocity-and-variety-day-2-of-21/

3V 之 Volume - 量

Big Data的其中一個特性就是量很大，因此3V裡面的Volume指的就是產生的量。

既然提到量，那麼就要提到儲存量的單位：

換句話說，1 ZB = 10^21 Byte。來源：https://en.wikipedia.org/wiki/Zettabyte

了解了單位，來看看每天產生的量：

可以看到光2002年的每秒產量就和1992年的每天一樣，來源：http://www.vcloudnews.com/every-day-big-data-statistics-2-5-quintillion-bytes-of-data-created-daily/

這個量非常恐怖，那麼，如果我們說Big Data到底在說什麼等級呢？

基本上，當國外在說Big Data分析的時候，一般來說講的都是PB等級。

大家可以想象一下，要能夠儲存PB並且做運算的電腦要多高級？

3V 之 Velocity - 增長速度

Velocity指的是量的增長速度。從本來批次的增加，到最後的及時增加。

可以看到，每分鐘會有72小時影片上傳到Youtube：來源：http://www.vcloudnews.com/every-day-big-data-statistics-2-5-quintillion-bytes-of-data-created-daily/

當IoT完全進入的時候，資料增長一定會是Real Time。

3V 只 Variety - 資料的多元性

資料不再是像關聯性資料庫這種結構性資料（Structure Data），其他非結構性（Unstructure Data）資料 - 例如影片，相片等等。

這種不同類型的資料讓處理起來也變得更加複雜。

Big Data帶來的挑戰

可以看到，Big Data不僅代表資料量很大，增長速度很快並且資料結構非常多元，那這些資料到底如何儲存和運算呢？

把硬體一直加大（Scale Up）所損耗的錢是倍數成長，因此更好的情況是平行擴展（Scale out）的方式。因此Hadoop的誕生讓一切變得有可能。

Hadoop做到讓一般性電腦能夠透過連在一起的方式達到儲存大量資料，並且平行運算。舉例來說，如果我要儲存1TB的資料，但是我沒有TB硬碟，那麼可以透過2個500GB的硬碟把那1TB的資料儲存在Hadoop的HDFS。

因此Hadoop把處理Big Data變得可行。

結語

在這篇介紹了Big Data的基本特性，和所謂的3V。

了解了Big Data的狀況之後，會發現到面臨的挑戰是，要儲存和計算這麼大量的資料靠一台超級電腦根本不可能，因此Hadoop的誕生導致了使用Big Data變得可能。

在下一篇([04]Hadoop是什麼？)，將會介紹讓Big Data處理變得可能，Hadoop。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science

[Data Science 到底是什麼從一個完全外行角度來看][02]Data Science 是什麼？

2017-12-20T23:02:00.000+08:00

圖片來源：https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

如果說資料（data）和石油一樣是最有價值的資源，那麼Data Science就同等於從原油提煉出石油的技術。

上篇([01]開篇)了解了整個系列的內容之後，這篇來了解一下 Data Science 到底是什麼？需要什麼技能/技術？和到底怎麼把data提煉出來變成可以用來做使用的資訊（變成石油）。

Data為什麼可以變成和石油一樣有價值的資源？

以孫子兵法為例

Data Science 為什麼會夯起來？
推動Data Science的幾個技術？
Data Science 需要有哪方面的知識？
Data Scientist 的日常工作
結語

Data為什麼可以變成和石油一樣有價值的資源？

在介紹Data Science之前，要先了解的是最後的成果是什麼？像原油變成石油一樣，最後石油是最主要能源之一，因此非常有價值，那麼Data最後到底變成什麼可以和石油一樣價值？

依我的理解，Data提煉出來搭配Machine Learning最後的結果是建立出一個預測模型（Predict Model）。想象一下，我們常常說，世上沒有後悔藥，為什麼需要後悔藥，因為你看不到未來會發生什麼事情。

如果你可以看到呢？或者說不需要很明確只需要把你的選擇正確的幾率提升幾個百分比，那優勢已經是無法估計。

所以，決策者可以依照Predict Model制定自己的策略，把優勢抓在自己這邊，打敗不確定性（Uncertainty）。

以孫子兵法為例

如果對於Predict Model還是有點模糊，那麼換個角度來看這個事情。

大家都聽過孫子兵法，在我來看，簡單來說，孫子兵法就是一個基於經驗總結（Data），經過孫子處理過而得到的一個作戰守則（Predict Model衍生出的策略）。

其實孫子兵法不是在教大家如何以少勝多 - 畢竟當你是少的時候就算贏也是慘勝，他其實教的是如何在各個小戰役裡面以多勝少，等到次數多了，優勢的傾斜會越來越大直到最後勝利。

Data Science 為什麼會夯起來？

其實從Data提煉可用的資訊出來並不是一個新的概念，一直以來都有相關研究在這方面。例如統計，data mining等等，都是想要用現用資料來了解情況或者預測未來。

那既然已經有了，為什麼現在會多出那麼一個詞呢？

其實一切會夯起來，完全是因為Big Data （大數據）。

舉個簡單例子，大家都知道瞎子摸象的故事，一些人看不到，加上大象太大，所以他們依據自己摸到的部分來推論大象是什麼。

摸到身體的說，它是一面墻壁，有些人摸到耳朵，然後說它是像一面扇子等等。但是沒有一個人摸到全部，所以沒有一個人對大象的描述是對的。

瞎子摸象，資料來源：https://kknews.cc/news/pq4oqaj.html

如果停一下，想想這個故事，因為大家沒辦法看到整個大象，因此大家的解讀都有偏差，如果反過來說，假設大家可以看到整個大象，那麼是否解讀就會正確（至少從相對的角度來說）呢？

學過統計的知道，有個概念叫做sampling（隨機抽樣），為什麼要做sampling呢？因為整個母體（全部的資料=整個大象）太過於大量無法處理（瞎子無法摸到），所以多多少少都有失偏頗（就像有些人覺得大象是面墻一樣）。

因為現在技術有辦法處理大量資料（就像如果瞎子突然看得到了），那麼對於整個預估是否會更準確呢？

所以，Data Science 會夯起來，完全是因為一直有需求，而直到現在才有技術有辦法支持達到效果。

推動Data Science的幾個技術？

既然知道為什麼Data Science會夯起來，來看看整個為什麼會夯起來。

幾個推動Data Science的技術

首先，在中間的部分是資料分析的部分，也是實際的核心，因為我們要用資料分析來了解資料。

如上面提到，當數據大起來的時候，越能夠看到整個全貌，因此Big Data非常重要。

能夠處理大數據之後，可以把大數據清理乾淨，搭配Machine Learning可以建立出準確的predict model。這些Predict Model可以放在Internet Of Things（IoT）讓這些IoT的機器做出更好決策，也由於有這些IoT，可以收集到更多數據。

數據更多，用Machine Learning建立更好的模型，IoT越方便 - 這個是一個一直循環的過程，到最後如果完全可以自動化，是不是Predict Model會越來越準確？

Data Science 需要有哪方面的知識？

到目前為止，看到了為什麼Data Science會夯起來，整個的整體環境讓整個資料分析處於一個正循環的狀況，那接下來就是，要當一個Data Science需要什麼能力？

Data Science Venn Diagram。來源：https://ion.icaew.com/itcounts/b/weblog/posts/theaccountinganddatascienceworldsmeet

網路上有個非常有名的Data Science Venn Diagram，告訴我們Data Science需要什麼能力，基本上需要3個領域：

Computer Science: 稱之為技術能力。畢竟，要處理Big Data，要讓電腦執行一些運算都需要一些資訊的技術能力，例如Programming，或者建立Big Data環境
Maths & Statistics: 稱之為數學能力。畢竟，一些預測模型和資料處理技術其實都是數學公式和統計學的模型。
Domain Knowledge: 某個領域的知識。舉例來說，假設你不是寫web的，可能400、404、500對你們無感，但是對於寫web的很清楚知道這個代表頁面呈現情況，因此可以用來計算整個網站的穩定度。

這些能力不代表都要很精通，但是至少要有一定水準才有辦法做。因此，很多都是不同的人一起通力合作來建立Predict Model。

題外話：這個其實和我們說的通才或者pie 人才是一樣概念，只是專才是不夠的......

Data Scientist 的日常工作

做Data Science的人稱為 Data Scientist （資料科學家），而基本上都是和資料打交道，整個流程大概如下：

Data Scientist的日常

首先都是有一個問題（需求）的產生
開始收集相關data
data基本上都需要經過處理，例如轉型、清理髒資料等
依照這些資料建立predict model
驗證predict model是否準確
沒問題就發佈出去實際使用

基本上百分之80%的時間都是都是在資料收集和資料處理。

machine learning基本上就是第4步和第5步。

這些步奏不一定是順序執行，很有可能會跳來跳去，甚至直接就放棄某個問題而直接換一個問題。

接下來這個系列會把每個步奏都和大家介紹一下。

結語

這篇把整個Data Science做了一個簡單的介紹。

希望透過這篇能夠了解到為什麼Data Science很重要，需要的技術和日常主要在處理什麼事情。

在下一篇([03]Big Data到底是有多Big？)將會介紹最底層的推手，讓一起別的更加準確的技術，最重要的資源 Big Data。

標籤: data science,「Data Science 到底是什麼從一個完全外行角度來看」

[Data Science 到底是什麼從一個完全外行角度來看][01]開篇

2017-12-19T21:59:00.000+08:00

圖片來源：https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://pixabay.com/en/math-blackboard-education-classroom-1547018/

又到了新的一屆鐵人賽，這次和之前不一樣的是，多了團隊模式。然後，不知不覺就組成了一個團隊.... 失敗的話應該會永遠被釘死吧。

所以，為了不被釘死，要好好努力來寫啦，已經被警告，別像去年那樣，待補，結果和卡債一樣，永遠翻不了生（雖然到目前為止還在努力的補當中）。

那今年的主題是什麼呢？不是新的程式環境（OS: .Net core哪去了？)，不是延伸去年內容打造更完整的建制環境（OS: 整合docker的DevOps哪去了？），而是一個完全不熟悉的領域，Data Science（資料科學）。（如果你是工程師，那麼別錯過 1/6 在台大的 Study4.TW Study4Love - 與大師對談）

今年的題目是：Data Science 到底是什麼 - 從一個完全外行角度來看

為什麼想寫這個主題？
這個系列的主要程度和內容？
需要準備什麼環境？
結語

同步發佈於第九屆 2018iT 邦幫忙鐵人賽：https://ithelp.ithome.com.tw/articles/10192297

為什麼想寫這個主題？

先給各位我的背景，我其實是一個一般的Web Developer，主要使用微軟的技術，所以都是.Net、Asp .Net這些東西。從我這幾年參加過的鐵人賽可以看出，算是剛脫離junior的階段：第六屆跑去寫了java：，第七屆寫了如何自定自己的框架，第八屆寫了建制Devops （也是滑鐵盧的一屆，努力還債中....），今年本來是想延續去年的主題，然後進入到Docker整合DevOps。

不過剛好在最近，因為想了解大數據（Big Data），然後有去上課（如果大家有興趣，然後在台中，可以參考看看，最近1月也會開課：鏈接），剛好認識了Data Science的整個big picture。

不得不說，我有點震撼到，因為雖然一直以來都有聽到：Hadoop、Big Data、Machine Learning、Internet Of Things這些詞，然後也模模糊糊知道在做什麼，但是並不知道整個組合起來對世界正在造成什麼改變。

雖然大家可能常常聽到，我們實在經歷工業4.0的工業革命。但是可能我們比較沒有意識到的是，每一工業革命其實都是對整個世界的巨大改變。而Data Science正是推動工業4.0的其中一個主要的推手。

工業革命的大事記。來源：台灣轉不動工業 4.0，如果企業經營者不丟棄成本思維

既然這麼重要，那麼正經歷變革的我們難道不需要有些了解嗎？大變革就像大海的巨浪來襲，是要準備好能在裡面游泳存活下來，還是因為措手不及而淹死？

所以，雖然對於這個領域完全是外行，而且對於我的工作上面也沒有什麼直接幫助（反而要花時間去了解），但是不記錄的話估計一個月就忘光了，因此想要借這個機會把學習到的做一個整理，方便以後回來看。

這個系列的主要程度和內容？

這個系列是給完全不了解這個領域的人看的，所以假設你有聽過Data Science（沒聽過更好）但是不知道在做什麼，那麼這個很適合。會從底層的資料到上面的Machine Learning做一個入門總覽介紹。

如果你是大神級人物（對我來說任何懂Data Science都是大神 XD），那麼也麻煩不吝指教。

整個 Data Science 其實就是在建立一個 預測模型，讓決策者可以依照這個模型去制定策略。Data Science工作就是讓這個預測模型能夠非常準確。要達到這個效果，有好多知識和技能一起組合使用才能達到。

這個系列大概會拆幾個部分：

Data Science的概觀

了解什麼是Data Science、到底在做什麼、為什麼很重要和怎麼改變世界。

Big Data的概念和Hadoop

整個的浪潮會掀起其實是因為Big Data能夠有辦法用一般電腦來做處理。因此，會先從這個部分先介紹，包含：

Big Data是什麼
Hadoop是什麼
如何架設Hadoop

Data Processing - R 語言介紹

有了資料了之後，接下來就是對資料做處理。這邊會用R來介紹：

R的基本介紹
一些統計學的介紹 - 預測其實都是統計模型，因此需要了解一些統計知識
用R做資料處理
視覺化資料 - 找出資料的關係

Machine Learning - 做出預測模型

有了乾淨的資料，可以來了解如何透過machine learning建立模型做出預測：

Machine Learning到底是什麼
幾種模型的介紹

總結

一些參考資料和如何繼續下去。

需要準備什麼環境？

基本上只需要一般電腦就好，這邊範例會使用一般的Windows 10的電腦做操作，如果要在Hadoop也跟著做的話，那麼電腦記憶體要高一點，因為會用建立VM的方式架設Ubuntu。

至於後面用到的R基本上一般電腦都可以裝，所以沒有特殊要求。

結語

希望這篇讓大家有個概念，Data Science 很重要，Data Science 很重要，Data Science 很重要。

想想，如果在做決定的時候，透過預測模型，可以讓你本來成功幾率，從-11%到+6%有利，那麼翻個幾次不就整個成功了。

下一篇，從Data Science開始介紹 - 先來了解什麼是Data Science。

標籤: 「Data Science 到底是什麼從一個完全外行角度來看」,data science

[從.Net工程師的角度來看DevOps 25]在Visual Studio Team Services執行Build Script和CI Server總結

2017-12-16T10:16:00.000+08:00

圖片來源：https://pixabay.com/en/books-spine-colors-pastel-1099067/ 和 https://blog.xebialabs.com/2016/03/21/essential-devops-terms/

在上一篇（[從.Net工程師的角度來看DevOps 24]免費build私人Repo的CI Service - Visual Studio Team Service介紹）了解了如何用Visual Studio Team Services（VSTS）的內建Template來build範例專案；在設定的過程，其實沒辦法直接使用內建template，會需要調整一些參數。

這些調整的內容和AppVeyor要調整的非常不一樣，造成了如果要換CI Server會花一些時間在這些瑣碎的細節上面。

這篇將會看看，如果要把VSTS改成用build script來build專案，會需要做些什麼。

調整VSTS來執行build script
簡單總結CI Server和build script的關係

每個CI Server設定方式都不同
拿不到build完的內容 - Artifact

結語

調整VSTS來執行build script

首先，先建立一個新的build definition，這次在template的部分選擇empty template：

選擇emptytemplate

進來了之後，只需要加入一個powershell script的step並且指向專案裡面的build script，並且選擇Save & Queue

設定powershell script

這邊要注意在step前面的Get Sources需要設定和github連上。

之後build就會開始，並且跑完了之後可以看到log資訊和我們在local執行的時候是一樣的內容：

執行完的結果

簡單總結CI Server和build script的關係

目前為止，看了兩個CI Server：AppVeyor和VSTS。在這裡面會發現2個問題：

每個CI Server設定方式都不同
拿不到build完的內容 - Artifact

每個CI Server設定方式都不同

在AppVeyor，已經幫使用者區分好build、test、deploy等等階段，只需要設定這些階段要執行什麼，AppVeyor就會建制完。

在VSTS則是用step的概念，由使用者自己定義每一個階段要執行什麼，然後有一些已經定義好符合某些專案的template，方便快速設定。

可以想象每一種CI Server有自己的設計理念，如果今天沒有build script要設定每一個CI Server其實很麻煩，尤其是當CI Server更新版本的時候，位置和內容可能都會不一樣，需要花時間再去研究。

反過來說，如果把build邏輯都整合到build script，不止不會被綁到某一個CI Server，並且不管在哪一個CI Server只需要執行那個build script即可，並且build script在做什麼非常清楚，不像如果依賴CI Server，不能夠肯定裡面到底執行了什麼操作。

拿不到build完的內容 - Artifact

當程式碼build完之後，一定會有一個產出，例如library會是一個dll，這種產出在CI有個名稱叫做Artifact。

如果眼尖的朋友，會注意到，如果用CI內建的方法，會產生出Artifact，但是執行build script 會沒有。

VSTS內建template build的結果，artifact有東西

並且build過程有些資訊，像是測試情況、測試涵蓋率（Code Coverage）這些在自己的build script也會看不到。這是因為目前build script還沒有結合CI Server，這也是接下來需要補強的部分。

結語

目前build script基本已經完成了，但是如果沒辦法自動打包產出結果，對於發佈和整個CI效用就大打折扣了。

因此，接下來將會開始進入另外一個階段，Package的階段。

而在package裡面，有個非常重要的概念是版號（Version），因此下篇將會介紹版號的重要性。

標籤: 「從.Net工程師的角度來看DevOps」,「iThome 第八屆鐵人賽」,devops,.net

Alan Tsai 的學習筆記

[開發工具小技巧]NimbleText - 資料處理產生符合特定結構的好用小工具

NimbleText介紹

NimbleText小檔案

版本的差異

使用介紹

使用情境1 - 依照清單產生出insert sql語法

使用情境2 - 產生出class的property

結語

[開發工具小技巧]在Visual Studio 快速找到對應的程式碼，多多使用「移至」(Go To)及套件Codinion

移至 (Go to) 功能介紹

如何啟動 移至 的功能

幾種 移至 的方式

把 移至 的篩選限定在當前打開的檔案

使用Codinion套件做移動

套件：codinion小檔案

結語

參考資料

[開發工具小技巧]調整Visual Studio的字形及文字顏色

字體及大小設定

code的字體及大小

IntelliSense的字體及大小

調整選取到同樣的參數呈現的顏色

套件：Word Highlight With Margin

套件Word Highlight With Margin小檔案

把不同的code類型給上不同的顏色

套件：codinion小檔案

結語

[開發工具小技巧]應該怎麼用Visual Studio執行和進入debug比較省時間？搭配ReAttach套件快速進入Debug模式

一般的開發及debug流程

如何優化run及debug的方式

以 Start Without Debugging（快速鍵 Ctrl+F5）的執行方式替代 F5

當需要debug的時候以Attach Process方式進入debug模式

以套件ReAttach讓attach process的流程更容易

ReAttach小檔案

結語

[從.Net工程師的角度來看DevOps][27]如何看.Net Dll版號和如何給.Net的Dll打上版號

有寫過的相關文章

一張表看懂dll版號的值和設定版號方式 - TL;DR

如何看dll的版號？

3個版號的差異是什麼？

如何設定dll的版號？

結語

[從.Net工程師的角度來看DevOps 26]Package階段介紹

Package階段在做什麼

常見的Package格式

壓縮檔 - zip

nuget

Web - web deploy package

DB - dacpac

版號的重要性

結語

[Data Science 到底是什麼從一個完全外行角度來看][18]R語言基礎 中篇 - 1維度資料結構介紹

R的Data Structure

vector - 1維並且所有內容要是一樣的type

如何建立vector

如何使用vector

如何新增和刪除資料

list - 1維 但是 內容形態可以不一樣

如何建立list

如何使用List

結語

參考資料

[Data Science 到底是什麼從一個完全外行角度來看][17]R語言基礎 上篇 - 語言特性和資料形態

R的語言特性（Language Paradigm）

Vector Base - 一切都是向量

Functional Programming

R的資料形態(data type)

這篇有用到的R function介紹

結語

[Data Science 到底是什麼從一個完全外行角度來看][16]用R來看股票，透過quantmod了解R的強大

quantmod是什麼？

用quantmod分析google股票

安裝和載入quantmod套件

取得google股票資訊和分析得出內容

畫出走勢

畫出黃金和死亡交叉線

結語

參考資料

[Data Science 到底是什麼從一個完全外行角度來看][15]R是什麼？準備開發R的環境 - RStudio介紹

如何啟動移至的功能

幾種移至的方式

把移至的篩選限定在當前打開的檔案

[Data Science 到底是什麼從一個完全外行角度來看][18]R語言基礎中篇 - 1維度資料結構介紹

list - 1維但是內容形態可以不一樣

[Data Science 到底是什麼從一個完全外行角度來看][17]R語言基礎上篇 - 語言特性和資料形態