R, tidytext, jiebaR 中文斷詞文字探勘處理

tidytext 是 R 軟體 tm 套件之外新的一套文字探勘處理套件。網路上關於 tidytext 的文章,99% 是處理英文,僅有的一篇西遊記分析文章,裡面也僅是點到為止,連中文斷詞都省略。所以我決定自己測一下 tidytext 套件搭配 jiebaR 中文斷詞、以及跟原有 tm 套件 dtm / tdm 矩陣互相轉換的介紹
(繼續閱讀…)


 

Linux Debian(Wheezy)/Ubuntu 編譯 R-3.4.0

我自己習慣在 Linux 作業系統上抓 R 軟體的原始碼編譯、安裝。這樣做通常比較有彈性,也可以避免作業系統版本跟其對應的 R 軟體版本過於老舊的問題

假設我們想把 R 裝在 /opt/R 資料夾,並且不需要 R 的 X-window 相關 GUI. 如果需要 X-window GUI, 可以把 Step 3. R_config 檔中的 “–with-x=no” 刪除

(繼續閱讀…)


 

在 R 輸入 WebCam 影像並輸出播放視窗

最近剛好對 Rvision 這個可以連接 openCV 影像偵測函數庫的套件有興趣,但 Rvision 套件對於 WebCam 影像的擷取功能有限,而且 R 軟體上面目前也沒有專門處理相關影音的套件,於是我嘗試搭配 FFmpeg 軟體 (Windows 版),用 R 軟體的 pipe connection 功能來實驗一下在 R  操作影像輸入/輸出的功能
(繼續閱讀…)


 

Debian Linux (Wheezy) 上安裝 SparkR

最近想安裝 SparkR 來玩一下,結果 Google 搜尋來的資訊滿多都缺這缺那。舉例來說,這篇標題很好聽的「Install and Run SparkR – easy way」的文章教我們裝了一堆東西,結果整篇文章就是沒講要怎麼安裝 SparkR. 所以我就把自己的安裝過程寫下來給大家參考。

作業系統: Debian Linux 7.11 (代號 Wheezy), 應該也適用於 Ubuntu 14.04 版本
(繼續閱讀…)


 

比較 R 軟體 7 種不同的資料檔存取方法

最近在臉書的 「台灣R軟體Club」社團 中,Kang-Chung Yang 網友提到希望能用平行運算方式存/取大檔案以加快速度。熱心的陳慶全網友 Google 出可以使用 R 軟體內建的 readRDS/saveRDS 搭配 xz 或 pigz 兩個平行壓縮軟體來加快速度。

以下是我測試的結果,先講結論:

(1) 如果硬碟空間夠大:feather 套件的 read_feather 與 write_feather 速度最快,而且遠遠超過其他方法

(2) 如果硬碟空間有限:顧及存取速度、檔案大小、read/write 函數/資料檔格式的一致性,則 readRDS/saveRDS + pigz 是最適當的組合
(繼續閱讀…)


 

一張圖比較 R vs. Python

我的汽車上曾經為了節省空間,放了一把萬能瑞士刀,想說上面有起子,臨時應急時比較方便。可是歷經一兩次真正需要轉好幾顆螺絲的狀況,後來我還是買了一根真正的十字起子放車上備用。

(繼續閱讀…)