自從加入了 python-docs-zh-tw 翻譯計畫,好像越做越有心得(?)
畢竟以前沒有這種可以加入社群貢獻的機會,所以這次我沒有放掉這個機會了。
本次任務是因為取得了每個頁面的瀏覽次數等資料 [1] ,
我想配合上 Organizer 一直有在使用的 potodo 工具去計算出每個 po 檔案的翻譯完成度為何 [2] ,
進行了本次的資料視覺化挑戰。
[1] : python-docs-zh-tw 個別頁面的瀏覽資料
[2] : python-docs-zh-tw 各項檔案的翻譯完成度資料
本來想說都靠著前人有經驗產生過的資料,也來自己產生看看,
產生過程都沒問題,這兩個檔案的正規化 (Normalized) 才是挑戰。
這個機會又讓我跟 Pandas.DataFrame 再次熟悉了一下。
最後的結果如下:
- 頁面瀏覽次數及訪客數的曲線圖
- Color => Folder
- X-axis => Visitors
- Y-axis => Pageviews
- Filter : 500 < Pageviews < 2500
- (500 以下過於密集、2500 以上只有Tutorial/index, Library/datetime )
- 頁面瀏覽次數及訪客數的曲線圖
- Color => Filename
- X-axis => Pageviews
- Y-axis => Translated Percent
- Filter : 500 < Pageviews , Remove Tutorial, Installing
- Note : 移掉後面兩個是不知道為什麼跟 potodo 的資料對不上
- Note : 圖片中 Translated Percent 為 0 的也是 potodo 無資料
以前擅長的都是結合 GeoData 的地圖視覺化,這次挑戰純數字資料的視覺化是個挑戰啊。
P.S. 好的資料集真的很重要,向所有的 Data Scientist 看齊!
P.P.S. 不小心喚起了記憶,大學時期分數最慘的科目就是統計。