Sunday 10 May 2020

不准確的大數據

這篇于 2020-04-08 在臉書發表

大數據,Big Data,之所以稱為大數據是有原因的。它所需的數據真的要很大很大,不是幾千幾萬,而是幾百萬幾千萬甚至幾億,而且包含所有能採取的數據,並不限定範圍。由於太大,根本無法像傳統數據那樣分門別類,所以這些數據就被歸類為『非結構化數據』,Unstructured Data。這種沒有分門別類儲存數據的方式在幾十年前會被資深工程師罵個狗血淋頭,但現今電腦能力遠遠超越那個時候,在一堆山一樣高的雜亂文件裡尋找所需要的關鍵詞根本是小事一件。

大數據還有一個強項,就是相關性分析,Correlation Analysis。當然相關性分析不是大數據才有的,但是大數據的相關性分析可以很快的把兩個看起來沒有關係的數據層層疊疊的牽連起來,去蕪存菁,然後再利用因果分析,Casual Analysis,來進行更精確的分析。

當前利用大數據的的例子就是 IBM 利用超級電腦分析了新冠病毒的大數據,把有效疫苗成份範圍的可能性縮小到 77 個。這讓其他研究員省下不少時間,提升研發疫苗的速度。

完美嗎?不。

相關性分析領域常強調『 相關不蘊涵因果』,Correlation does not imply causation。簡單來說,即使數據上顯示兩個不同參數,parameters,的曲線相吻合,並不代表這兩個參數之間有關聯。

Image may contain: text
圖表一,對比美國由1999年到2009年之間的自殺率跟投入科學,太空以及科技領域的資金。Y軸左邊是自殺率尺度,右邊是投入科學、太空以及科技領域的資金的尺度

比如看圖表一,對比美國由1999年到2009年之間的自殺率跟投入科學,太空以及科技領域的資金。兩者的曲線相似的層度相當高,但它們之間能有關係嗎?當然聰明如你會說,就是這個高科技讓人發瘋自殺,所以肯定有關聯性。

No photo description available.
圖表二,對比美國1999到2009 年間死於游泳池的人數跟影星尼古拉斯基出現在影片中的次數。Y軸左邊是死於泳池的人數尺度,右邊是尼古拉斯基出現在影片中的次數尺度。

那好吧,我們再看看圖表二,美國同年間死於游泳池的人數跟影星尼古拉斯基出現在影片中的次數。。。應該是看了他的影片然後去溺水?

目前火紅的學科是數據科學家,Data Scientist。數據科學家是新穎的專業,跟一般的數據分析師,Data Analyst,不一樣。前者想辦法在一大堆毫無意義的數據裡找出相關性,後者利用這些相關性進行相關分析。



Posted from http://www.drkhtang.com

No comments:

Post a Comment