Sunday, 10 May 2020

大數據

因為新冠病毒,所以有了這篇。

數據,data,準確嗎?這裡面最主要的關鍵詞是『機率』,probability,(或『幾率』,中國大陸用詞)。我比較偏向用『機率』,一方面是先入為主,另一方面這『機』字包含了『隨機』,random,這個含義,而『機率』就是建立在隨機數上。

數據不是『只是一組數字』而已。

先來談談隨機數。

骰子有六面,每一次扔骰子的結果都不能預測,除非是灌了鉛的。但是扔上數千次的時候,你會發現所有的數字出現的機率都近乎相等,就是六分之一,或 1.666… 。但是你不能因為有一個數字出現的機率少於 1.666..,就認為下一個開的機率就會比較大 。那麼容易的話大家發財了。

骰子無聊,用你感興趣的萬能大馬彩多多萬字。有人收集了過去幾十年的的號碼來分析下一期的號碼,結果。。那麼容易的話大家發財了。

所以,數據的準確性基本上是建立在很大的採樣量,sample size,上,越大的採樣量,數據就越準確,所以才有『大數據』這個概念。

人們很早就用數據解決問題,可是不知覺。就像草藥,都是大家吃啊吃的,慢慢就知道某些草藥能治這個那個,老人家說這是經驗,而科學是把它們記錄下來,變成數據。

2018 年 509 大選的時候,我曾經做過一個很無聊的統計,利用谷歌輸入"support BN"跟"support PR",不去管搜索內容,只看兩者出現的搜索結果出現的數量,有趣的是結果為 49:51,跟選舉結果一樣,而且距離選舉日期越近,出現的數量越精確,由 61:39 的比例到 49:51的比例。你可以嗤之以鼻說這是過於簡單、毫無根據,但大數據往往只看結果,裡面固然有原因,可是複雜程度遠遠超越目前的計算能力。

同理,我們能預測氣候,climate,可是不能預測天氣,weather。我們能說十二月多雨,卻不能預測明天會不會下雨。因為氣候是大數據,天氣還不夠數。

更深一點,那個聽起來就是外星科學的量子論,它的基礎是建立在『波粒二象』,wave-particle duality,性質上。簡單來說就是我們認為的『粒子』,particle,有時不能用我們熟知的物質粒子的特性來解釋,也就是說不能把它看成像一粒鋼珠式的物質,只能用波動性質來解釋,像水波、聲波、電磁波。科學家做了無數次的實驗,數據上證明了這個特性,可是解釋不來,只有接受。而建立在這個奇怪理論上的科技有電腦、行動電話、衛星定位,核磁共振掃描,MRI,等等。如果數據不准確,這篇文章只能在阿公打字機上打出來。

還有那個歐洲核子研究組織,CERN,所建的、橫跨法國跟瑞士邊界,圓周總長27公里的大型強子對撞機,Large Hardon Collider,所做的實驗。。。這裡就不提這種昏昏欲睡的話題了。

大數據很多時候在不能解釋的前提下解決了很多目前利用計算解決不了的問題,這就是我們常說的『科學解釋不了』。但很多人把這句『科學解釋不了』亂用在宗教或偽科學上,往往一句『科學解釋不了』就把問題強掃入地壇地下。鬼魂為甚麽有衣穿?難道衣服也有靈魂?科學解釋不了!

『科學解釋不了』還是需要數據的支撐。



Posted from http://www.drkhtang.com

No comments:

Post a Comment