Sunday, 10 May 2020

再談大數據

這篇于 2020-04-05 在臉書發表

其實上一篇關於數據的東拉西扯沒有談到重點,不過反正不是學校考試,沒有人會給我零分。

數據預測的準確度最主要來自數據源,data source,的準確度與相關性。

但是你所看到的數據源並不一定就是最初的數據,通常的情況下它也是另一組數據中的平均值。

打個比方,電子溫度計測量體溫不像傳統水銀溫度計那樣能直接標出讀數。首先它必須選用對溫度非常敏感的金屬物質,而且必須是穩定的,這些物質統稱為熱敏電阻,thermistor。微小溫度的變化會改變物質的內阻,這種內阻變化能用電子儀器轉換成我們熟知的攝氏,Celsius,或華氏,Fahrenheit,溫度。

可是熱敏電阻跟溫度的對比並不是線性,linear,的,而是呈一個未知的曲線,直到今天科學家還是解不出這個內阻-溫度之間的方程式。不過在1968 年,兩位很厲害的科學家 John S. Steinhart and Stanley R. Hart (不知道他們的中文名),倒是導出了一組非常接近熱敏電阻曲線的複雜方程式組,程式中還有三組看起來就像亂碼的常數,constants。

重點來了,『非常接近』,而不是『絕對』。所以方程式內的三組常數,必須重複數千數萬甚至數十萬次的實驗來採取平均值。這樣所有所製造的電子溫度計測量的結果才不會有太大的誤差,errors。所以當我們說人體平均溫度為36.8 度時,我們不僅採用溫度計讀數的平均數,也採用溫度計內部所有電子零件的平均數、實驗本身的準確度、實驗設備的精確度,等等。在這種環環相扣的情況下,如果有一組的數據是錯的,整個後續數據都會變成垃圾。

好像又離題了。



Posted from http://www.drkhtang.com

No comments:

Post a Comment