再談大數據

Sunday, 10 May 2020

再談大數據

這篇于 2020-04-05 在臉書發表

其實上一篇關於數據的東拉西扯沒有談到重點，不過反正不是學校考試，沒有人會給我零分。

數據預測的準確度最主要來自數據源，data source，的準確度與相關性。

但是你所看到的數據源並不一定就是最初的數據，通常的情況下它也是另一組數據中的平均值。

打個比方，電子溫度計測量體溫不像傳統水銀溫度計那樣能直接標出讀數。首先它必須選用對溫度非常敏感的金屬物質，而且必須是穩定的，這些物質統稱為熱敏電阻，thermistor。微小溫度的變化會改變物質的內阻，這種內阻變化能用電子儀器轉換成我們熟知的攝氏，Celsius，或華氏，Fahrenheit，溫度。

可是熱敏電阻跟溫度的對比並不是線性，linear，的，而是呈一個未知的曲線，直到今天科學家還是解不出這個內阻-溫度之間的方程式。不過在1968 年，兩位很厲害的科學家 John S. Steinhart and Stanley R. Hart （不知道他們的中文名），倒是導出了一組非常接近熱敏電阻曲線的複雜方程式組，程式中還有三組看起來就像亂碼的常數，constants。

重點來了，『非常接近』，而不是『絕對』。所以方程式內的三組常數，必須重複數千數萬甚至數十萬次的實驗來採取平均值。這樣所有所製造的電子溫度計測量的結果才不會有太大的誤差，errors。所以當我們說人體平均溫度為36.8 度時，我們不僅採用溫度計讀數的平均數，也採用溫度計內部所有電子零件的平均數、實驗本身的準確度、實驗設備的精確度，等等。在這種環環相扣的情況下，如果有一組的數據是錯的，整個後續數據都會變成垃圾。

好像又離題了。

Posted from http://www.drkhtang.com

鄉愁四韻咖啡館 - 另一所別館

關於我

Sunday, 10 May 2020

再談大數據

No comments:

Post a Comment