时间:2023-02-10 17:41:33来源:搜狐
今天带来从小数据到大数据 PDF「大数据时代的小数据」,关于从小数据到大数据 PDF「大数据时代的小数据」很多人还不知道,现在让我们一起来看看吧!
俗话说:“细节决定成败。”
在科学史上,许多重大的科学发现
都是由于“小数据”而引发的。
从正圆到椭圆 —— 8′引出的天文学革命
近代早期最重要的天文观测是由丹麦天文学家第谷完成的。1600年,开普勒应邀来到布拉格的鲁道夫宫廷协助第谷工作,接触到第谷无比丰富的天文观测资料。
开普勒选了火星为突破口——第谷留下的火星资料最丰富,而且火星的运行与哥白尼理论出入最大。起初,开普勒还是采用传统的偏心圆方法。他在试探了70多次后,终于找到了一个方案,但很快就发现与第谷的其他数据不符——相差8′。
不过,他坚信第谷的观测可靠,没有忽略这细微的8′。那么,问题出在哪里呢?
第谷
经过紧张艰苦的归纳、整理、试探,开普勒先是发现了火星绕太阳的运动向径单位时间扫过的面积是一个固定值。这意味着虽然火星的轨道线速度并不均匀——离太阳远时,线速度变小,离太阳近时,线速度变大;但是,面速度均匀。后来,他发现火星的轨道有点像卵形,就先用卵形线来描绘轨道,但也没能成功。最后,他想到了椭圆,很快就确认火星的轨道是椭圆。
1609年,开普勒发表了《论火星的运动》,阐述了他发现的火星运动规律:火星划出一个以太阳为焦点的椭圆——开普勒第一定律;由太阳到火星的向径在相等的时间内划出相等的面积——开普勒第二定律。
1617~1621年,开普勒出版了《哥白尼天文学概论》三卷本,把前述第一、第二定律推广到了太阳系的所有行星,同时公布了他于1619年发表的开普勒第三定律:……行星公转周期的二次方和它与太阳距离的三次方成正比。
开普勒
至此,所有行星的运动都与太阳紧密地联系在一起,太阳系的概念被牢牢确立。哥白尼和他之前的天文学家运用的一大堆“本轮”和“均轮”被彻底推翻,行星日夜不停地按“开普勒三定律”有条不紊地邀游太空。就这样,开普勒完成了他的“宇宙体系”的“2.0版”,被誉为“天空立法者”。
于是,开普勒不无自豪地在他于1619年出版的《宇宙的和谐》一书中说:“就凭这8′的差异,就引起了天文学的全部革命。”
±0.04胜过±0.02
——库仑在数据面前的睿智
±0.04的误差比±0.02更大啊!那±0.04怎么会胜过±0.02呢?答案还得从头说起。
1785年,法国物理学家库仑(1736~1806)在他的论文《电力定律》中,发表了电学中第一个被发现的定量规律——库仑定律:F=k(Qq)/r2,其中F是距离为r、电量为Q和q的两个静止点电荷之间的静电力,k=9.0×109N·m2/C2,是库仑常量即静电力常量。因此,人们都公认他最早发现了这一定律。
其实,最早发现这一定律的人并不是库仑,而是英国化学家、物理学家卡文迪许(1731~1810)——他的实验结果还比库仑的更精确。那为什么人们不说卡文迪许是这一定律的发现者呢?他又是怎样在实际上最早发现这一定律的呢?
1773年,法国科学院宣布了征文《什么是制造磁针的最佳方法》,公开征集指向力强、抗干扰性好的指南针,以用于航海。1777年,库仑以论文《关于制造磁针的最优方法的研究》,与他人分享了头奖。他在论文中提出用丝线悬挂指南针是较好的方法,并指出悬丝的扭力能为物理学家提供一种精确测量微弱的力的办法。又经过几年努力,他得出了“扭转定律”:扭转力矩与悬丝的长度成反比,与悬丝的扭转角成正比,与悬丝直径的4次方成正比。他由此发明了库仑扭秤,并用它得到的数据发现了库仑定律。
库仑
但库仑并不知道,在英吉利海峡的那一边,早就有人捷足先登。
实际最早发现静电力服从“平方反比”的是卡文迪许。他在1773年设计了一个巧妙的电学装置——同心球进行实验。他在多次重复实验之后,最终确立了静电力服从“平方反比”,其误差仅±0.02——引力和斥力分别与距离的(2±0.02)次幂成反比,这比后来库仑的精度(2±0.04)还高。
这里有三个问题必须交代。
第一个问题是,库仑的实验晚于卡文迪许,为什么其精度反而不及后者?这是由于库仑用的是他发明的扭秤来测力的,但是很难测得精确;而卡文迪许不是用自己发明的“扭秤”——“同心球装置”测力,而是用检验导体内部是否有电荷的方法,这就可以测得很精确。
库仑扭秤
第二个问题是,为什么卡文迪许测出导体内部没有电荷就能导出“平方反比”呢?由静电学可以证明:导体表面才分布电荷,内部不会有电荷。这里用到的“转化”(把测静电力转化为测电荷),是重要的科学思想与方法。令人遗憾的是,由于卡文迪许潜心研究科学,不太关注成果的发布,所以没有及时发表上述成果。就这样,和他的另外许多成果一样,都被埋没在他浩如烟海的手稿之中,被库仑“捷足先登”。
第三个问题是,库仑的精度(2±0.04)比卡文迪许的(2±0.02)还低±0.02,那为什么库仑就敢于得出静电力遵从“平方反比”的库仑定律呢?原来,虽然库仑的精度比卡文迪许的还低±0.02,但他睿智地拿起了强大有力的科学武器——“类比法”(与当时人奉为金科玉律的牛顿万有引力遵从“平方反比”进行类比)。这正是这个故事的标题——“±0.04胜过±0.02——库仑在数据面前的睿智”所指。
为何少了0.14个百分点
——拉普拉斯发现“重女轻男”
1814年,法国数学家、物理学家拉普拉斯出版了《概率的哲学探讨》一书。书中根据伦敦、彼得堡、柏林等地和全法国的统计资料,得出几乎完全一致的男婴出生数与女婴出生数的比约为22∶21a,写成百分比的形式即a≈51.16%∶48.84%=51.16∶48.84。这一比值表明,这些地方的男婴比女婴略多。
拉普拉斯
不过,细心的拉普拉斯在统计了巴黎地区从1745~1784年这40年的有关资料后,却得到a≈51.02%∶48.98%的结果。上述男婴的51.02%比51.16%少了0.14个百分点,或者说少了大约0.27%。然而,就是这“微不足道”的0.14个百分点引起了他的注意——是允许的“统计误差”吗?对这“与众不同”的“巴黎地区a之谜”,他百思不解。
后来,拉普拉斯终于意识到,可能是由于其他因素的影响。经过深入细致的调查,他发现巴黎地区有“重女轻男”而抛弃男婴的陋习恶俗,以致歪曲了a的真相。经过修正之后,他发现巴黎地区仍然稳定在a≈51.16∶48.84。
拉普拉斯从“小数据”中得出“重女轻男”,用到了非常重要的科研方法——数理统计,它是数学的一门分支学科。
(未完待续)
声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。
图文推荐
2023-01-16 12:37:52
2023-01-13 17:30:49
2023-01-01 10:53:04
2023-01-01 10:47:31
2023-01-01 10:17:20
2023-01-01 10:11:57
热点排行
精彩文章
2023-01-01 09:47:20
2023-01-01 09:41:40
2023-01-01 08:53:19
2022-12-31 19:05:28
2022-12-31 18:47:03
2022-12-31 18:41:02
热门推荐