《女士品茶》读书笔记
[Reading]
C2:偏斜分布
- 不确定性是大自然固有的,可以观测到的现象只是一些随机的映像,概率分布才是真实的东西——重力加速度的测量
- 数学上一切以人命名的概念都不是以发现者的名字命名的。
- 举例并不是证明——达尔文无法举出在人类历史上新出现的物种——用于证明“新物种产生的原因是适者生存”
C3:亲爱的戈塞特先生
- 我们测量的是样本中酵母细胞的数量,但我们研究的真正对象是整个罐子里的酵母细胞浓度。由于酵母是活的,细胞又在不断繁殖分裂,因此这个”对象”实际上并不存在,现实中存在的仅仅是单位容积内酵母细胞的概率分布——泊松分布。
- 尽管戈塞特做了许多谦虚的声明,但这个领域许多影响深远的重大贡献都是他一个人做出来的。
C5:收成变动研究
- 当其他人争执不休时,费希尔坐在那里,静静地吸着烟斗,等待着说话的机会。“随机化。”他开口了——方差分析
- 我们应该对年轻的科学家提出提醒和建议:当他想要为人类的知识宝库献上一颗宝石的时候,他一定会受到某些人的攻击。
C6:百年一遇的洪水
- 棉线的断裂取决于其中最弱一根纤维的强度——极值分布
C11: 假设检验
- 频数学派——大数定律——拥有固定概率的相同试验不断进行,结果拟合于理论概率
C13:贝叶斯的“异端邪说”
- 所有概率都是有条件的——条件概率——对于不同的先决条件,某一指定事件的概率是不同的。
- 人们发明”概率”一词就是为了描述人类对不确定性的感知。
- 贝叶斯方法:先验概率->数据->后验概率
C14:数学界的莫扎特
- 天才的秘密在于长久的青春,青春有许多特征,其中之一就是激情。
- 概率的定理和方法实现了完全的自洽。
C17:部分优于整体
- 机会样本:最容易获取到的数据,并不一定真正代表整个分布
- 判断样本:用关于总体的现有知识选择少量数据代表总体中的不同群体
- 发票显示劳工统计局想哈佛大学订购了“一个逆矩阵”
C18:吸烟会致癌吗
- 原因和结果意味着什么
- A引起B的符号
- 发表性偏倚——实质蕴涵
C20:单纯的德州农家孩子
- 公理背后没有言明的假设
- 给这个孩子发一枚铜币,他似乎一定要从自己学到的知识中获得某种利益
C21:家族中的天才
- 数据的“真正维度”常常不超过5维——投影寻踪方法
C25:黑衣女子的建议
- 如果我们只是对一个普通人说”P小于0.0001”,那么他并不能领会到我们想表达的意思。我们必须用他们的语言来解释我们的发现,我们必须培养说服别人的能力。
C29:建立在沙土上的摩天大厦
- 现实是非常复杂的,人们构造的科学模型永远无法完整地描述现实。
- 哲学关注的是我们日常生活中的文化思想和活动背后的基本假设——人类堕落假设。
- 它们所研究的概率分辨率已经超出了人类的感受能力。
检测产品的价值不应由检测率和误报率衡量,而应由响应率衡量
模型能力的建设固然重要,但模型的可解释-可复现特性在另一个侧面影响了响应率。
对告警信息,运营人员通常只能做出两种决策:1)调查 2)不调查(可视作二值化算法)。我们应该如何对数据加以解释,使之更好的辅助决策?
-
输出概率——此模型准确率在90%左右。
事实上,这个数字仅是自己视野范围内小数据的统计结果,是否能够代表真实环境(大数据)的表现?是否能够在另一份小数据上获得相同的效果? -
概率+事件空间——此模型在XXX数据集测试中获得90%准确率。
paper中的用法,解释了统计结果的来源,给出了不同模型的评判标准。但这个数字是否能够辅助决策? -
输出概率排序
事实上决策者无需知道事件的精确数值,只需知道事件的概率排序。但实际的决策顺序并非只有模型的准确性一个维度决定,还有运营资源、威胁的严重程度等(或许一个可能发生的内网蠕虫要比一个确定的self-xss要优先运营)。 -
降低分辨率
在"二值化决策"的过程中,90%和75%对于运营者的感知差异并不是很大。这种"分辨率"过高的统计结果可压缩为一个简单的概率模型,从而让绝大部分人在二值化决策中保持一致:
1)绝对正确
2)正确的可能性比错误高
3)正确的可能性与错误相同
4)正确的可能性比错误低
5)绝对错误
就目前的产品形态,模型告警均以"绝对正确"的假设传递给用户。