之前我在《看似随机的股价波动不是随机的》一篇中提到了股价波动不是随机的这个观点,最近一直在思考随机这个概念。这篇想聊聊到底什么是随机。

我们在生活中经常会说:“诶,那件事情的发生真的很随机,我都没有想到会这样。”这里的语境是伴随着意料之外的事情,并且事情具有偶然性的特征。

在概率论中,随机过程的定义还是比较复杂的。这里直接引用维基百科的定义

在概率论概念中,随机过程是随机变量的集合。若一随机系统的样本点是随机函数,则称此函数为样本函数,这一随机系统全部样本函数的集合是一个随机过程。实际应用中,样本函数的一般定义在时间域或者空间域。

这个定义说实话普通人理解还是不太容易。举个最简单的例子:抛硬币。抛一枚硬币你能得到的结果有三种:正面,反面,侧面直立(这个很少发生但是可能的)。这三种结果就是抛一枚硬币的概率空间,无论你怎么抛一枚硬币,都不会有其他的结果。你抛一次硬币得到的结果,就称之为随机变量,这个随机变量只能落在前面所说的概率空间,也就是只能是三种情况中的一种发生。随机变量在概率空间的数学表达形式,就是分布函数(样本函数)。你一直不停地抛硬币这整个过程就是一个随机过程。

通过这个例子我相信已经基本清楚了概率论中对随机过程的定义。几个名词再重复一下:概率空间、随机变量、分布函数、随机过程。基于这个概率论最基本的定义,就有很多复杂的有意思的随机过程,比如伯努利过程(Bernoulli process),随机游走(random walk),马尔科夫过程(Markov process)等等。随机过程在通信领域和金融领域有着最广泛的应用,我这里不讨论这些随机过程的性质和特点,我想回到随机过程的定义,来思考一下源头的问题。

仍然回到投硬币的例子,概率空间有三种结果,正面,反面,侧面直立。首先,这三种结果组成了完整的概率空间,也就是说没有其他的可能性。其次,抛一枚硬币的结果只可能落在这三个结果的一种,不可能是多种。第三,这三种结果是对应有发生的概率的,我们假设给它们各自一个概率,正面49.9%,反面49.9%,侧面直立0.2%。

前两点理解比较直观,那第三点各自的概率是如何得出的。这种发生概率的精确数字是通过统计方法来总结出来的,你可以做一个抛十万次硬币的实验,记录三种结果各自的次数,然后分别除以总次数,算出这三个数字。这样的统计方法是通过对过去样本的总结得出可能性的分布,而概率就是用统计总结的可能性分布预测未来的可能性。这是现代概率统计学的核心思想。

研究这种“随机”过程我们必须要清楚地知道这个事件发生结果的所有可能性,还要通过对过去的观测总结来得出所有可能性的概率。换句话说,我们对所有可能性和它们发生的概率必须是确定的,换个词,就是已知的。我们是站在上帝视角来看问题的,随机过程在某一个时间点某一次发生的结果是不确定的,但不会逃出我们已知的概率空间,而在理论上无限长时间和无限多次的发生后所有的统计指标都应该符合我们已知的统计数据。

这么说来,“随机”事件中就不会存在意料之外的事情,因为所有的可能性我们都会定义在概率空间中。但实际中的世界是这样运行的吗?显然不是。我们面对一个出乎意料的结果,往往是根本没有想到,或者想到了,我们觉得太奇葩了不可能会这么发生。这种现象不只发生在每个人的身上,也同样发生在一群人中,一个企业中,一个国家中,甚至整个世界。2008年前可能没有人会想到次贷危机会腰斩美国股市引发全球金融危机(可能除了Michael Burry),2020年前没有人会想到一种病毒会在具有先进医疗卫生技术的今天席卷全球(可能除了比尔盖茨)。

如果这种随机事件的可能性我们想到了,比如Michael Burry和比尔盖茨,我们嗤之以鼻,觉得就是在说笑,那是因为人类本身思维上的缺陷造成的,这里不展开,是个很大的人性话题。

但如果这样的随机事件发生的结果我们连想也没有想到,那就是我们对随机的认知出现了问题。这里面最本质的问题在于我们对未来所有的预测都来自于过去的观测,也就是说过去没有发生过的我们是不会包含进概率空间的。这个思维上的限制和科学上的研究方法把我们限制在了一个狭小的理解空间,理解空间之外的结果发生我们都会出乎意料。

现代概率统计学中的随机我称之为“狭义随机”,这样的随机过程可以应用于一个具有确定性规则确定性空间确定性输入的已知封闭系统中,比如围棋、赌博游戏等等。这也是目前机器学习和人工智能可以在围棋上大显身手战胜人类的基础。

而对于人类社会乃至宇宙中的更多问题,都是“广义随机”问题,我们无法通过观测统计和归纳总结来定义概率空间,因为我们没看见,它们没发生,我们不知道,但不代表这种结果客观上不可能。