第五章:我们对世界的感知是一种与现实相符的幻觉
??? 按照联结学习只把事物分为“可能引发奖赏”和“可能引发惩罚”两类可不足以满足我们对世界的体验(“感”)与识别(“知”)。我们要先能够识别非条件刺激,才能做到非条件反应。同样,我们要先能区分各种中性刺激,才能将某种中性刺激和赏罚联系起来。我们是怎么将刺激转化为体验的?又是怎么将刺激的种类区分开的?又是怎么保证自己的感知结果是正确的?
??? 问题在于,如前文所证的那样,心智只能意识到感知的结果,无法意识到感知过程。想要了解感知的运作原理,只能制造出具有相似感知功能的机器进行类比与推测。
5.1信息革命(计算机和人脑处理信息的基础模式相同——通过一系列“是或否”的验证将信息转化成一系列的电脉冲传递或电脉冲抑制以存储、读取、加工信息)
??? 第一个问题,脑在最基础的层面是怎样运行的?
??? 对脑的解剖研究显示:脑内存在近千亿个神经细胞,每个神经细胞都有多个纤维状突出结构,每个结构的末端都有名为“突触”的结构,突触紧邻着其它神经细胞的突触,两个突触之间存在名为“突触间隙”的缝隙。
??? 如前文所述,对脑的特定区域进行电刺激会使被刺激者产生某些特定的行为和感知。电刺激可让神经细胞变得活跃,使其产生电脉冲。电脉冲会传导至突触,虽然无法通过突触间隙,但会促使突触释放名为“神经递质”的化学物质,激活突触间隙对面的神经细胞的突触上的名为“受体”的结构。不同神经细胞能够释放的递质不同,每种递质都可以激活一种受体,受体也有多种,有些被激活的受体刺激神经细胞产生电脉冲,有些抑制它产生电脉冲。
??? 但电脉冲的传递和抑制这种二元变化如何使脑感知具有各种复杂特征的物体?
??? 可以参考其它靠电脉冲的传递和抑制运作的物体——计算机。计算机的运转原理是什么呢?
??? 我们必须要稍微了解一下信息论,数字计算机的理论基础之一。信息论的创建者克劳德·香农将信息定义为“用来消除随机不确定性的东西”,信息量被定义为以2为底的消除的可能性个数的对数,单位定为比特,代表二进制位。一切信息都可被替换为若干对“是或否”的可能性的消除,而获知信息所需的验证“是或否”的次数的平均值即为信息量。越是难以预测的信息,包含的信息量越大。
??? 例如,去除两张“小丑”牌后,一张扑克牌的花色有四种可能,消除这些可能性平均需要两次检验,信息量就为2比特。验证过程例如:提问“花色是红色吗?”如果回答“是”,就再问“是方片吗?”如果回答“不是”,就说明花色是红桃。而扔硬币只有两种可能性,只需一次检验,结果的信息量为1比特。
??? 由于可以把信息的表达简化成一系列简单的“是或否”的回答,只要设计出少量用来验证信息的问题,计算机就可以借助有无电脉冲等二元式物理状态改变来储存、读取和修改大量信息。
??? 而神经细胞也只存在有、无电脉冲两种状态,神经递质和受体的差异化组合也可以构成验证问题。
??? 可以由此推测,计算机和人脑处理信息的基础模式相同——通过一系列“是或否”的验证将信息转化成一系列的电脉冲传递/抑制以存储、读取、加工信息。
??? 可尽管计算机和人脑有相同的基础运作结构,也有许多相似的功能,处理相同任务的效率却不同。例如,人脑不善于数字运算,而电脑则很擅长;人脑善于识别,电脑却不擅长。说明人脑识别物体的原理必然与计算机的存在差异,差异是什么呢?
5.2信息论的问题(脑和信息论面临同一个问题:个体要如何正确地根据接收到的信息个性化地改变对世界的认识)
??? 要弄清人脑的感知原理与电脑的差异,首先要讨论信息论关心的,也是脑在识别时会面临的两个难题。
??? 第一,同一段讯息携带的信息会因为接收者的先验知识不同而不同。
??? 信息量的计算是建立在消除“随机不确定性”的数量之上的,而信息接收者各自都具有不同的先验知识,所以除了摇骰子、抽纸牌这种完全随机事件,大多数讯息包含的随机不确定性的数量对于每个人来说都是不同的。
??? 例如,熟悉英文的人知道一个单词中的“Q”后面一定会跟着“U”,“quick”中的“u”没有信息量。但对于只学过26个字母的小孩子而言,“quick”中的“q”后面有26种随机不确定性,“u”有信息量。
??? 第二,信息的传递和接收可能出错。
??? 这两个问题可以合并为一个:个体(无论是一个脑还是一台计算机)要如何正确地根据接收到的信息个性化地改变对世界的认识。
??? 而就表现来看,脑无疑比计算机更善于处理这个问题,脑是怎么做到的?
??? 不如先看看信息论是怎么解决这个问题的。
5.3托马斯·贝叶斯牧师(“P(A\X)=P(A)×P(X\A)/P(X)”贝叶斯定理可以精确地说明在获知新信息X的情况下,信息接收者应该将对A的确信程度改变多少。)
??? 先来解决问题的第一部分:同一段讯息的信息量会因为接收者的先验知识不同而不同。
??? 如上一节所述,要计算对某个接收者而言一条讯息承载了多少信息量,需要知道接收者在接收讯息前和接收后对世界的认识各是怎样的,并根据认识的改变判断信息量。
??? 如前四章所述,心智的体验是脑构建出的假象,脑对世界的感知也可能出错,但多数情况下我们都认为自己感知到的东西是真的。也就是说,脑或心智对世界的认识本质上是一种信念,是对“刺激如感知到的那样存在”的确信程度。为了便于统计和计算,可以把难以量化的“认识的改变”转换成便于量化的“确信程度的改变”。
??? 例如,“我看到硬币在空中旋转,然后看到硬币落地后正面朝上/反面朝上”可以转换为“我有50%的把握相信硬币会正面朝上落地,在硬币落地后我有99.99%/0.01%的信心确信硬币正面朝上”,确信程度改变了近50%,信息量增加了约一比特。
??? 但确信程度的改变大多不这么直观,要如何精确测量出确信程度的改变呢?
??? 借助托马斯·贝叶斯得出的贝叶斯公式,也叫贝叶斯定理:
???? P(A\X)=P(A)×P(X\A)/P(X)
??? 贝叶斯公式可以精确地说明在获知新信息X的情况下,我应该将对事件A的确信程度改变多少。
??? 如前文所述,概率P代表我们对某事物的确信程度。P(A)是新信息X出现前我对事件A的先验信念,即我认为事件A确实存在的概率;P(X)是我对新信息X的确信程度。对于脑来说,事件、物体等刺激和信息都是信念的一种,三者没有区别,只是为了叙述清晰加以区分。P(X\A)是在事件A确定的前提下,将会得到新信息X的可能性;P(A\X)是在考虑新信息X后我对事件A的后验信念。
??? 贝叶斯定理是如何推导出的?
??? 假设以上四个数值已知,那么发生A事件且得到信息X的概率P(A∩X)是多少?根据我们下的定义,P(A∩X) 既等于 P(A)×P(X\A),也等于P(X)×P(A\X),也就是P(A)×P(X\A)=P(A∩X)=P(X)×P(A\X),稍微调整即可得出P(A\X)=P(A)×P(X\A)/P(X)。
??? 那么贝叶斯定理有什么用呢?
??? 例如,一座别墅在过去的20年里被盗过2次,这是先验概念,P(A) = 2/(20×365) = 2/7300。二次被盗后,别墅主人决定买条狗防盗,因为当警察的朋友告诉他,在盗贼入侵时狗九成会叫,P(X\A)=0.9,看似买狗可以防盗。据观察,买来的狗平均夜吠概率为每周3次,这是新信息,P(X) = 3/7。问题是听到狗叫就起床查看实在太累,把狗链松开又怕狗咬伤路人。为了弄清到底该不该在狗叫时起来,狗主人需要知道狗叫时真的有贼的概率P(A\X)是多少作为参考。如果是按照传统的频率学派的统计观点,必须获得足够大的样本容量进行归纳,但是贼太少了,这要怎么实际统计呢?
??? 此时贝叶斯定理就派上用场了:
??? P(A\X)=P(A)×P(X\A)/P(X)=(2/7300)×0.9/(3/7)≈0.00058
??? 也就是说,狗叫一万次,有贼的次数也不会达到六次,而且狗主人无法知道是哪六次。这样看来,养狗无用。
??? 但养狗是有用的,因为小偷基本上都没听说过贝叶斯定理,他们都认为自己一去狗九成会叫(真),一叫狗主人就会出来抓他们(伪),所以小偷会避开养狗的人家。
??? 此外,狗主人还可以借助公式提升狗叫时有贼的概率P(A\X)。他可以把狗送去宠物学校训练,提升分子P(X\A)的数值——让狗变得对入侵者更加机警;降低分母P(X)的数值——让狗学会区分,不对路人叫,只对进入院子的人叫。
??? 除了狗叫防贼的问题,贝叶斯定理还可以在决策是否要采取措施应对各种小概率事件时派上用场。此外,贝叶斯定理还有多种扩展形式,其价值也可以进一步扩展。
??? 例如,统计显示,到了40岁的妇女中有1%的人会患上乳腺癌,P(A)=1%,99%的人不会,P(B)=99%。实验表明,乳腺X射线照射检查对患乳腺癌的妇女的筛查准确率为80%,P(X\A)=80%;而只有9.6%的未患乳腺癌的妇女会得到阳性检查结果,P(X\B)=9.6%。准确率有80%,误报率只有9.6%,从直觉上看,做这种检查明显是有益的,应该推广。但是,如果所有妇女都做定期筛检,那么检测结果呈阳性而确实患有癌症的比例P(A\X)究竟是多少呢?如果是按照传统的频率学派的统计观点,必须先进行推广找到足够多的结果呈阳性的妇女,再挑出确实患癌的患者进行归纳。先不说推广花费的人力物力的问题,以为自己得了癌症的无病妇女受到心理冲击该怎么办?
??? 此时贝叶斯定理又派上用场了:
??? P(A\X)=P(A)×P(X\A)/P(X)
????????????? =P(A)×P(X\A)/[P(A)×P(X\A)+P(B)×P(X\B)]
????????????? =1%×80%/(1%×80%+99%×9.6%)≈7.8%
??? 即,在检查结果为阳性的妇女中,超过九成的人并没有患上乳腺癌,她们都被误报了。而对于患癌的妇女来说,7.8%的概率并不比1%高出多少。不论患癌与否,做完这种检查后必须再进行其它检查核查,这种可靠程度的筛查真的有那么大的必要推广吗?
??? 不过同样可以从贝叶斯公式中看出,如果患癌率P(A)较高,比如对于有患乳腺癌家族病史的人来说患癌几率更大,这种筛查的作用会大上许多。
??? 其实不仅是这种检查,许多疾病筛查项目都有假阳性过多的问题,而贝叶斯定理在公共健康领域发挥了巨大的作用。
??? 问题的第一部分“同一段讯息的信息量会因为接收者的先验知识不同而不同”就此解决了,贝叶斯定理可以精确地说明在获知新信息X的情况下,我们应该将对A的确信程度改变多少,这可以帮助我们让决策变得更加有效。
??? 我们是可以利用贝叶斯公式解决第一个问题,但是脑是怎么解决的呢?脑也会利用贝叶斯公式在样本容量不足时推理出后验信念吗?
5.4理想的贝叶斯观察者(脑会以最大效率利用信息,我们体验到世界并不是真正的、完整的现实,而只是脑认为的最有可能为真的那部分现实)
??? 由贝叶斯定理可以引出“理想的贝叶斯观察者”概念:总是以最大效率利用信息的观察者。
??? 也就是说,每获得一个新信息,理想的贝叶斯观察者就会精确调整所有和这个信息密切相关的信念和对行动的参考价值,重视高概率事件,忽视小概率事件。同时,如果想要验证一个信念,理想的贝叶斯观察者能通过收集最少的讯息获得最多的信息量,从不收集没有必要的信息。理想的贝叶斯观察者不是永远不出错的先知,但他们是最高效的功利主义者。
??? 但理想往往只是理想,像上一节展示的那样,我们,或者说心智,在思考小概率事件和庞大数目时并不擅长使用新信息。
??? 没有任何证据可以证明脑在感知过程中使用了贝叶斯定理,贝叶斯定理的意义在于心智获得了用来判断脑是否正确、有效地利用了信息的标准。大量证据显示,在利用感官提供的信息时,脑是一个较为理想的贝叶斯观察者。
?? ?例如,在较安静的情况下,脑会专注于收集、处理听觉信息,较少注意视觉信息;而在环境嘈杂时,脑会比平时更为专注于收集、处理视觉信息,这些自动调整并不需要意识的参与。
??? 如何判断脑的决策是最为有效的呢?
??? 我们可以根据贝叶斯定理进行检验:
??? 为了便于理解,我们合理假设一些熟悉的数值。脑根据大量经验统计得出,我会把别人说的音节听错的概率为1%,P(A)=1%,99%的音节不会听错,P(B)=99%。另外,脑还统计了,观察对方口形能将80%的听错的音节检验出来,P(X\A)=80%;而只有9.6%的可能会判断错口形,把听对了的音节当成听错了,P(X\B)=9.6%。根据直觉判断,准确率有80%,失误率只有9.6%,关注口形明显是有益的,应该时时关注口型。
??? 但脑不会犯和心智一样的错误。根据经验我们也能知道,在平时的交谈中,我们不太关注对方的口形变化。因为脑清楚根据口形判断自己听错了,也确实是听错了的概率:
??? P(A\X)=P(A)×P(X\A)/P(X)
????????????? =P(A)×P(X\A)/[P(A)×P(X\A)+P(B)×P(X\B)]
????????????? =1%×80%/(1%×80%+99%×9.6%)≈7.8%
??? 能够利用口形纠正听错的概率只有7.8%,而没听错却用口形纠正错了的概率超过九成,所以平时脑很少关注口形。
??? 但是在十分嘈杂的环境中,把别人说的音节听错的概率会骤增。我们假设P(A)=30%,其它的数值不受嘈杂环境的影响,此时根据口形判断自己听错了,也确实是听错了的概率是多少呢?
??? P(A\X)=P(A)×P(X\A)/P(X)
????????????? =P(A)×P(X\A)/[P(A)×P(X\A)+P(B)×P(X\B)]
????????????? =30%×80%/(30%×80%+70%×9.6%)≈78.1%
??? 能够利用口形纠正听错的概率高达78.1%,此时关注口形明显比较有利,所以在嘈杂的情况下我们会不自觉地更加关注他人的口形。
????我们知道脑是根据概率感知世界,并以此为基础做出决策的。如果脑是贝叶斯观察者,脑就只会关注能极大地改变确信程度的信息,以此改变心智对现实的体验。同时,脑不会花费极多的资源去追求接近100%的预测准确率,脑会忽视对确信程度影响极小的信息并无视了与携带这部分信息的现实。
??? 在第一到三章中已经证明了我们体验到世界并不是真正的、完整的现实,而此刻我们可以细化心智体验的内容——脑认为最有可能为真的那部分现实。
5.5贝叶斯脑如何判断真伪(因为两个信息错得完全相同的机率极低,脑会收集过量信息互相比对来消除在识别信息的过程中出错的可能性)
??? 我们体验到的是脑认为最可能为真的那部分现实,而脑是如何判断自己从感觉器官处收到的信息为真的?
??? 在第四章中,我们已经知道了脑是如何将物质世界构建为有益体验和有害体验的集合的:大胆预测,不断试错,知错就改,蒙对不改。我们可以推测,脑也是以同样的模式构建对赏罚之外的体验的,并且构建的关键也在于验证对某事物为真的信念是否错误——只要排除了错误的信念,剩下的信念就暂定为现实。
??? 检验对某刺激能带来赏或罚的信念是否错误很简单——如果没有赏罚发生,那信念就是错误或至少部分错误的。问题是脑要怎么知道表示赏罚发生了或没有发生?
??? 例如,每次把硬币投进自动售卖机再按一个按钮就会出来一瓶矿泉水作为“奖赏”,脑就可以预测投币加按按钮能够引发矿泉水出现,如果从未出现过其他情况以否定这种预测,冒失的预测就成为了坚定的信念,联结学习完成了。
??? 但是,我们是可以根据外观和手感预测拿在手中的是一瓶矿泉水,我们要怎么检验这是否不是一瓶矿泉水呢?
??? 很简单,喝一口。
??? 这也正是在5.4中提到的问题的第二部分“如何避免错误地接收信息”的答案——收集冗余信息。
??? 什么是冗余信息呢?冗余信息是在获得的信息已经足够消除绝大多数可能性的情况下只能消除极少可能性的东西,几乎不含有信息量。
??? 如5.4中提到的那样,熟悉英文的人都知道一个非外来语音译的英文单词中的“Q”后面一定会跟着“U”,所以把所有英文单词的“Q”后面的“U”都删除掉似乎没有任何不良影响,还可以使书写变得更高效。这种几乎没有信息量的刺激“U”就是冗余的。
??? 但冗余信息不是毫无信息量的。
??? 如果所有信息都以毫无冗余的最高效形式传递,接收者将无法判断出自己对信息的接收是否正确,而信息很容易受到干扰和出现错误。冗余则有助于发现信息中的错误,以否定接收信息的过程中出现小概率错误的可能性。
??? 例如,发送作为密码的一串乱码一次,接收者无法判断信息是否无误。如果同样的乱码发送两次,两次一致就可以基本确定信息无误,因为同样的随机错误犯两次极为少见。但如果两次不一致,还要发送第三次看这条与哪条一致以判断正确信息是哪条。
??? 又例如,把query(询问)中的“u”去掉,用qery替代也不会引发歧义。但在手写体中q有时会很像ɑ,没有上下文时可能难以将ɑery(缥缈的)和qery区分。但是,作为冗余的u可以消除这种微弱的可能性,因为没有auery这种词,没人会把query看错。
??? 在刚才提到的买水的例子中,矿泉水的外表已经足以消除它不是矿泉水的绝大多数可能性了,从自动售货机中滚出来的矿泉水瓶中装着茅台的可能性虽然微乎其微,但不能说完全没有,而喝一口就可以消除这种可能性。
?? ?如上一节所述,作为贝叶斯观察者的脑可以判断哪些事件的发生概率较低,进而忽略那些小概率的可能性。但脑会适度关注冗余信息以防备小概率的可能性成真,以下实验可以证明:
??? 参与者被邀请看一段录像,实验者谎称这是为了测试他们对听觉信息的记忆能力,但实际上录像中的声音是后期剪辑的,说话内容存在差异。如果录像中的人的口形和声音只有微弱不同,比如口形为ma,声音为ba,几乎所有参与者都会认为录像中的人的发音为ba,没有异常。但当录像中的一段话和录像声音的多个发音都出现较大差异时,比如画面和声音完全是两句话,大多数参与者都会发觉蹊跷。这点也可以从我们看译制片时感到的轻微的不和谐感中得到印证。如果想追求利用信息的效率最大,在安静的实验室中获知他人说话的内容并不需要关注口形,口形的视觉信息是冗余的。但作为贝叶斯观察者的脑并没有贸然忽略小概率事件,而是收集冗余信息避免了小概率的错误。
??? 也就是说,因为两个信息错得完全相同的机率极低,脑会收集过量信息互相比对来消除在识别信息的过程中出错的可能性,提升自己从感觉器官处收到的信息为真的可能性。
(未完待续)
点击就送......其它章的读书总结
那么絮叨版和纯净版的区别何在呢?
絮叨版里有括号里的斜体字内容,纯净版里则没有。什么?括号里的斜体字内容是什么?请看前言或者絮叨版。(才不是骗点击哦。)