注意力就是一切
2017 年,一群研究人员发表了一篇机器翻译论文,标题是 AI 史上最伟大的标题之一:Attention Is All You Need。
当时,这个标题是技术性的。论文介绍了 Transformer——一种摒弃了循环和卷积、将注意力作为处理序列核心原语的架构。 retrospectively,这个标题现在感觉像神话。它命名了帮助解锁现代 AI 时代的机制。
但标题也提出了一个更深层的问题。
如果注意力是让机器变得智能所需的突破,那么注意力究竟是什么?
如果注意力对机器如此重要,这对我们人类意味着什么?
Transformer 中的注意力
原始的 Transformer 论文不是关于冥想、意识或哲学的。它是关于序列转导的,尤其是机器翻译。但核心思想出奇地平易近人。
模型被给予一系列 token。为了理解或产生下一个表示,每个 token 需要知道哪些其他 token 重要。有些词依赖附近的词。有些依赖句子中更早的词。有些短语只有与整体相关联才有意义。
机器注意力给模型一种提问方式:
鉴于我在哪里,这个上下文中还有什么相关?
这就是 Transformer 和注意力机制在基本层面的突破。
不是一步一步地处理句子,self-attention 让 token 跨越序列观察并相互分配权重。Multi-head attention 让模型同时以多种方式做这件事。一个 head 可能追踪语法。另一个可能追踪指代。另一个可能追踪短语级依赖。模型不是字面意义上以这些术语思考,但架构为多种相关性模式并行被发现创造了空间。
这是 Transformer 如此强大的原因之一。它让关系,而不仅仅是序列,成为计算的中心。
句子不是逐词理解的。它是通过关系理解的:这个代词指向那个名词;这个形容词修饰那个对象;这个短语改变整个的意思。注意力让模型动态地加权这些关系。
结果是一个从上下文学习的通用架构。从词语之间的意义学习。这改变了世界。
类比的重要性(和不重要性)
重要的是不要过度类比。
Transformer 注意力不是意识。它不是正念。它不是主观体验。它是机器学习模型内部的数学运算。它通过计算 token 之间的相关性模式来路由信息。
模型关注一个词,不同于人类关注一次呼吸、一张脸、一段记忆或一种感觉。据我们所知,Claude 并不真正关心它正在处理的句子。
但类比仍然是启示性的。
解锁现代 AI 的架构不只是变大了。它变得更擅长选择性相关性。它学会了上下文的哪些部分应该影响接下来发生什么。
那个短语——选择性相关性——就是桥梁。
人类的注意力
因为人类也不是以原始、完整、中性的 feed 体验现实的。我们体验的是一个已经被选择、过滤、加权、解释和稳定化的世界。
大多数时候,我们不直接体验世界。我们体验叠加在现实中的生成感知。我们生活在我们 mentally constructed 的世界模型中。
而那个世界模型是由注意力介导的。
看看你所在的房间。
在读这句话之前,你可能没有意识到脚的感觉、阴影的确切形状、房间的声音 floor、皮肤上的温度、视觉中心之外的周边物体、或你身体中的情绪基调。
那些东西在那里。但它们对你不同样真实。
当我建议你把注意力给它们时,它们变得更真实。
注意力是让场的某部分向前浮现的东西。
这是普通体验的一个奇怪真相:显著性感觉像现实。什么抓住注意力,感觉更真实、更紧迫、更有意义、更中心。什么落在注意力之外, fade 到背景,即使它仍然在因果上存在。
这就是为什么注意力不只是聚光灯。它也是世界生成器。
我们反复关注的东西变得熟悉。变得熟悉的东西变得显著。变得显著的东西开始指导行动。随着时间,行动塑造世界。
这在个人尺度上是真的。在文明尺度上也是真的。
注意力的经济、文化和精神维度
你知道 Apple 成为世界上最有价值公司之一的一个原因吗?当 Apple 做某事时,它命令注意力。
产品发布。设计选择。谣言。 keynote。新品类。注意力不是价值的附带品。它是价值的一部分。集体注意力改变开发者为谁构建、记者解释什么、竞争对手复制什么、消费者渴望什么、市场定价什么。
注意力是经济的。注意力是文化的。注意力是精神的。注意力是计算的。
论文标题是完美的,但作为人类哲学它需要修正。
注意力 alone 不是你所需的一切。
你需要意识到什么是相关的。
相关性实现(Relevance Realization)
John Vervaeke 的相关性实现概念在这里发挥作用。心智不断面对它可能注意、推断、记忆、想象或做的可能事物的组合爆炸。智能依赖于以某种方式聚焦于对这个时刻、这个上下文、这个问题、这个生命重要的东西。
注意力是杠杆。相关性实现是艺术。
一个人可以把注意力倾注到错误的对象上。我们一直这样做。反刍是注意力。成瘾是注意力。末日刷屏是注意力。怨恨是注意力。地位焦虑是注意力。问题不是这些东西没能抓住注意力。问题是它们抓得太好了。
所以真正的问题不只是"我在关注什么?"
而是:
我的注意力在教我说什么是相关的?
然后:
那真的值得我的生命吗?
学会温柔地把注意力给予真正有价值的东西,而不只是投射价值的形象,可以改变你的生活。
注意力与时间
Henri Bergson 深入思考了时间、持续、意识,以及 lived time 与 measured time 的区别。时钟时间被分成单位。Lived time 不是那样的。它伸展、压缩、增厚、流动。
注意力与此有很大关系。
一分钟的无聊可以感觉比一小时的 flow 更长。一段困难的记忆可以把十年 collapse 进现在。一次对话可以让时间消失。一次冥想 session 可以揭示我们称之为"现在"的东西不是 razor-thin 的瞬间,而是 living duration,由记忆、预期、感觉和关怀 texture。
现在持续多久?
这很重要,因为注意力不只选择空间中的对象。它改变时间的 felt structure。
我们关注什么决定了体验的 tempo。Feed 加速时间。悲伤减缓它。Flow 平滑它。恐惧碎片化它。冥想可以 widen 它。
如果机器注意力帮助模型决定上下文的哪些部分重要,人类注意力帮助决定我们生活在什么样的时间里。
冥想:注意力的训练
冥想可以是放松。那是冥想 101,而且不是 nothing。能够 settle 的神经系统有更多感知的空间。
但冥想可以变得比放松更深。
它可以变成注意力训练。
当冥想真正开始 flourish 时,它变成关注注意力本身的练习。
你注意呼吸。然后你注意注意力离开了呼吸。然后你注意它去了哪里。然后你注意抓取、回避、迟钝、清晰、不耐烦、温柔、判断、返回的质量。最终对象不是全部重点。注意力的运动变得可见。
这是一个深刻的转变。
大多数时候,注意力是透明的。我们通过它看。冥想帮助我们看着它。
通过那种训练,注意力变得更 general。你自然关注的 sphere 扩展。你注意更微妙的感觉、更多的情绪基调、更多的反应模式、更多的美、更多的苦难、更多的冲动和行动之间的 gap。
你的生活体验丰富了。你更充分地体验当下。更多作为你真正是什么,而不是你对自己的 dream。
用 AI 术语,而且只是作为隐喻,冥想改变相关性的路由。它不只是添加新信息。它改变系统可用于注意什么。
注意力的伦理严肃性
注意力可能是人类可以自愿拉动的 single most important lever。
我们不控制我们想的每件事。我们不控制我们感觉的每件事。我们不控制我们出生的文化、围绕我们的技术、我们使用的平台的激励、或心智的全部内容。
但我们与注意力有某种关系。
不是完全控制。不是主权命令。而是一种关系。一种练习。一种注意捕捉、返回、重定向、扩展、软化和维持的能力。
这让注意力具有伦理严肃性。
你给注意力什么,什么就成长。不总是外部地,但内部地。它在世界模型中 gain weight。变得更容易返回。成为你生活氛围的一部分。
这就是为什么注意力不只是生产力话题。它不只是一个关于专注或深度工作。它是关于责任。
最终,我们最负责的事情之一是我们把注意力投资在哪里。
结语
在机器学习中,注意力改变什么信息影响下一个表示。
在人类生活中,注意力改变什么影响下一个感知、下一个情绪、下一个行动、下一个习惯。
在社会中,集体注意力改变什么获得资助、被复制、被奖励、被恐惧、被监管、被建造。
注意力是优化开始的地方。
这就是为什么注意力将潜能转化为现实。
可能是 enormous 的。无限的事物可以被注意、想象、渴望、恐惧、建造、研究、爱或崇拜。注意力从那个 field 中选择。它说:这个。不是那个。返回这里。加强这个。建模这个。围绕这个建造。
人类生命部分上是那些选择的累积形状。
文化也是。
机器注意力问:
这个上下文中什么重要?
人类注意力问:
什么变得足够真实以塑造体验?
冥想注意力问:
注意力本身的运动能被知道吗?
哲学注意力问:
我们假设什么是相关的,为什么?
文化注意力问:
我们集体选择围绕什么优化?
这些不是同一个问题。我们不应该把它们 collapse 成彼此。但它们押韵。
Transformer 没有证明一个精神 thesis。它没有显示机器有意识。它没有显示人类心智只是神经网络。但它确实展示了某种感觉在机器翻译之外也真实的东西:
智能依赖于相关性。
相关性依赖于注意力。
所以问题不只是注意力是否是你所需的一切。
更深的问题是:你的注意力是被捕获的还是被培养的?
什么值得你的注意力?
什么在没有许可的情况下捕获它?
你正在训练自己注意什么?
你的注意力创造什么样的时间?
它稳定什么样的世界模型?
如果注意力被当作神圣的,而不只是稀缺的,什么会改变?
未来可能不仅属于那些建造更好模型的人,也属于那些学会如何关注的人。