Attention

现在很多人都没能有注意力去看一篇长文章或者长视频了或者很多人的信息渠道就是只剩短视频了，甚至文字都不怎么看了

对我来说，一篇很长的技术博客，很长的小说，我也很难完成。一旦觉得它很长，需要很长时间看完，你就愈发不想去看它。就好像它提前在你的大脑空间中占据（preload）很大一块的 memory，即便你已经读过的部分只占很小一部分空间

大部头很难完成，切分成更小的目标更容易实现，好像有个马拉松运动员说过，他比赛的时候不想全程，而是切分成很多目标点，当下只专注在下个目标点

可以设置成类似于之前武侠或者修仙小说的连载模式，一次只更新一章，几千字，这样短时间就能读完，不会有太大的心智负担。类似地，把一篇长篇小说切分成很多小的章节，在情节转折起伏处切分，这样更能勾起你继续阅读的欲望。

用 AI 做一个这样的工具，发送到微信/邮箱/telegram 等等。

对于长电影呢，这样的切分好像没有什么意义，否则就变成电视剧了。需要就是这样整场的体验。影院看电影不是为了看内容，而是观影的体验和沉浸感。在家看电影很难做到这样的专注，没有那个气氛，而且中途很容易被其他人或者事物打断。电影院观影提高了你去处理其他事物的门槛，黑色环境，你不可能中途开灯，必须出门；另一方面会考虑到你会影响到其他人。所以电影院给了你一个必须专注这部影片的环境，在里面你很不方便去做其他事情，甚至上厕所。

互联网平台的内容链：抖音（视频）—> 小红书（图片）—> 微博（文字），为什么人们对视频内容更喜欢呢？我猜有可能是训练的问题。我们从睁眼开始，大脑在时刻处理视频流，假如每天睡八个小时的话，相当于你每天会处理 16 个小时的视频流，所以我们的大脑经过了这么长时间的训练，对处理视频流有着极强的能力，我们非常善于从视频里提取信息。图片是静态的，不同于视频的动态，大脑的处理能力会弱一层。文字则更弱了，如果没有摄入过很多的文字信息，文字处理能力就会更弱。而且从视觉的文字到真正的信息，又要多一层映射 ¹。对盲人来说，他们主要的信息获取方式是声音，他们一天接受 16 个小时的音频输入，大脑处理音频的能力极强。²。但是小红书，微博也在极力加强视频内容，微信公众号学习小红书可以发布照片，还有视频号 ³。找因为视频是最容易被大脑这个 model 处理的信息来源。如今 LLM 模型擅长处理文字，也是因为它们看过了全世界的文字信息。假如一个人看不见听也许不对，我们看到一个苹果，会映射到苹果这个事物的 embedding，假如看到苹果这个文字，因为有歧义，可能代表苹果公司，但对应的大脑内部的 embedding 可能和视觉上看到苹果的 embedding，我们会把这个 embedding 和文字和视觉一起对应不到，只能通过接受文字来处理信息，那么他最喜欢的内容平台应该是微博或者微信公众号，抖音对它来说太难处理了。这就是第一性原理的思考吧。

我很长时间没有去看一部剧，或者一场电影了。很多时候都是在网上找解说版，这也是为什么现在 b 站和抖音上有这么多的视频解说创作者。这其实是一种信息的压缩，把几个小时的内容压缩到十几或者几十分钟。解说内容也有切片，分上或下，电视剧则是分集解说。其实不能把问题归结到没有时间上，因为人们刷抖音也能一次几个小时，看个完整的电影和电视剧也就几个小时。所以人们追求的是信息的总量或者密度吗，人从生物本能上就是追求在有限时间内获取更多的信息吗？或者人们追求更强的感官刺激，和它带来的更多的多巴胺分布。多巴胺上瘾问题。或者人天生就对信息有渴望，比如八卦别人的事情，获取全新的信息就能对人带来更大的效用。

而成功者的共同特征是专注，专注是反人性的。人有获取不同的信息的自然本性，专注要求你摒弃或者不理会无关要做的事的信息，只专注你所在领域的信息。

乔布斯说，专注的核心在于 say no，而不是 say yes。蔡澜也有类似的论述，一样样丢，比如更喜欢喝茶，那就不要再想或者碰咖啡。巴菲特也对一个机长说，列出你最想做 20 件事中的序列最高的 5 件事，然后忘记其他事情。只有不去想其他事情，才能更专注于其他事情。大脑的 memory 是有限的。更少的事情，那么每件事情才能占据更大的 memory。

刷完短视频后有时候会觉得空虚，好像什么都不记得，大脑很乱。这好像就是信息过载。很多不同的信息 messy 在一团，没有条理。它们之前互不相干，大脑需要不断切换 context 来处理这些互不相干信息，切换 context 就会带来额外损耗。大脑需要把刚获取的信息从 cpu 缓存存储到硬盘，这个过程就很难。假如专注于一类信息，比如看一场电影，整个过程是流式的，大脑不需要切换 context⁴，大脑 cpu 在流式地处理信息，从视觉到 memory，再到和神经元之间建立链接，没有其他的 interupt。为什么有时候看完电影有种恍若隔世或者抽离的感觉，因为你的大脑在电影这个进程很长时间，现实世界已经 out of memory to disk，此时再把现实世界的东西加载进 memory 需要一些过程和时间。同理打一场篮球 ⁵，专注带来了更好的体验。

现在经济需要分工，分工需要专业化，专业化上做好需要专注。其余的冗杂信息对所在专业无用。所以分工其实是反人性的？

so many things are determined by our DNA fundanmentally.

写作其实就是文字的组合和排列。好像一个巨大的排列组合，有几千个汉字，有无数种排列组合的可能，大模型其实就是在做文字的排列组合。

也许不对，我们看到一个苹果，会映射到苹果这个事物的 embedding，假如看到苹果这个文字，因为有歧义，可能代表苹果公司，但对应的大脑内部的 embedding 可能和视觉上看到苹果的 embedding，我们会把这个 embedding 和文字和视觉一起对应 ↩︎
普通人也会接收到声音流，为什么能力不如盲人，推断应该是大脑主要的资源放在处理音频上了，就好像显卡的计算资源，80% 用在了处理视频，20% 处理音频，这样视觉模型就要比音频模型要强。但是盲人的大脑 cpu 把所有资源全部集中在了处理音频上，因此就有了一个极强的 audio model ↩︎
为什么视频号不如抖音呢，因为抖音的目的就是公众发布，而微信更多是熟人社交，进入方式也有区别，抖音 app 打开就是视频流，而微信是你的聊天列表。 ↩︎
也好像切换进程，大脑中存在不同的进程，切换一次进程就会带来额外的损耗 ↩︎
我打球的专注度极高，比跑步之类的体验和心流感觉好多了。 ↩︎