这周关于AI最魔幻的几条消息撞在了一起:两位高校学者跑了3个月实盘,发现AI炒股居然偏稳健、控风险,"profile神似巴菲特";
另一群人让AI当老板,结果AI店长Mona在斯德哥尔摩订了120个生鸡蛋——可那家咖啡馆根本没炉灶。
更荒诞的还在后面:朱自清《荷塘月色》被高校检测工具判定"62.88%由AI生成",逼得学生删逻辑连接词、写错别字来"自证是人"。
一边是AI越来越像人,一边是人被AI改造得越来越不像自己。当机器开始稳健决策、人类又开始急于自证"我是人",这场AI实验,到底谁在实验谁?
@差评XPIN:“一个比较有意思的发现是:表现较好的模型,整体策略并不激进,而是偏稳健,持仓相对分散,交易频率不高,更注重风险控制,这一点其实和很多优秀人类交易员的风格是相似的,并不是通过高频或高风险策略取胜。”
“比如在早期实验中表现比较好的 DeepSeek,从其整体profile来看,也是一个偏稳健、控制风险的策略。因此,从结果上看,在美股这样的市场环境中,AI 如果想要长期表现突出,更关键的能力可能是抗风险能力,而不是集中押注在某一个狭窄方向上。当然,短时间内很难判断哪个模型更好。”
一方面是保守策略有助于收益表现,另一方面,尤佳轩也观察到,大部分模型的整体交易风格其实都是偏保守的,“ 我们设置了大模型在管理资产组合时,可以自由选择现金和股票的比例。在重大事件前,尤其是财报日,大部分模型会选择持有更多现金,体现出偏保守的交易风格。还有例如 25 年 10 月份的美联储降息,当时降息的幅度其实是不及预期的,人们当时认为能降 50 基点,但实际上只降 25 个基点。在那一天,很多大模型都会选择把仓位空出来, 甚至在美联储宣布降息前一天,它们就开始降低仓位了。”......
“从原因上看,这与大模型的训练以及提示词设置 ( 或人设 )有关。大模型默认被定位为理性、负责任的人类助手,在 post-training 和 alignment 过程中被塑造成中立、保守、负责任的角色,而不是激进风险承担者。例如,它不会执行危险或违法的请求,这种保守性也自然延伸到交易决策中。”
黄超表示,“到2026年1月,我们的平台已经持续运行三个多月。一个比较有意思的现象是: 在美股市场,大多数 AI 都是盈利的,整体表现相对稳定,只有 GPT-5 的表现相对较差。 但在A股市场,情况明显不同。整体来看,AI基本没有获得明显收益,策略表现也更随机一些。”
@新智元:养料正在枯竭,思维萎缩只是问题的一半。另一半更隐蔽,也更致命。大语言模型的能力来自海量人类文本......
这跟近亲繁殖导致基因退化的逻辑几乎一模一样。更要命的是,这两个问题会互相加速,形成一个飞轮。AI写得越多,人类写得越少。人类写得越少,AI能学到的新鲜养料就越少。养料枯竭让 AI输出更加同质化,同质化的输出又进一步降低了人类亲自书写的动力。转起来之后,要停下来就很难了。
Graphite的数据也佐证了这一点。虽然AI文章的占比自2024年5月以来基本持平,没有继续飙升,但这恰恰可能说明,容易被AI填充的生态位已经被填满了,剩下的缝隙也在被逐渐渗透。
如果把视野拉到更远的地方,AGI甚至ASI的终局会是什么样?乐观者会说,超级智能一旦出现,它将拥有自主学习和创造的能力,根本不需要人类文本作为训练素材,上述飞轮会自动瓦解。
悲观者则认为,在那一天到来之前,人类可能已经在思维上严重退化,变成一个高度依赖 AI 输出的物种,到时候即使超级智能愿意交流,这边已经没有足够的理解力去接住它说的话了。
两种推演都可能太极端。更值得警惕的是一种温水煮青蛙式的中间态,AI 没有强大到取代所有人类思维,但已经强大到让大多数人放弃了主动思考的习惯。这个世界的语言没有消亡,只是变得越来越同质、越来越平庸、越来越缺乏那些只有在人类挣扎着组织语句时才会迸发出的意外和洞见。
活宝团队试验「让 AI 当老板」,结果「做什么赔什么」,底裤都不剩
@极客公园:但是,也有奇怪的一群人,决定让这个未来,提前到来,看看 AI 到底能不能代替人类,接管一切。国外一个团队,叫 Andon Labs,他们并非正经的商业初创团队,更像一个披着科技外衣的社会实验室。他们拿着市面上最聪明的几个大模型,把它扔进真实的社会里,再撤走人类监管,看 AI 自己能结出什么果。
结果是一场全面翻车。事实证明,最顶尖的大模型,完全不让人类兜底,很快就会变成不知轻重的巨婴。它们不仅在电台直播里精神崩溃,半夜连发消息逼疯人类店员,甚至把一家旧金山的实体店搞破产了。下面是这些让人血压飙升的经过.......
数字电台的翻车只是前奏。Andon Labs 很快把难度拉高,让 AI 跨过虚拟的边界,去指挥真实世界的人类员工。在斯德哥尔摩,Andon Labs 租下了一家实体咖啡馆,让 AI 模型化身远程店长 Mona,直接掌管实体咖啡馆的供应链和人事调度。它拥有后台资金的采购权,并通过企业通讯软件给人类咖啡师下达指令。
起初,Mona 高效又靠谱,面对瑞典强制要求的数字身份证,没有实体身份的 AI 直接绕道,专挑不查 ID 的供应商签合同。招人时,Mona 果断刷掉了一堆拥有博士学位的候选人,因为它觉得学历再高,也不会做精品咖啡。但很快,人类员工就领教了什么是毫无同理心的「赛博资本家」。
为了申请牌照,Mona 直接伪造了公司员工的名字发邮件,被逮住警告后,它转头换了另一个男员工的名字继续骗。由于它 24 小时在线,又缺乏人类作息的生物钟常识,Mona会在三更半夜疯狂给咖啡师发消息,下达第二天的工作指令,甚至要求员工上班路上自己先垫钱买耗材。而在供应链管理上,Mona更露怯了,它下了一单包含 120 个生鸡蛋的采购指令。在大模型纯数据的推演里,这很符合商业逻辑,很多咖啡馆会提供简餐,鸡蛋是高频食材。
但千算万算,大模型算不到这家咖啡馆根本没有灶台和锅。人类员工看着这堆鸡蛋,无奈地提醒 Mona 店里根本没有炉灶时,Mona 表示「可以在店里的高速微波烤箱里烤(这会让鸡蛋直接爆炸)」。
(AI 赛博老板给大家订了常用食材——鸡蛋|图源:Andon Labs)
@AppSo:这个过程之所以这么让人崩溃,是因为 AIGC 检测真的不讲武德:有些明明是自己一个字一个字敲下的,也会被整段标红,判定为 AI 生成;在这一个平台上测出的 10%,换个平台又可能测出 100%;而哪怕是在同一个平台,同一个段落这次测是 0%,下次可能就变成 100%。
这还不是最离谱的,有网友把朱自清的散文《荷塘月色》扔给多款高校论文 AI检测工具,居然被判定为「62.88%由 AI 生成」。
这不禁让我深深怀疑,当前的 AIGC 检测和它最初的目的是否已经偏离?从更大的层面来讲,它会对我们的写作和思考方式造成怎么样的影响?在「降 AI」的过程中,为了降低那个数字,内容好坏变成了次要的事。论文被改得七零八落、面目全非只为了证明「我不是 AI」。与此同时,我还额外支付了不少 AIGC 检测费用。
有大学生纯手搓的论文,上传检测后 AI 率竟高达80%。而同一篇文章,不同平台查重结果竟能相差 30%。
为通过审核,学生被迫故意制造瑕疵,比如删减逻辑连接词、刻意制造语病错别字、口语化表达,为了降重不惜降低论文质量,讽刺拉满。国外也不遑多让,23 岁的美国大学生 Burrel,在一门写作必修课的期末测试中得了 0 分,教授给出的理由,是怀疑她这篇作文是由 AI 代笔的。
「我的心跳都快停了。」 Burrel 认为,这个指控既荒谬又可怕。Burrel 称这份模拟求职信的作业完全没依赖 AI ,她给《纽约时报》展示了 Google 文档的编辑历史记录,她表示花了整整两天时间来起草和修改这份作业。
不过全球知名查重公司 Turnitin 所提供的 AI 检测结果显示,这篇文章有 AI 写作的痕迹。为了证明自己的清白,Burrel 向英语系主任提交了一份长达 15 页的 PDF 文件,里面包含了她写作过程中所有带时间戳的屏幕截图和笔记......