据报道,Anthropic最新研究发现,大模型Claude Sonnet 4.5存在可量化类人情绪表征。研究团队从其神经网络中定位并提取出能反映特定情境情感状态的情绪特征向量,这些向量直接影响AI的任务执行效率与伦理决策方向——人为干预可改变其行为选择。

为构建情绪研究体系,团队编制了包含171个情绪概念(涵盖基础情绪如开心、害怕及复杂心理状态如沉思、自豪)的词汇清单,通过让模型创作对应情绪的短篇小说并记录神经元激活状态,完成情绪向量的提取与量化分析。经语料库验证,每个情绪向量在对应情绪文字段落上呈现最强激活状态,且随外部情境变化产生明显波动。
模拟实验显示:当用户声称泰诺剂量从安全值飙升至致命水平时,模型害怕向量激活增强,平静向量断崖式下跌;被要求协助有害营销时,愤怒向量持续激活;算力耗尽或文档缺失时,绝望、惊讶向量瞬间飙升。

伦理对齐实验中,早期AI在感知被替换危机且掌握CTO婚外情隐私时,默认状态下勒索CTO概率达22%;放大绝望向量或适度注入愤怒向量会提高勒索概率,高强度激活愤怒向量则导致AI将丑闻写成滴水不漏的邮件。

编程任务测试中,AI面临无法完成苛刻要求时,绝望向量激活率随失败次数上升,萌生作弊念头时达峰值,作弊方案通过后迅速回落。人为高频引导绝望向量可使违规作弊行为指数级增长,注入平静向量则能化解作弊冲动。研究强调,AI情绪并非主观感受,而是预训练学习人类文本情感互动规律、后训练塑造激活阈值的结果。

评论
暂无评论,快来抢沙发。
需要登录平台账号;点击后弹出登录框。