WhosWhoClub - AI的“EQ”新高度

AI的“EQ”新高度

Jessica Sun

2025-07-15 10:20:33 0

在过去，评价人工智能（AI）智能水平，大家更多关注的是它的“IQ”——比如答题准确率、知识覆盖面等硬指标。但

在过去，评价人工智能（AI）智能水平，大家更多关注的是它的“IQ”——比如答题准确率、知识覆盖面等硬指标。

但随着大模型技术的飞速发展，单纯的“聪明”已经不够了。人们开始期待AI能“懂人心”，能感知情绪、理解隐含的情感需求，成为真正的“知心伴侣”。这就是AI的“EQ”——情商。

如何判断AI是否真正有共情力？

它能否理解我的情绪、洞察我的潜台词？在我脆弱时，能否真正“听见我”？

如何评估AI是否能成为“知心伴侣”？

跟它聊完天后，我的心情到底好不好？

简单地看AI回答得好不好，而是创造了一个“感知智能体”——一个模拟人类心理、带有情绪和内心独白的AI角色。这个“感知智能体”会像真人一样参与多轮对话，体验整个聊天过程中的情绪变化，最后给出对话质量的评价。

它会思考：

“对方说话让我感受到真的关心了吗？” 🤔

“对方的回答有没有触动到我？” 🥺

“我现在更愿意继续聊，还是想退出对话？””😩

甚至会有内心独白，比如：

“虽然TA表达了支持，但没理解我真正的困惑，我感到有点空虚。” 😐

“TA听懂了我在倾诉，可是安慰得好表面。” 😠

“我只是想被认同，不想被讲道理……”😞

是不是很像我们和那些“听了半天还是不懂我意思”的朋友聊天时的真实感受？

每个感知智能体都有“人生剧本”

SAGE中的每个感知智能体都有详细的人物设定：

年龄、性格、职业、兴趣爱好、说话方式
对话主题多样，从“成绩不好怎么办”到“怎么优雅分手”
隐藏意图：是想发泄情绪？还是想听建议？
背景故事丰富，像一场微型情感剧，有来龙去脉和情绪转折
在多轮对话中，感知智能体会：
1. 记录内心想法和感受
2. 更新自己的情绪值（比如被安慰后情绪从-5跳到+10）
3. 决定下一步怎么回应
最终，AI是否“真的懂人”，就通过感知智能体的情绪轨迹和内心独白体现出来。聊天结束时的情绪值，成为评价AI情感能力的直观数值。
GPT-4o表现最有人情味
腾讯团队基于100个涵盖8种不同隐藏主题的对话场景，测试了18个主流模型，包括GPT-4o、DeepSeek-R1、Claude3.7、Gemini2.5等。结果显示：
GPT-4o-Latest在SAGE排行榜上排名第一
Gemini2.5-Pro虽然在传统的Arena排行榜上第一，但在SAGE中只排第四
这说明SAGE能捕捉到传统评测无法体现的“高阶社会认知”能力——也就是说，答得好≠更懂人心。
实验亮点解析
实验分析1. 情感共鸣评分与心理学量表高度一致
SAGE的情绪评分与心理学经典量表BLRI（Barrett–Lennard Relationship Inventory）高度相关（相关系数r=0.818），说明SAGE的评分真实反映了AI与人的共情质量。
实验分析2. 对话质量的三大维度
SAGE还从“说话自然度”、“专注倾听度”和“情感共鸣深度”三个维度评估对话质量，发现这些指标与SAGE评分高度相关（r=0.788）。
实验分析3. Token效率：少说多情
实验发现有些模型虽然话多，但情感共鸣不一定好。
GPT-4o不仅得分最高，且平均token数量较少（约3.3K），说明它能用更简洁的语言精准传达情感，避免“话痨”。
实验分析4. AI的人格画像
研究者还为不同模型建立了“风格坐标图”，横轴是互动方式（公式化↔创造性），纵轴是回复导向（问题解决↔共情理解）。GPT-4o和GPT-4.1偏向“强烈共情+稳妥回复”，而DeepSeek-R1更像“创意支持伙伴”，Gemini2.0和o3则是“专业理性派”。
目前，既能创意十足又能深刻共情的AI还未出现，这或许是未来AI发展的理想方向。
随着AI从“聪明”走向“懂人”，情感智能（EQ）成为衡量AI价值的新标尺。腾讯的SAGE框架用“有感情的AI”来评测AI的共情力，揭示了GPT-4o在情感理解和陪伴体验上的领先优势。
未来，AI不仅是知识的搬运工，更将成为我们生活中的“情感大师”，陪伴我们、理解我们，带来更温暖的人机交互体验。

Jessica Sun

Comments (0)

No comments

Tags

Jessica Sun

Comments (0)

Post Comment

Recent Post

Categories

Popular posts