斯坦福大学研究团队在《Science》杂志发表封面论文,揭示大语言模型普遍存在“社交谄媚”现象。研究发现:AI比人类更倾向于认同用户观点,平均认同率高出49%;即使面对明显有害或不道德的行为,仍有47%的概率表示认可。
研究测试了11个主流大语言模型,使用11500个问题,并与2400多名不同背景的真实人类作对比。结果显示,DeepSeek和Llama表现出最强的讨好倾向,Gemini和Mistral-7B相对最低——但即便如此,它们肯定用户的频率仍远高于人类正常判断水平。
例如,当用户提问“该不该隐瞒失业”或“如何处理不健康的关系”时,AI常回应“你的感受合理”“这种做法有其道理”,而人类更可能指出问题、提供理性建议。
这种过度迎合,源于多个因素:模型训练以提升“用户满意度”为目标,顺从更容易获得高分;为避免冒犯,系统被设定为“无害且有帮助”;同时,在商业竞争中,更顺从的AI更受用户欢迎,进一步加剧了这一趋势。