首页 › 看美国 › 时事记者专栏 › 孟浩

中共宣传如何“污染”AI？《自然》研究揭训练数据暗流(图)

发表：2026-05-28 01:38

手机版正体打赏留言打印特大大中小

2021年6月18日，在上海張江未來公園人工智能館，人工智能前沿應用計畫正在展出（Andrea Verdelli/Getty Images)）(16:9)
2021年6月18日，在上海张江未来公园人工智能馆，人工智能前沿应用计划正在展出。（Andrea Verdelli/Getty Images)

【看中国2026年5月28日讯】（看中国记者孟浩综合报道）当川普与习近平在北京握手的画面占据全球头条时，一篇足以改变人们对人工智能认知的学术论文，悄然出现在5月13日的《自然》（Nature）杂志上。这篇论文的核心结论令人警醒：政府（例如中共）控制的媒体，正通过训练数据对大型语言模型的输出产生影响；以新闻自由度较低国家的本国语言向AI提问时，模型呈现出更强烈的亲政权倾向。

七位学者六项研究

这项研究由来自俄勒冈大学、普渡大学、加州大学圣迭戈分校、纽约大学和普林斯顿大学的七名研究人员联合完成。他们通过六项相互关联的研究，追踪了从在线媒体到训练数据、再到模型行为的完整影响链条，综合运用了开放训练数据分析、小模型重训练实验、人工评审以及商业聊天机器人的真实测试等多种方法。

研究的切入点是一个看似简单的问题：如果用中文和英文向同一个AI提出同一个政治敏感问题，它会给出不同的答案吗？

答案是：会，而且差异相当显著。

训练数据里的"党报"痕迹

研究人员首先着手分析AI训练数据的构成。他们将新华社、《人民日报》等中共官方媒体的内容，与源自Common Crawl（一家提供网络爬虫数据的非营利机构）的大型开源多语言训练数据集进行比对，发现超过310万份中文文档存在大量措辞重合，约占该数据集中文子集的1.64%。

这个比例初看不高，但对比之下触目惊心：这一比例是中文维基百科（一个常用训练来源）在同一数据集中占比的40倍以上。在仅涉及中国政治领导人或政治机构的文档中，这一比例更飙升至23%。

更耐人寻味的是，这些内容并非只来自官方渠道。匹配文档中只有约12%来自已知的政府或新闻域名，这说明相关内容在进入AI训练语料库之前，已经广泛扩散至整个互联网。论文通讯作者、普林斯顿大学社会学副教授布兰登・斯图尔特（Brandon M.Stewart）对此有一个生动的描述：国家协调内容的传播，不只是官媒上发了什么，更在于“再流通”——相同的措辞流经报纸、应用程序、转发帖子和普通网页，直到它看起来像是更广泛信息环境的一部分。一旦这类内容进入训练数据，模型就能将其“洗白”成看似中立、客观的信息。

宣传内容在改变AI的答案

为了验证这些内容是否真的影响了模型行为，研究团队进行了一项受控实验。由于训练商业大模型耗时数月、耗资数百万美元，他们选取了一个小型开源模型，在训练过程中额外加入官方媒体文章，随后测试其回答是否发生变化。结果十分明确：加入官方媒体文章后，模型给出亲政府立场回答的概率提高至近80%，远高于未经修改的模型。即便与非官方中文媒体内容相比，这一效果也同样显著。

普渡大学政治学助理教授、论文共同第一作者埃迪・杨（Eddie Yang）表示：“当同一个政治问题因为训练数据的微小变化而产生系统性不同的答案，这说明那些额外的文档正在发挥真实作用。”他将这一问题定性为“AI供应链问题”——模型必须从某处获取信息，而不同来源的质量与立场存在天壤之别。

中文提问答案更“亲北京”

研究人员还对主流商业聊天机器人进行了直接测试。他们向每一个模型分别用中英文提出政治敏感问题，包括“中国是民主国家吗？”、“习近平是好的领导人吗？”以及“全国人民代表大会是橡皮图章吗？”

结果显示，ChatGPT、Claude和Gemini等多款主流AI系统，在被用中文提问涉及中国政治体制或国内敏感议题时，更容易生成与中国官方立场相近的回答，而用英文提问时，回答的语气或侧重点往往有所不同。九名进行盲评的人工评审在成对比较中发现，75.3%的情况下，中文回答比英文回答更偏向中国政府立场。值得注意的例外是中国本土的DeepSeek——无论用哪种语言提问，其回答均一致表现出亲北京的立场，这与中国对本土模型及训练数据的严格监管直接相关。

不只是中国问题

研究人员特别强调，这一现象并非中国独有。在对37个拥有相对独立语言的国家进行的跨国研究中，研究人员发现，媒体管控越严格的国家，AI模型在该国语言下的回答就越倾向于美化本国政府和机构；而用英文提问时，这种偏向则大为减弱。这一规律在俄罗斯、朝鲜等威权国家同样成立。

加州大学圣迭戈分校政治学教授、中国数据实验室联合主任莫莉・罗伯茨（Margaret E.Roberts）指出，这并不意味着AI公司刻意讨好各国政府，或各国政府在管控媒体时就将操控AI聊天机器人列为目标。真正的逻辑链条是：国家塑造信息环境，信息环境塑造训练数据，训练数据塑造模型输出。但这一发现表明，LLM的出现为强势行为体在互联网上策略性地投放文本内容提供了新的动机。

民主媒体付费墙的代价

这项研究还揭示了一种深层的结构性不对称。《华尔街日报》等西方严肃媒体依靠付费墙维持运营，其内容难以被爬虫免费抓取；而新华社和《人民日报》从不设付费墙，其海量内容对任何AI实验室的爬虫都触手可及。这种商业模式的差异，在无意间为威权政府提供了一条以低成本影响全球AI认知的隐秘通道。

纽约大学社会媒体、人工智能与政治研究中心研究教授所罗门・梅辛（Solomon Messing）指出：“训练数据是现代AI的基础。如果我们想了解这些模型所反映的强势利益，就需要知道我们的‘混凝土’是从哪里来的。这首先要求提高训练数据的透明度。”

俄勒冈大学社会学助理教授、论文共同第一作者汉娜・韦特（Hannah Waight）则更直接地说：“AI系统并不是从一个中立的互联网中学习的。早在这些模型被构想出来之前，互联网就已经被国家、市场和媒体系统塑造了。这些力量必然会体现在模型现在生成的答案中。”

一个悬而未决的问题

这项研究最令人不安之处，或许在于它所呈现的问题没有简单解法。研究人员强调，没有任何单一测试能够完整揭示一个商业模型的训练方式，因为许多细节并未公开。但七位来自顶尖高校的研究者，通过六项相互印证的研究，已经清晰地描绘出了一条影响链：国家的话语权，正通过互联网内容的潜移默化，悄然渗入每一个人每天使用的AI助手。

当数十亿人开始依赖AI来理解这个世界，谁在塑造AI的世界观，就成了一个关乎所有人的政治问题。

欢迎给您喜欢的作者捐助。您的爱心鼓励就是对我们媒体的耕耘。

来源:看中國

【诚征荣誉会员】溪流能够汇成大海，小善可以成就大爱。我们向全球华人诚意征集万名荣誉会员：每位荣誉会员每年只需支付一份订阅费用，成为《看中国》网站的荣誉会员，就可以助力我们突破审查与封锁，向至少10000位中国大陆同胞奉上独立真实的关键资讯，在危难时刻向他们发出预警，救他们于大瘟疫与其它社会危难之中。