研究：训练数据含 0.001% 的错误信息足以“毒害”医学 AI 模型

周龙发布于 3月前阅读 31

纽约大学的一项研究揭示了大型语言模型（LLM）在医学信息训练中的潜在风险。研究表明，即使训练数据中仅含有 0.001% 的错误信息，也可能导致模型输出不准确的医学答案。

数据“投毒”是一个相对简单的概念。LLM 通常通过大量文本进行训练，这些文本大多来自互联网。通过在训练数据中注入特定信息，可以使模型在生成答案时将这些信息视为事实。这种方法甚至不需要直接访问 LLM 本身，只需将目标信息发布到互联网上，便可能被纳入训练数据中。例如，一家制药公司只需发布几份针对性文件，便可能影响模型对某种药物的认知。