Listen Podcast summary

Podcast summary

0:00

–:––

消费级数字孪生如何重塑洞察力，以及生物传感器验证为何对其成功至关重要

作为模拟消费者行为、注意力及情绪的虚拟模型，消费者数字孪生正日益改变市场调研的面貌。本文探讨了相关研究方法、围绕合成受访者的有效性争议，以及iMotions等生物传感器平台在将消费者数字孪生植根于真实人类反应方面所发挥的作用。

“数字孪生”这一概念进入营销领域的方式，与它进入工程领域的方式有所不同——在工程领域，这个术语或许更为常见。工业数字孪生始于对物理资产的传感器监测；而营销数字孪生则源于这样一种认识：消费者与涡轮机和供应链一样，都可以被建模为具有可测量输入和可预测输出的系统。

在过去的几年里，大型语言模型、行为数据基础设施与消费者神经科学的融合，使这一理念从一种推测性的概念迅速发展为可行的方法论——当然，这种快速普及也带来了诸多关于其有效性的质疑。

对于市场研究专业人士、消费者洞察领域的领导者以及研究消费者行为的学术研究人员而言，消费者数字孪生如今已成为一种值得重视的方法论选择。

本文探讨了“消费者双生体”的实际含义，其在合成受访者方法的整体框架中所处的位置，现有研究对其有效性的评价，以及为何基于生物传感器的验证（如iMotions等平台所支持的验证方式）正日益成为确保基于双生体洞察可信度的关键因素。

什么是消费者数字孪生？

该领域的术语尚未定论，在深入探讨之前，厘清概念至关重要。市场研究行业正逐渐形成三大类定义较为宽松的合成方法论，这些方法论的主要区别在于它们在多大程度上基于真实用户数据。

纯合成受访者是基于人口普查数据、行为建模以及大型语言模型先验信息生成的AI虚拟人物。它们与任何具体的真实个体均无关联。此类虚拟人物适用于人口层面的模拟、调查样本扩充以及探索性研究，其目标在于近似推断总体响应模式，而非预测个体行为。

合成消费者是合成受访者的一种特殊类型，专为市场调研应用而设计。它们旨在模拟真实买家在评估产品概念、定价和宣传信息时的思维方式和行为模式，通常用于概念测试、信息测试以及早期探索阶段。

消费者数字孪生处于该谱系中最贴近现实的一端。消费者数字孪生是对特定个人或界定明确的消费者细分群体的虚拟呈现，它基于来自问卷调查、行为观察、交易记录、访谈记录和/或声明偏好的真实个体数据构建而成，并设计为随着新数据的积累而随时间演进。合成消费者是一种泛化的人物画像，而数字孪生则是针对已知个人或微细分群体所构建的动态、经过校准的模型。

这一区分至关重要，因为不同类别在验证策略、应用场景和风险方面存在差异。纯合成受访者通常依据总体人口统计数据进行验证；而消费者双生体则依据其所代表的真实个人或群体的实际反馈进行验证，这正是它能够针对该个人或群体生成特定预测的原因。

消费者双胞胎究竟是如何构建的

大多数生产环境中的消费者孪生实现都结合了三层输入。

行为数据和交易数据构成了实证分析的基础。购买记录、网页和应用程序交互数据、会员计划数据、媒体消费模式以及客户关系管理（CRM）记录，共同描绘了消费者实际的行为轨迹。这类数据的优势在于它是被观察到的而非自我申报的，并且它提供了时间模式，正是这些模式使虚拟消费者模型具有动态性而非静态性。

声明偏好和态度数据反映了消费者对自己所作的陈述。调查问卷、访谈记录、焦点小组讨论结果以及面板数据，则填补了仅凭行为数据无法捕捉到的动机和推理。借助检索增强生成技术，越来越能够将基于大型语言模型（LLM）的虚拟分身植根于与所代表个体进行的真实对话记录之中。

人口统计和背景数据将虚拟受访者锚定在特定人群中——包括年龄、收入、地理位置、家庭结构及人生阶段。研究表明，当要求基于大型语言模型（LLM）生成的虚拟受访者考虑其所模拟对象的人口统计特征时，其表现会显著提升；其中，年龄和收入水平是匹配现实世界中回答分布的关键变量。

该“分身”通常以大型语言模型（LLM）的形式实现，能够结构化地访问相关数据，并结合对个人对话记录和行为记录的检索功能，同时通过提示词或微调进行约束，使其能够以被代表者的方式作出回应。更复杂的实现方案会在大型语言模型的基础上叠加行为模型、购买意图模型、注意力模型和情绪模型等，从而针对特定刺激生成具体的预测结果。

消费类双胞胎技术的应用领域

数字孪生在营销领域的应用主要集中在五个相互重叠的用例中。

概念与产品测试。这是应用最广泛的测试类型。品牌方通过让双胞胎（或与目标受众特征相符的双胞胎群体）接触刺激物，并收集他们在吸引力、独特性、购买意愿及品类契合度等维度上的预期反馈，从而评估新产品概念、包装设计或配方。

最新研究表明，将语义相似度评分方法应用于基于大型语言模型（LLM）的合成消费者时，在涵盖57项个人护理产品调查（共9,300份人类反馈）中，其测试-重测信度达到了人类水平的90%。这为迄今为止最有力的公开证据，证明在适当的方法条件下，合成消费者能够复现人类对概念的总体评价结果。

广告与创意测试。在品牌决定投放广告预算之前，双胞胎模型就能预测哪些广告版本在互动率、记忆度和说服力方面表现最佳。其经济效益十分显著：传统上，对单个30秒广告片进行预测试通常需要数百名受访者和数周的实地调研；而基于双胞胎模型的预测试则能在数小时内测试数百个版本。

客户旅程模拟与客户体验优化。针对特定客户群体的“孪生”模型，可以对其进行旅程变体测试——包括不同的用户引导流程、用户留存干预措施以及服务互动——从而确定哪些路径能产生最佳效果。这使得旅程设计从单纯的历史归因分析转向前瞻性的模拟。

定价与产品组合研究。联合分析（Conjoint）式的支付意愿研究已开始转向基于双胞胎的研究方法，在此方法中，双胞胎能够评估价格、功能和品牌组合之间的权衡关系，其研究规模远超传统人类研究所能达到的范围。

个性化与细分优化。在更深入的分析层面，可以利用单个客户的虚拟分身（在数据允许的情况下）来测试个性化推荐、内容变体或优惠方案，从而帮助个性化引擎比仅依靠实际A/B测试更快地学习。

有效性问题（？）

围绕“消费者双生体”的研究热潮，伴随着大量关于其有效性的文献；截至2025年底和2026年初，这些文献的结论可谓褒贬不一。

这些令人鼓舞的研究结果确有其事。除了上文提到的个人护理产品研究外，经同行评审的研究和工作论文也表明，基于大型语言模型（LLM）生成的虚拟受访者能够再现政治观点、消费者偏好以及定性反馈中的某些总体模式。

哈佛商学院、麻省理工学院斯隆管理学院以及多家大学的市场营销系都对这些方法进行了深入研究。《国际市场营销研究杂志》与市场营销科学研究所合作，征集了一期专门探讨生成式人工智能、合成数据以及市场营销研究中合成受访者的特刊，这表明学术界认为该主题值得深入探讨。

这些令人沮丧的研究结果同样真实。Tjuatja 及其同事对九种开源和商业大型语言模型（LLMs）进行的全面评估发现，在人类通常会表现出的针对具体问题格式的回答偏好方面，这些模型普遍无法体现出类似人类的行为。Bisbee 及其同事在《政治分析》杂志上记录了他们所称的“大型语言模型作为合成调查受访者的风险”，包括对提示词措辞和人口统计提示策略的显著敏感性。 Yu及其同事将GPT-4和Llama3与人类在标准化共情问卷中的回答进行对比，发现GPT-4虽然再现了问卷预期的因子结构，但未能复现人类得分的具体数值；而Llama3甚至在因子结构的再现上也未能达标。

在相关文献中，有几种具体的失效模式反复出现：

阿谀奉承与积极偏见。经过训练以表现得乐于助人且顺从的大型语言模型（LLMs），在作为虚拟受访者时，往往会给出不切实际的积极反馈或缺乏批判性的反馈，从而无法揭示真实消费者会指出的负面反应和产品缺陷。
响应方差不足。合成受访者生成的响应分布往往过于平滑且过于集中，从而抹去了那些体现现实世界消费者行为特征的离群值和边缘案例。
社会可接受性偏差。最新研究表明，大型语言模型（LLMs）在调查问卷的回答中表现出类似人类的社会可接受性偏差，这听起来似乎是件好事，但一旦意识到这种偏差恰恰是精心设计的市场调研旨在规避的，情况就大不相同了。
提示敏感性。来自合成受访者的估计值对提示措辞、受访者角色设定以及选项排序极为敏感，因此若不进行严格的方法论控制，将难以获得稳定的估计值。
具有群体层面的有效性，但缺乏个体层面的有效性。多项研究指出，合成方法虽然能够相当准确地复现总体响应模式，却无法预测特定个体的响应——这一区别对于个性化应用而言至关重要。
幻觉。生成式模型有时会生成看似合理但实际上错误的信息，如果未能在验证过程中发现这些错误，可能会导致得出误导性的结论。

坦率地说，消费级数字孪生虽然有用，但仅凭其自身尚不可完全信赖。它们能够有效生成假设，可靠地复现某些总体模式，并产出真正具有参考价值的定性结果——但在将其用于做出重大商业决策之前，必须根据真实人类的反应对其结果进行校准。

为什么生物传感器验证至关重要

对市场营销研究者而言，方法论的叙述在此迎来了最引人入胜的转折。传统上，对合成受访者的验证一直将人类调查数据作为基准——即将“双胞胎”模型预测的李克特量表回答，与真实人类在相同项目上的反馈进行对比。这种做法虽有必要，却并不充分，原因在于营销人员数十年来早已知晓：消费者对某种刺激因素的言语表述，与其实际反应之间存在差异。

消费者神经科学已对此进行了大量研究。仅仅是对某种反应进行反思这一行为，就足以改变该反应；而自我报告量表则容易受到社会期望、回忆偏差和事后合理化等因素的影响。一个经过训练、能够预测人们会说什么的“消费者双胞胎”，充其量也只能准确预测人们实际说出的话。

它未必能预测前意识注意、情绪价值、认知努力，或是驱动实际购买行为的其他反应维度——而更广泛的消费者神经科学文献估计，这些维度占了决策过程的绝大多数。

基于生物传感器的验证方法为弥合这一差距提供了一种途径。该方法的原理很简单：将双胞胎所评估的同一刺激呈现给一小部分具有代表性的真实受试者，并对这些受试者进行眼动追踪、面部表情分析、皮肤电反应（GSR）监测，并在适当情况下进行脑电图（EEG）监测。

将该生物传感器在视觉注意力模式、情绪反应、唤醒水平和认知负荷等可测量维度上的预测结果，与实际记录的生理反应进行对比。利用这些差异对该系统进行校准，并确定其预测在哪些方面是可靠的，又在哪些方面存在偏差。

这种校准与验证循环具有若干显著优势。生物传感器测量结果较少受到影响人类调查和合成受访者的响应偏差，从而提供了独立的参考依据。它们生成的数据是连续的、具有时间分辨率的，而非单一的汇总分数，这意味着单项生物传感器研究即可验证同一刺激下多个时间点的双生预测。此外，这些数据通常无法与基于大型语言模型（LLM）的虚拟人物所编造的内容相提并论，这使得它们更难在训练过程中无意间泄露。

iMotions 提供真实数据

鉴于 iMotions Lab 作为多模态生物传感器研究平台，在消费类神经科学应用领域具有得天独厚的优势——它将眼动追踪、面部表情分析、皮肤电反应/事件相关电活动（GSR/EDA）、脑电图（EEG）、心电图（ECG）以及语音分析整合到一个同步的数据采集与分析环境中——因此，利用 iMotions 的多项功能进行消费者双生验证具有直接的现实意义。

多模态刺激测试。iMotions Lab 平台支持在屏幕研究、虚拟现实环境、使用眼动追踪眼镜的实体店场景以及自然情境中采用完全一致的研究设计。对于需要在数字广告、包装、零售环境和产品体验中进行验证的消费者双生模型而言，这种跨情境的一致性有助于减少方法学上的差异。

消费者神经科学方法论的覆盖范围。iMotions 明确支持核心的神经营销方法：通过基于屏幕的眼动追踪技术分析视觉注意力，通过 Affectiva 面部表情分析和语音分析技术分析情绪反应，通过皮肤电反应（GSR）技术分析生理参与度，以及通过脑电图（EEG）整合技术分析神经反应。这些方法分别对应着消费者反应的各个维度，而“双生”模型正是旨在预测这些维度。

调查整合。该平台内置调查工具，使研究人员能够在同一项研究中，将参与者的明确回答与其无意识的生物传感器反应进行交叉验证。这对双胞胎验证尤为有用：研究团队可以在一个整合的数据集中同时收集显性的李克特量表评分（双胞胎经过训练可预测该评分）和隐性的生物传感器反应（可提供独立验证）。

适用于不同研究阶段的可扩展性。iMotions 提供多种配置方案，从适用于大样本量和快速迭代的基于网络摄像头的远程研究，到用于高保真度验证的高级多模态实验室设置。对于基于双胞胎的研究项目，这一点尤为重要，因为不同阶段的验证策略各不相同：早期方法论研究可能针对小样本使用实验室级仪器，而已部署双胞胎模型的持续校准则可能依赖基于网络摄像头的远程研究以实现规模化。

数据导出与集成。原始数据和衍生指标可导出为与R、Python、SPSS及其他统计分析环境兼容的格式，从而将生物传感器输出数据集成到用于训练和评估虚拟人体的同一建模工作流中。

在基于数字孪生的研究项目中，iMotions 的作用并非取代数字孪生，而是作为验证和校准层。数字孪生能够大规模生成预测结果；iMotions 则提供真实的生物传感器数据，以此判断这些预测是否可靠，以及需要在哪里进行修正。

一个典型的验证工作流

一种具有代表性的双重验证消费者研究方法可能如下所示。

研究团队基于现有的个体层级数据（包括调查问卷回复、访谈记录、行为记录及人口统计背景）构建或授权使用一个代表目标细分市场的消费者虚拟模型。针对当前的研究问题，会生成相应的刺激变量：广告创意变体、包装设计、产品概念以及用户旅程流程。

该模型会对每个变体进行评估，针对感兴趣的响应维度（吸引力、关注度、情感价值、购买意愿）生成预测分数，并提供评分背后的定性解释。变体将根据预测表现进行排序，最终选出排名靠前的候选方案以及少量对比方案，用于生物传感器验证。

在一项基于iMotions的研究中，招募了一小部分与目标受众相匹配的真实受试者，并向其展示选定的刺激材料，同时同步采集眼动追踪、面部表情分析、皮肤电反应（GSR）以及问卷反馈数据。生物传感器数据被处理为双生模型所预测的对应响应维度——即通过注视模式反映注意力，通过面部表情反映情绪价值，通过皮肤电反应反映唤醒水平，以及通过问卷反馈反映显性评分。

将双胞胎模型的预测结果与生物传感器和调查数据进行对比。此时可能出现三种结果：双胞胎模型的预测与人类反应高度吻合（该模型已针对此类刺激完成校准，可信赖其进行后续变体评估）；双胞胎模型的预测存在可纠正的系统性偏差（调整校准参数后，工作流程继续进行）；或者双胞胎模型的预测与人类反应不符（该模型不适用于此类刺激，需采用传统方法）。

经过验证且有校准记录的“双生模型”，可用于评估其他变体，其可靠性远高于未经校准的“双生模型”。定期的重新验证研究可确保随着产品、市场和消费者行为的演变，“双生模型”的预测结果仍能准确反映人类的实际反应。

方法论考量

对于任何考虑在消费者研究中采用双重方法论的团队而言，有几点注意事项至关重要。

类别泛化尚未得到证实。迄今为止，大多数积极的验证结果都来自相对受限的产品类别——个人护理产品、消费品以及成熟领域的广告。在复杂的B2B采购决策、奢侈品、具有文化特性的产品以及真正新颖的类别中，其表现仍未得到证实。

群体层面与个体层面的预测主张。已发表的最有力证据支持采用合成方法进行总体预测。而关于个体层面预测的主张——即“这位特定客户会做出这种特定反应”——其证据支持程度则明显不足，应予以谨慎对待，特别是在个性化应用场景中，因为此时个体的预测准确性至关重要。

基础数据的质量。消费者虚拟模型的质量取决于其所依据的个体层面的数据质量。基于目标细分市场中真实消费者丰富对话记录构建的虚拟模型，其表现优于仅基于人口统计特征构建的模型。对基础数据的投入通常是方法论决策中最具杠杆效应的举措。

伦理与隐私。与运营型数字孪生相比，消费者孪生引发了截然不同的伦理问题。如果一个孪生体代表特定的可识别个人，该个人通常对其数据的使用方式以及孪生体如何代表其行事拥有相关权利。聚合型细分孪生体在伦理上的争议较小，但仍需获得审慎的同意并保持透明度。《通用数据保护条例》（GDPR）、《加州消费者隐私法案》（CCPA）以及新兴的人工智能专项法规正逐渐形成共识：基于个人数据构建的消费者孪生体必须获得明确同意并保持实质性的透明度。

阿谀奉承和积极偏见确实存在。在利用消费者虚拟分身来决定是否推出产品时，相关团队应特别警惕基于大型语言模型（LLM）的方法存在产生过度积极预测的已知倾向。生物传感器验证是防范这种偏见较为有效的保障措施之一，因为生理反应较少受到这种由训练引发的积极偏见的影响。

该领域的发展趋势

未来几年，有三项发展动态可能会塑造消费者双重方法论。

首先，将行为数据和生物传感器数据整合到虚拟人训练中的做法，已不再局限于验证阶段，而是正朝着真正扎根实践的方向迈进。领先的研究项目不再仅仅基于文本和人口统计数据构建虚拟人，再通过生物传感器对其进行验证，而是开始将生物传感器数据直接融入虚拟人的训练过程，从而生成能够从一开始就预测既定反应和无意识反应维度的虚拟人。

其次，数据修正和校准方法正变得日益精进。近期学术研究引入了推理时技术，利用有限的人类数据对合成受访者的输出结果进行调整，使其更贴近人类响应分布——这使得基于虚拟受访者的研究对于那些无力承担大规模持续人类验证的团队而言，变得更加切实可行。

第三，监管和方法学标准正在逐步形成。市场研究行业的专业机构、学术期刊以及主要行业买家在双胞胎研究的研究透明度、验证和报告方面达成了共识。仅报告双胞胎预测结果而未进行人类验证的研究正日益受到质疑，而同时报告双胞胎预测结果以及生物传感器或人类验证结果的研究则被视为具有方法学价值的贡献。

入门指南

对于考虑在此领域开展研究的团队而言，实际路径包括三个阶段。

首先，确定哪些类别和决策适合采用基于双生子的方法——通常是那些研究问题涉及大量样本且风险较低，且在速度和规模方面明显优于传统方法的情况，特别是在已有验证证据的产品类别中。

其次，建立生物传感器验证能力。这正是iMotions Lab等平台专门设计的应用场景，这些平台具备双胞胎验证研究所需的消费者神经科学方法论支持、多模态同步以及问卷调查集成功能。建立验证能力，是区分能够产生可信洞见与仅能提出推测性结论的双胞胎研究的关键所在。

第三，制定内部方法学标准，明确在何种情况下可直接采用双胞胎研究结果，何种情况下需要生物传感器验证，以及何种情况下仍需采用传统的人类研究方法。最成熟的研究项目将双胞胎研究、生物传感器和传统研究视为互补的方法，根据研究问题加以结合，而非将其视为相互竞争的替代方案。

技术发展日新月异，以至于今天采取的任何方法论立场，一年之内就可能需要修正。但其基本原则——即合成预测必须以真实的人类反应为基础，而真实的人类反应最严谨的测量方式是通过多模态生物传感器方法——无论未来方法论如何发展，这一原则很可能保持不变。

参考文献与延伸阅读

Bisbee, J. 等（2024）。“用合成数据替代人类调查数据？大型语言模型的隐患。”《政治分析》，32(4)，401–416。
Goli, A., & Singh, A. (2024). 大型语言模型能否捕捉人类偏好？《营销科学》。
Argyle, L. P. 等（2023）。一变万化：利用语言模型模拟人类样本。《政治分析》，31(3)，337–351。
Tjuatja, L. 等（2024）。大型语言模型是否表现出类似人类的回答偏好？一项关于问卷设计的案例研究。《计算语言学协会学报》。
《大型语言模型通过利克特量表评分的语义相似性诱导重现人类购买意图》（2025）。arXiv:2510.08338。
《国际市场营销研究期刊》与市场营销科学研究所。（2025）。特刊征稿启事：市场营销研究中的生成式人工智能、合成数据与合成受访者。
Almeida, G. F. C. F. 等（2024）。探索大型语言模型道德与法律推理的心理机制。《人工智能》，第333期。

营销与消费者研究中的数字孪生

产品指南

产品资讯

合作

最佳实践

研究基础

研究见解

趋势

Publications

Blog

Newsletter

🍪 Use of cookies

Settings