首页 > 面试资料博客日记

我用自己的微信聊天记录，微调了一个“数字分身”

2026-05-26 11:00:02面试资料围观49次

文章我用自己的微信聊天记录，微调了一个“数字分身”分享给大家，欢迎收藏极客资料网，专注分享技术知识

最近我做了一个挺有意思的实验：

如果把一个人长期积累下来的聊天记录导出来，再交给大语言模型去学习，能不能训练出一个在说话方式、表达习惯，甚至部分行为判断上都接近本人的“分身”？

这个问题一开始听起来很像科幻。但在大模型已经能够理解上下文、模仿语气、进行角色扮演的今天，它其实已经变成了一个可以被实验验证的问题。

一、我为什么想做这个实验

现在很多人提到“数字人”，第一反应可能还是虚拟主播、AI 客服、数字员工，或者是那种有形象、有声音、会按照固定剧本说话的虚拟角色。

但我更关心的问题不是它“长得像不像一个人”，而是：

它能不能像一个具体的人那样说话、思考和回应？

比如同样一个问题，如果由我本人回答，我可能会先吐槽两句，再开始分析；我可能不会直接给标准答案，而是会结合自己的经历、情绪和判断习惯去回答。

那么，这种东西能不能被模型学到？

聊天记录里到底只包含一个人的“语言风格”，还是也隐藏着某种更深层的“行为模式”？

二、数据从哪里来

这次实验的数据来自我自己的微信聊天记录。

我使用 weflow 导出了一年内和 7 名高频交流好友之间的聊天内容。由于聊天记录里包含大量隐私信息，例如人名、地点、联系方式、具体事件等，所以在训练之前，我先对数据进行了脱敏处理。

最终整理后，我得到了大约 2 万条可以用于训练的对话样本。

这里要特别说明：

本项目不会公开原始聊天记录，也不会公开完整训练数据。所有展示内容都会经过脱敏、改写或抽象处理。

因为这个实验本身就涉及真实社交数据，隐私和伦理问题必须放在第一位。

三、我用了什么模型

这次我选择的基座模型是 Qwen-14B。

训练环境是在云端平台上完成的，使用 A100 40GB 显卡，整个微调过程大约持续了 9 个小时。

这次微调的目标并不是让模型获得新的通用知识。它本来就已经具备比较强的语言理解和生成能力。

我真正想做的是：

让模型在已有语言能力的基础上，吸收我个人聊天记录中体现出来的表达模式、语气习惯和部分行为倾向。

换句话说，这更像是一次“个人风格迁移”，而不是传统意义上的知识注入。

我不是要训练一个更聪明的模型，而是想训练一个“更像我的模型”。

四、它真的像我吗？

训练完成后，我做了一个初步测试。

我让 ChatGPT 随机生成了 100 个问题，然后把这些问题输入到微调后的模型中，再由我本人判断：

如果这个问题让我自己回答，我是否大概率会给出类似的回复？

最终的主观评估结果是：大约 100 个问题中，有 90 个左右被我判断为“比较符合”。

当然，这个结果不能被理解为严格的科学结论。

因为评价者就是我自己，判断标准具有主观性；100 个问题的覆盖范围也不够全面，无法代表现实中的所有交流场景。

但从体验上来说，这个模型确实让我感受到了一种很微妙的相似性。

它不只是会模仿一些口头禅，也不只是会学我的句式。有些时候，它在面对问题时给出的判断方式、吐槽角度、解释顺序，确实会让我觉得：

这很像我会说出来的话。

这也是整个实验里最让我感兴趣的一点。

五、聊天记录里可能不只是“说话方式”

一开始，我以为模型主要学到的是语言表层特征。

比如：

我喜欢怎么开头；
我习惯用什么语气；
我会不会吐槽；
我解释问题时喜欢怎样展开；
我在熟人面前说话是否更随意。

但测试之后，我发现它似乎不只是在学“怎么说”，还在一定程度上学到了“怎么判断”。

人的聊天记录表面上是语言数据，但语言背后其实包含大量隐含信息：

你对不同事情的态度；
你面对冲突时的处理方式；
你安慰别人时的习惯；
你做选择时的偏好；
你对朋友、陌生人、权威、亲密关系的不同反应；
你解释一个问题时更重视逻辑、情绪，还是经验。

这些东西并不是直接写在数据里的，但它们会反复出现在长期对话中。

如果模型看过足够多类似的场景，它就可能学到某种统计意义上的“个体倾向”。

这让我意识到：

聊天记录不是简单的文字集合，它可能是一种压缩过的行为轨迹。

六、原来的方案为什么不理想

在实验早期，我曾经设想过另一种数字人架构。

我当时的想法是：

云端大模型负责“怎么想”；
本地微调模型负责“怎么说”。

也就是说，我先把自己的人格画像整理成一段提示词，让云端大模型根据这个画像进行行为判断，然后再把结果交给本地微调模型，让它用我的语言风格表达出来。

但实际效果并不理想。

主要原因有两个。

第一，人格画像很难完整描述一个真实的人。

一个人面对不同对象、不同场景、不同风险等级时，反应方式可能完全不同。用一段提示词去概括这种复杂性，本身就很粗糙。

第二，我的数据集一开始并没有专门区分“行为决策”和“语言表达”。

模型看到的是完整对话，而不是被精细标注过的行为层、情绪层、关系层和表达层。因此，强行让两个模型分工，反而会出现协作不稳定的问题。

后来我逐渐意识到，也许应该反过来：

让微调后的小模型先输出个体倾向，再让更强的大模型负责最终表达和安全控制。

七、我现在更倾向的新方案

现在我更倾向于把数字人拆成两层：

第一层是“个体倾向层”。

它负责判断：

这个问题属于什么场景；
提问者和我的关系是什么；
我大概率会采取什么立场；
我的情绪强度可能是多少；
我会直接回答、反问、吐槽，还是回避；
这个回复应该随意、严肃、克制，还是带有攻击性。

第二层是“语言生成层”。

它负责把上面的倾向组织成自然、清晰、合适的回复。

简单来说：

小模型负责“像我一样判断”，大模型负责“把这种判断说得更好”。

这样的好处是，个体特征和语言质量可以分开处理。

小模型保留个人化倾向，大模型提供更强的表达能力、上下文理解能力和安全约束能力。

这可能比单纯让一个模型直接生成最终回复更稳定。

八、目前这个实验的问题

虽然这次实验结果很有意思，但它的问题也很明显。

首先，数据来源太单一。

这次数据主要来自我和关系较好的朋友之间的聊天记录。因此，模型学到的“我”，更像是我在熟人关系、朋友关系、轻松语境中的表达方式。

但现实中的我并不只有这一种状态。

面对老师、同事、陌生人、家人、合作对象、面试官，我的表达方式都会发生变化。

这意味着，目前这个数字人其实不是完整的我，而是某个关系场景下的我。

其次，评价方式还不够客观。

100 问测试虽然能提供初步感受，但由我本人判断“像不像我”，这显然有主观偏差。

后续如果要更严谨，至少需要：

更大规模的问题集；
按问题类型分类；
多人共同评价；
引入对照模型；
区分语言风格一致性和行为判断一致性；
设计更稳定的评分标准。

第三，模型仍然存在幻觉。

它有时会编造一些不存在的细节，或者在不确定时给出过于确定的回答。这说明它仍然不是一个真正可靠的“人格副本”，而只是一个基于已有数据进行近似模拟的语言模型。

九、如果后续继续做，我想怎么扩展

如果把这个项目继续做下去，我觉得可以从几个方向扩展。

第一，加入更多人的数据。

只用我一个人的数据，很难说明这种方法是否具有普遍性。后续可以让更多人用相同流程构建自己的数字人，再比较不同个体之间的微调效果。

第二，进行场景分类。

比如把问题分成：

日常闲聊；
情绪安慰；
观点表达；
冲突处理；
学习建议；
技术讨论；
亲密关系；
陌生人交流；
高风险决策。

不同场景下，一个人的表达方式和行为倾向可能完全不同。

第三，扩大测试问题数量。

100 个问题只能算初步测试。后续可以扩展到 500 个、1000 个，甚至构建一个专门用于个体数字人评估的问题集。

第四，区分“语言像”和“行为像”。

有些回复可能语气很像本人，但判断并不像；有些回复可能判断方向对了，但说话风格不像。

这两个指标应该分开评估。

第五，加入关系标签。

同一句话，如果是朋友问、老师问、陌生人问、家人问，真实个体的回答可能完全不同。

所以数字人不能只知道“问题是什么”，还要知道“是谁在问”。

十、我对这个实验的理解

这次实验并不能证明“一个人可以被聊天记录完整复刻”。

我也不认为现在这个模型就是另一个真正的我。

更准确地说，它是一个在有限数据、有限场景和有限关系网络中，对我表达方式与部分行为倾向的近似模拟。

但这件事本身已经很值得思考。

因为它说明，长期聊天记录中确实可能包含大量关于个体的稳定特征。一个人如何表达、如何判断、如何回应关系、如何处理情绪，都可能在日常对话中留下痕迹。

当这些痕迹被大模型学习后，它就可能生成一种“看起来很像这个人”的回应。

这也是数字人真正值得研究的地方。

未来的数字人，也许不只是有一个相似的声音或外貌，而是能够在不同关系、不同语境、不同风险等级下，表现出接近原始个体的表达和判断模式。

但与此同时，它也带来了非常复杂的问题：

一个人的聊天记录能不能代表这个人？
数字人生成的回答应该由谁负责？
如果模型模拟了某个人的表达方式，它是否侵犯了对方的身份边界？
当数字人越来越像真实个体时，我们应该如何区分“模拟”和“本人”？

这些问题暂时没有简单答案。

但至少通过这次实验，我更确定了一点：

数字人真正困难的地方，不是让它说话，而是让它在具体关系和具体场景中，以接近某个真实个体的方式做出回应。

这件事，比我一开始想象的要复杂，也比我一开始想象的更有意思。

声明

本项目仅作为个人技术实验与研究记录，不公开原始聊天记录、完整训练数据和可识别个人身份的对话内容。文中涉及的数据规模、训练过程和测试结果均经过概括处理。所有可能涉及他人隐私的信息均在公开前进行脱敏、改写或删除。

这个项目的目的不是复刻、冒充或替代任何真实个体，而是探索大语言模型在个体表达风格迁移、行为倾向模拟和数字人构建中的可能性与边界。

文章来源:https://www.cnblogs.com/kukusuyi/p/20166103
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：jacktools123@163.com进行投诉反馈，一经查实，立即删除！

标签：

上一篇：【学习笔记】《Python编程从入门到实践》第2章：变量命名规则、字符串操作与数值类型详解
下一篇：AI运动APP开发的常见问题集锦一

首页 > 面试资料博客日记

我用自己的微信聊天记录，微调了一个“数字分身”

一、我为什么想做这个实验

二、数据从哪里来

三、我用了什么模型

四、它真的像我吗？

五、聊天记录里可能不只是“说话方式”

六、原来的方案为什么不理想

七、我现在更倾向的新方案

八、目前这个实验的问题

九、如果后续继续做，我想怎么扩展

十、我对这个实验的理解

声明

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 面试资料 博客日记

我用自己的微信聊天记录，微调了一个“数字分身”

一、我为什么想做这个实验

二、数据从哪里来

三、我用了什么模型

四、它真的像我吗？

五、聊天记录里可能不只是“说话方式”

六、原来的方案为什么不理想

七、我现在更倾向的新方案

八、目前这个实验的问题

九、如果后续继续做，我想怎么扩展

十、我对这个实验的理解

声明

相关文章

最新发布

点击排行

本站推荐

标签云

首页 > 面试资料博客日记