首页 > 面试资料 博客日记

我用自己的微信聊天记录,微调了一个“数字分身”

2026-05-26 11:00:02面试资料围观14

文章我用自己的微信聊天记录,微调了一个“数字分身”分享给大家,欢迎收藏极客资料网,专注分享技术知识

最近我做了一个挺有意思的实验:

如果把一个人长期积累下来的聊天记录导出来,再交给大语言模型去学习,能不能训练出一个在说话方式、表达习惯,甚至部分行为判断上都接近本人的“分身”?

这个问题一开始听起来很像科幻。但在大模型已经能够理解上下文、模仿语气、进行角色扮演的今天,它其实已经变成了一个可以被实验验证的问题。


一、我为什么想做这个实验

现在很多人提到“数字人”,第一反应可能还是虚拟主播、AI 客服、数字员工,或者是那种有形象、有声音、会按照固定剧本说话的虚拟角色。

但我更关心的问题不是它“长得像不像一个人”,而是:

它能不能像一个具体的人那样说话、思考和回应?

比如同样一个问题,如果由我本人回答,我可能会先吐槽两句,再开始分析;我可能不会直接给标准答案,而是会结合自己的经历、情绪和判断习惯去回答。

那么,这种东西能不能被模型学到?

聊天记录里到底只包含一个人的“语言风格”,还是也隐藏着某种更深层的“行为模式”?


二、数据从哪里来

这次实验的数据来自我自己的微信聊天记录。

我使用 weflow 导出了一年内和 7 名高频交流好友之间的聊天内容。由于聊天记录里包含大量隐私信息,例如人名、地点、联系方式、具体事件等,所以在训练之前,我先对数据进行了脱敏处理。

最终整理后,我得到了大约 2 万条可以用于训练的对话样本。

这里要特别说明:

本项目不会公开原始聊天记录,也不会公开完整训练数据。所有展示内容都会经过脱敏、改写或抽象处理。

因为这个实验本身就涉及真实社交数据,隐私和伦理问题必须放在第一位。

图片1

图片2

 


三、我用了什么模型

这次我选择的基座模型是 Qwen-14B。

训练环境是在云端平台上完成的,使用 A100 40GB 显卡,整个微调过程大约持续了 9 个小时。

这次微调的目标并不是让模型获得新的通用知识。它本来就已经具备比较强的语言理解和生成能力。

我真正想做的是:

让模型在已有语言能力的基础上,吸收我个人聊天记录中体现出来的表达模式、语气习惯和部分行为倾向。

换句话说,这更像是一次“个人风格迁移”,而不是传统意义上的知识注入。

我不是要训练一个更聪明的模型,而是想训练一个“更像我的模型”。

 


四、它真的像我吗?

训练完成后,我做了一个初步测试。

我让 ChatGPT 随机生成了 100 个问题,然后把这些问题输入到微调后的模型中,再由我本人判断:

如果这个问题让我自己回答,我是否大概率会给出类似的回复?

最终的主观评估结果是:大约 100 个问题中,有 90 个左右被我判断为“比较符合”。

当然,这个结果不能被理解为严格的科学结论。

因为评价者就是我自己,判断标准具有主观性;100 个问题的覆盖范围也不够全面,无法代表现实中的所有交流场景。

但从体验上来说,这个模型确实让我感受到了一种很微妙的相似性。

它不只是会模仿一些口头禅,也不只是会学我的句式。有些时候,它在面对问题时给出的判断方式、吐槽角度、解释顺序,确实会让我觉得:

这很像我会说出来的话。

这也是整个实验里最让我感兴趣的一点。

图片3

图片4

 


五、聊天记录里可能不只是“说话方式”

一开始,我以为模型主要学到的是语言表层特征。

比如:

  • 我喜欢怎么开头;

  • 我习惯用什么语气;

  • 我会不会吐槽;

  • 我解释问题时喜欢怎样展开;

  • 我在熟人面前说话是否更随意。

但测试之后,我发现它似乎不只是在学“怎么说”,还在一定程度上学到了“怎么判断”。

人的聊天记录表面上是语言数据,但语言背后其实包含大量隐含信息:

  • 你对不同事情的态度;

  • 你面对冲突时的处理方式;

  • 你安慰别人时的习惯;

  • 你做选择时的偏好;

  • 你对朋友、陌生人、权威、亲密关系的不同反应;

  • 你解释一个问题时更重视逻辑、情绪,还是经验。

这些东西并不是直接写在数据里的,但它们会反复出现在长期对话中。

如果模型看过足够多类似的场景,它就可能学到某种统计意义上的“个体倾向”。

这让我意识到:

聊天记录不是简单的文字集合,它可能是一种压缩过的行为轨迹。


六、原来的方案为什么不理想

在实验早期,我曾经设想过另一种数字人架构。

我当时的想法是:

  • 云端大模型负责“怎么想”;

  • 本地微调模型负责“怎么说”。

也就是说,我先把自己的人格画像整理成一段提示词,让云端大模型根据这个画像进行行为判断,然后再把结果交给本地微调模型,让它用我的语言风格表达出来。

但实际效果并不理想。

主要原因有两个。

第一,人格画像很难完整描述一个真实的人。

一个人面对不同对象、不同场景、不同风险等级时,反应方式可能完全不同。用一段提示词去概括这种复杂性,本身就很粗糙。

第二,我的数据集一开始并没有专门区分“行为决策”和“语言表达”。

模型看到的是完整对话,而不是被精细标注过的行为层、情绪层、关系层和表达层。因此,强行让两个模型分工,反而会出现协作不稳定的问题。

后来我逐渐意识到,也许应该反过来:

让微调后的小模型先输出个体倾向,再让更强的大模型负责最终表达和安全控制。


七、我现在更倾向的新方案

现在我更倾向于把数字人拆成两层:

第一层是“个体倾向层”。

它负责判断:

  • 这个问题属于什么场景;

  • 提问者和我的关系是什么;

  • 我大概率会采取什么立场;

  • 我的情绪强度可能是多少;

  • 我会直接回答、反问、吐槽,还是回避;

  • 这个回复应该随意、严肃、克制,还是带有攻击性。

第二层是“语言生成层”。

它负责把上面的倾向组织成自然、清晰、合适的回复。

简单来说:

小模型负责“像我一样判断”,大模型负责“把这种判断说得更好”。

这样的好处是,个体特征和语言质量可以分开处理。

小模型保留个人化倾向,大模型提供更强的表达能力、上下文理解能力和安全约束能力。

这可能比单纯让一个模型直接生成最终回复更稳定。


八、目前这个实验的问题

虽然这次实验结果很有意思,但它的问题也很明显。

首先,数据来源太单一。

这次数据主要来自我和关系较好的朋友之间的聊天记录。因此,模型学到的“我”,更像是我在熟人关系、朋友关系、轻松语境中的表达方式。

但现实中的我并不只有这一种状态。

面对老师、同事、陌生人、家人、合作对象、面试官,我的表达方式都会发生变化。

这意味着,目前这个数字人其实不是完整的我,而是某个关系场景下的我。

其次,评价方式还不够客观。

100 问测试虽然能提供初步感受,但由我本人判断“像不像我”,这显然有主观偏差。

后续如果要更严谨,至少需要:

  • 更大规模的问题集;

  • 按问题类型分类;

  • 多人共同评价;

  • 引入对照模型;

  • 区分语言风格一致性和行为判断一致性;

  • 设计更稳定的评分标准。

第三,模型仍然存在幻觉。

它有时会编造一些不存在的细节,或者在不确定时给出过于确定的回答。这说明它仍然不是一个真正可靠的“人格副本”,而只是一个基于已有数据进行近似模拟的语言模型。


九、如果后续继续做,我想怎么扩展

如果把这个项目继续做下去,我觉得可以从几个方向扩展。

第一,加入更多人的数据。

只用我一个人的数据,很难说明这种方法是否具有普遍性。后续可以让更多人用相同流程构建自己的数字人,再比较不同个体之间的微调效果。

第二,进行场景分类。

比如把问题分成:

  • 日常闲聊;

  • 情绪安慰;

  • 观点表达;

  • 冲突处理;

  • 学习建议;

  • 技术讨论;

  • 亲密关系;

  • 陌生人交流;

  • 高风险决策。

不同场景下,一个人的表达方式和行为倾向可能完全不同。

第三,扩大测试问题数量。

100 个问题只能算初步测试。后续可以扩展到 500 个、1000 个,甚至构建一个专门用于个体数字人评估的问题集。

第四,区分“语言像”和“行为像”。

有些回复可能语气很像本人,但判断并不像;有些回复可能判断方向对了,但说话风格不像。

这两个指标应该分开评估。

第五,加入关系标签。

同一句话,如果是朋友问、老师问、陌生人问、家人问,真实个体的回答可能完全不同。

所以数字人不能只知道“问题是什么”,还要知道“是谁在问”。


十、我对这个实验的理解

这次实验并不能证明“一个人可以被聊天记录完整复刻”。

我也不认为现在这个模型就是另一个真正的我。

更准确地说,它是一个在有限数据、有限场景和有限关系网络中,对我表达方式与部分行为倾向的近似模拟。

但这件事本身已经很值得思考。

因为它说明,长期聊天记录中确实可能包含大量关于个体的稳定特征。一个人如何表达、如何判断、如何回应关系、如何处理情绪,都可能在日常对话中留下痕迹。

当这些痕迹被大模型学习后,它就可能生成一种“看起来很像这个人”的回应。

这也是数字人真正值得研究的地方。

未来的数字人,也许不只是有一个相似的声音或外貌,而是能够在不同关系、不同语境、不同风险等级下,表现出接近原始个体的表达和判断模式。

但与此同时,它也带来了非常复杂的问题:

  • 一个人的聊天记录能不能代表这个人?

  • 数字人生成的回答应该由谁负责?

  • 如果模型模拟了某个人的表达方式,它是否侵犯了对方的身份边界?

  • 当数字人越来越像真实个体时,我们应该如何区分“模拟”和“本人”?

这些问题暂时没有简单答案。

但至少通过这次实验,我更确定了一点:

数字人真正困难的地方,不是让它说话,而是让它在具体关系和具体场景中,以接近某个真实个体的方式做出回应。

这件事,比我一开始想象的要复杂,也比我一开始想象的更有意思。


声明

本项目仅作为个人技术实验与研究记录,不公开原始聊天记录、完整训练数据和可识别个人身份的对话内容。文中涉及的数据规模、训练过程和测试结果均经过概括处理。所有可能涉及他人隐私的信息均在公开前进行脱敏、改写或删除。

这个项目的目的不是复刻、冒充或替代任何真实个体,而是探索大语言模型在个体表达风格迁移、行为倾向模拟和数字人构建中的可能性与边界。

 


文章来源:https://www.cnblogs.com/kukusuyi/p/20166103
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:jacktools123@163.com进行投诉反馈,一经查实,立即删除!

标签:

相关文章

本站推荐

标签云