我用我的微信聊天记录和 280 篇博客文章,做了我自己的数字克隆AI

💡 原文中文,约4400字,阅读约需11分钟。
📝

内容提要

作者通过将自己在网络世界留下的痕迹训练出了一个聊天机器人,并将聊天和文章两个模型进行融合得到更好的效果。作者认为重新训练模型可以得到更靠近个体的模型,数字克隆在线聊天已经部署并加了保护。作者认为积极的产出更多的数据可以获得更接近自己的数字拷贝。

🎯

关键要点

  • 作者通过网络留下的痕迹训练聊天机器人,融合聊天和文章模型以提高效果。
  • 重新训练模型可以得到更接近个体的数字拷贝,数字克隆在线聊天已部署并加了保护。
  • 作者使用微信聊天记录和博客文章作为数据源,进行数据清洗和格式化。
  • 选择chatglm-6b作为预训练模型,进行模型训练和对话生成。
  • 通过将博客文章转换为问答形式,增加了训练数据集的多样性。
  • 最终模型融合效果较好,但仍存在理解多轮对话的不足。
  • 现有文本大模型基于海量数据训练,缺乏个体化特征。
  • 积极产出数据有助于获得更接近个体的数字拷贝,未来可能会有更好的训练方式和模型。
➡️

继续阅读