用 10 万条微信聊天记录和 280 篇博客文章,我克隆了一个数字版自己

💡 原文中文,约4500字,阅读约需11分钟。
📝

内容提要

作者使用微信聊天记录和博客数据集训练聊天模型,融合训练出新模型。足够多数据可让人工智能模型接近人脑。网页重新部署并加入 serverless 做保护,任何人都可试用。产出更多数据可获得更接近数字拷贝。

🎯

关键要点

  • 作者通过微信聊天记录和博客数据集训练聊天模型,融合训练出新模型。
  • 足够多的数据可以让人工智能模型接近人脑,形成数字拷贝。
  • 使用开源工具WechatExporter备份微信聊天记录,数据清洗后形成聊天数据集。
  • 选择chatglm-6b作为预训练模型,进行模型训练,但初始效果不佳。
  • 通过ChatGPT将博客文章转换为问答形式,增加对话数据集。
  • 融合微信聊天记录和博客问答数据训练新模型,找到最佳权重比例。
  • 最终模型虽然不如ChatGPT智能,但更接近个体特征。
  • 重新部署网页并加入serverless保护,供他人试用数字克隆。
  • 未来更多数据积累可能获得更接近个人的数字拷贝,存在道德和伦理问题。
➡️

继续阅读