用 10 万条微信聊天记录和 280 篇博客文章,我克隆了一个数字版自己
💡
原文中文,约4500字,阅读约需11分钟。
📝
内容提要
作者使用微信聊天记录和博客数据集训练聊天模型,融合训练出新模型。足够多数据可让人工智能模型接近人脑。网页重新部署并加入 serverless 做保护,任何人都可试用。产出更多数据可获得更接近数字拷贝。
🎯
关键要点
- 作者通过微信聊天记录和博客数据集训练聊天模型,融合训练出新模型。
- 足够多的数据可以让人工智能模型接近人脑,形成数字拷贝。
- 使用开源工具WechatExporter备份微信聊天记录,数据清洗后形成聊天数据集。
- 选择chatglm-6b作为预训练模型,进行模型训练,但初始效果不佳。
- 通过ChatGPT将博客文章转换为问答形式,增加对话数据集。
- 融合微信聊天记录和博客问答数据训练新模型,找到最佳权重比例。
- 最终模型虽然不如ChatGPT智能,但更接近个体特征。
- 重新部署网页并加入serverless保护,供他人试用数字克隆。
- 未来更多数据积累可能获得更接近个人的数字拷贝,存在道德和伦理问题。
➡️