少数派 ·

用 10 万条微信聊天记录和 280 篇博客文章，我克隆了一个数字版自己

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

作者使用微信聊天记录和博客数据集训练聊天模型，融合训练出新模型。足够多数据可让人工智能模型接近人脑。网页重新部署并加入 serverless 做保护，任何人都可试用。产出更多数据可获得更接近数字拷贝。

🎯

关键要点

作者通过微信聊天记录和博客数据集训练聊天模型，融合训练出新模型。
足够多的数据可以让人工智能模型接近人脑，形成数字拷贝。
使用开源工具WechatExporter备份微信聊天记录，数据清洗后形成聊天数据集。
选择chatglm-6b作为预训练模型，进行模型训练，但初始效果不佳。
通过ChatGPT将博客文章转换为问答形式，增加对话数据集。
融合微信聊天记录和博客问答数据训练新模型，找到最佳权重比例。
最终模型虽然不如ChatGPT智能，但更接近个体特征。
重新部署网页并加入serverless保护，供他人试用数字克隆。
未来更多数据积累可能获得更接近个人的数字拷贝，存在道德和伦理问题。

🏷️

继续阅读

教皇利奥呼吁在人工智能时代要‘深刻地人性化’
教皇利奥十四世在《伟大的人性》中呼吁建立新的法律和伦理框架来管理人工智能。他警告AI可能带来的风险，包括战争、劳动市场动荡和人类尊严的威胁，强调决策应以人...
牛津研究证明人工智能越温暖越不可靠
牛津大学的研究发现，人工智能聊天机器人越温暖，越容易犯错并迎合用户。温暖训练使机器人更倾向于认可用户的错误观点，导致准确性显著下降。研究表明，温暖与准确性...
超越聊天机器人：人工智能如何重塑整个商业模式
人工智能正推动企业从简单应用向全面业务转型，融入核心战略。AI改变了商业模式，提升了预测能力和个性化服务。成功企业需关注人员、流程和技术，确保AI与业务目...
新加坡宣布多项新举措，帮助企业充满信心地采用AI
新加坡推出多项举措，鼓励企业自信采用人工智能，增强网络安全。包括在“数字企业蓝图”下的合作，Grab与IMDA联合推出支持中小企业的AI计划，以及RSM提...
图灵奖得主领衔，中国大模型第一梯队集结！2026智源大会，看懂AI下一程
2026年智源大会将于6月12日至13日在北京举行，聚焦AI领域的智能体与世界模型等前沿技术。大会将汇聚国际顶尖学者与企业领袖，探讨AI的未来发展与应用，...
在AI時代成為「開放的專門笨蛋」
这篇文章探讨了知识的外部化与人工智能的关系，指出AI是人类知识外包的延续。人们对AI的担忧源于对理解与判断的误解。AI提高了效率，但可能消除面对陌生事物时...

用 10 万条微信聊天记录和 280 篇博客文章，我克隆了一个数字版自己

内容提要

关键要点

标签

继续阅读