小红花·文摘 - 小红花技术领袖俱乐部

为AI训练数据创建不可篡改的‘家谱’

为AI训练数据创建不可篡改的‘家谱’

The New Stack ·

🥔 Reputato：并非每家公司都是金子，我们揭示那些真实的公司。

🥔 Reputato：并非每家公司都是金子，我们揭示那些真实的公司。

DEV Community ·

数据是数据专业人士的生命线，数据的质量和来源直接影响工作效果。文章探讨了多种数据来源，包括公共开放数据、政府数据、研究社区数据、国际组织数据、API和合成数据。获取高质量数据对数据处理至关重要，确保数据的有效性和适用性是成功的关键。

我们从哪里获取数据？数据来源的探索（附示例）

KDnuggets ·

本研究探讨机器智能的结构比喻，分析数据来源、算法设计、训练与评估，揭示技术与社会影响的互动，指出参与障碍，并提出可行建议，以增强AI从业者的参与感与意识。

The Cake of Intelligence and Its Bakers: An Analogy of Artificial Intelligence and Its Impact on Participation

BriefGPT - AI 论文速递 ·

搜索功能已向所有Plus及以上用户开放，测试显示GPT可以直接访问网站并引用内容，但对最新文章的检索存在延迟。用户反馈搜索结果不明确，且GPT未说明数据来源，尽管其处理日常搜索仍有效。

浅浅的试玩一下ChatGPT-4o的网络搜索

晓空blog ·

简化AI模型响应的验证过程

简化AI模型响应的验证过程

MIT News - Artificial intelligence ·

该研究评估了社交媒体上抑郁症检测的挑战，揭示了机器学习模型的不足，如样本不具代表性和语言细微差别处理不足。建议丰富数据来源、标准化流程和提高透明度，以改进模型。

系统评估：社交媒体上机器学习与深度学习的文本处理算法在心理健康检测中的应用

BriefGPT - AI 论文速递 ·

播客：Justin Sheehy谈人工智能炒作时代的负责任开发者

InfoQ ·

生成式AI幕后的透明性

生成式AI幕后的透明性

The New Stack ·

Amazon DataZone 现引入端到端数据沿袭（预览版）可视化功能

Amazon DataZone 现引入端到端数据沿袭（预览版）可视化功能

亚马逊AWS官方博客 ·

Amazon Bedrock 代理：推出简化的创建和配置体验

Amazon Bedrock 代理：推出简化的创建和配置体验

亚马逊AWS官方博客 ·

IBM与TechD合作，通过生成AI安全共享数据并提供洞察力

IBM与TechD合作，通过生成AI安全共享数据并提供洞察力

IBM Blog ·

Otter将AI机器人融入群聊

Otter将AI机器人融入群聊

The Verge ·

逐步指南：如何阅读和理解SQL查询

逐步指南：如何阅读和理解SQL查询

KDnuggets ·

监控和告警对于服务的可用性和性能至关重要。监控数据来源包括云服务提供商、监控平台和平台提供的格式化数据。监控数据类型包括硬件指标、服务指标和日志数据。通过监控数据可以进行故障检测和预防、性能优化、容量规划和用户体验改进。制定有效的告警策略和规则，设置合理的阈值，考虑上下文和相关性，确定告警通知和接收人，并自动化处理流程。可视化和报表可以帮助理解系统状态和趋势。事故处理流程包括优先级和等级，故障处理和故障分析需要快速定位问题、团队协作、故障恢复和缓解以及编写故障分析报告。持续改进包括定期评估和更新监控策略、故障回顾和知识分享、自动化和智能化以及建立监控文化。常用监控告警工具包括Datadog、Promethus、Grafana等。

运维眼中的监控和告警以及事故管理

dotNET跨平台 ·

本文介绍了大语言模型训练数据的来源和处理方法，包括网络数据、图书、论文、百科和社交媒体等。数据处理方法包括低质过滤、冗余去除、隐私消除和词元切分，可提高训练效果和泛化能力。

大语言模型训练数据常见的4种处理方法

华为云官方博客 ·

幽默：谷歌用户体验大概是世界上最差的

幽默：谷歌用户体验大概是世界上最差的

极道 ·

WASA是一种基于水印技术的框架，可以解决大语言模型侵权问题并实现数据来源归属和溯源。经实证评估，WASA框架有效。

WASA：大规模语言模型生成数据的基于水印的来源追溯

BriefGPT - AI 论文速递 ·

How Are Incomes Adjusted for Inflation?

DemoChen's Clip ·

Google离开豆瓣，转而使用NeoDB，无审查，数据来源更丰富，代码和roadmap都开源，社区友好，无痛迁移。使用NeoDB不需要使用mastodon，可以直接从豆瓣导入数据。

离开豆瓣，使用 NeoDB

laike9m ·