小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
为AI训练数据创建不可篡改的‘家谱’

公司在AI训练中数据来源不透明,导致法律和伦理问题。MIT研究指出,企业难以追踪数据来源。区块链技术被提议作为解决方案,以确保数据的真实性和合规性。

为AI训练数据创建不可篡改的‘家谱’

The New Stack
The New Stack · 2025-08-28T19:00:01Z
🥔 Reputato:并非每家公司都是金子,我们揭示那些真实的公司。

该项目开发了一款OSINT风格的AI代理,收集公司公共信息并评估其声誉。该工具从LinkedIn、Glassdoor、Crunchbase等多个来源获取数据,生成简短总结和评分,帮助用户了解公司真实情况。

🥔 Reputato:并非每家公司都是金子,我们揭示那些真实的公司。

DEV Community
DEV Community · 2025-05-16T13:43:46Z

数据是数据专业人士的生命线,数据的质量和来源直接影响工作效果。文章探讨了多种数据来源,包括公共开放数据、政府数据、研究社区数据、国际组织数据、API和合成数据。获取高质量数据对数据处理至关重要,确保数据的有效性和适用性是成功的关键。

我们从哪里获取数据?数据来源的探索(附示例)

KDnuggets
KDnuggets · 2025-03-24T16:00:34Z

本研究探讨机器智能的结构比喻,分析数据来源、算法设计、训练与评估,揭示技术与社会影响的互动,指出参与障碍,并提出可行建议,以增强AI从业者的参与感与意识。

The Cake of Intelligence and Its Bakers: An Analogy of Artificial Intelligence and Its Impact on Participation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-05T00:00:00Z

搜索功能已向所有Plus及以上用户开放,测试显示GPT可以直接访问网站并引用内容,但对最新文章的检索存在延迟。用户反馈搜索结果不明确,且GPT未说明数据来源,尽管其处理日常搜索仍有效。

浅浅的试玩一下ChatGPT-4o的网络搜索

晓空blog
晓空blog · 2024-11-04T08:22:18Z
简化AI模型响应的验证过程

MIT研究人员开发了SymGen系统,帮助快速验证大型语言模型(LLM)的响应。SymGen通过生成带有引用的响应,用户可以查看数据来源,验证时间缩短约20%。目前支持表格数据,未来计划扩展至法律文件和临床总结等其他数据形式。

简化AI模型响应的验证过程

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2024-10-21T15:40:00Z

该研究评估了社交媒体上抑郁症检测的挑战,揭示了机器学习模型的不足,如样本不具代表性和语言细微差别处理不足。建议丰富数据来源、标准化流程和提高透明度,以改进模型。

系统评估:社交媒体上机器学习与深度学习的文本处理算法在心理健康检测中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z
播客:Justin Sheehy谈人工智能炒作时代的负责任开发者

在InfoQ Dev Summit Boston上,Akamai的Justin Sheehy发表了一场关于在人工智能炒作时代成为负责任开发者的开场演讲。他提醒开发者们要认识到自己的力量和责任,并不要被人工智能的炒作所迷惑。他强调了人工智能的定义和当前的炒作现象,并提出了一些关于使用人工智能的建议,包括避免夸大其能力、注意数据的来源和潜在的偏见,以及确保所构建的系统对人类有益、诚实和无害。他呼吁开发者们在决策中考虑到人们的利益、保持诚实和最小化伤害,以实现负责任的开发。

播客:Justin Sheehy谈人工智能炒作时代的负责任开发者

InfoQ
InfoQ · 2024-07-09T12:15:00Z
生成式AI幕后的透明性

两项最新研究揭示了AI基础模型的透明度问题,公司对训练数据和来源的透明度降低,引发了对AI透明度的关注。研究人员评估了十个顶级基础模型的透明度,结果显示整个行业在公众审查方面仍有困难。2024年的指数显示了一些改善,但仍存在一些不透明的问题,特别是数据来源、隐私和缓解措施方面。推动AI透明度是必要的,以确保符合道德标准,减少潜在的伤害。

生成式AI幕后的透明性

The New Stack
The New Stack · 2024-07-05T12:40:35Z
Amazon DataZone 现引入端到端数据沿袭(预览版)可视化功能

Amazon DataZone推出数据沿袭功能,帮助用户了解数据来源、转换方式和使用情况,提高数据信任。用户可编程设置数据沿袭,跟踪数据移动旅程,节省时间。数据资产关联可通过可视化显示,做出明智决策。数据沿袭功能适用于Amazon DataZone所有区域,费用取决于存储使用量和API请求。

Amazon DataZone 现引入端到端数据沿袭(预览版)可视化功能

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2024-07-01T06:18:38Z
Amazon Bedrock 代理:推出简化的创建和配置体验

Amazon Bedrock代理现在提供了生成式人工智能(generative AI)跨多个系统和数据来源运行任务的新功能。用户可以使用新的简化控制台创建代理,并在操作组中定义代理与外部系统交互的方式。用户还可以选择将控制权交回给调用代理的应用程序,以便直接与AWS外部系统集成。用户还可以使用AWS CloudFormation部署和管理代理,确保应用程序在不同环境中的一致性和可重复性。

Amazon Bedrock 代理:推出简化的创建和配置体验

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2024-05-06T03:52:32Z
IBM与TechD合作,通过生成AI安全共享数据并提供洞察力

TechD认为生成AI的质量取决于准确的数据来源。IBM合作伙伴关系提供可扩展的解决方案,包括IBM Db2、IBM watsonx助手和NeuralSeek。这些工具协同工作,提供全面的数据管理、可访问性和安全性解决方案。这些技术使组织能够开发强大智能的对话界面,有效理解、推理和回应用户查询。

IBM与TechD合作,通过生成AI安全共享数据并提供洞察力

IBM Blog
IBM Blog · 2024-04-16T18:07:56Z

该论文研究了临床医师对LLMs的信任和数据来源从人生成为AI生成内容的演变关系,以及LLMs对临床医师能力和准确性的影响。研究发现,LLMs对学习的依赖可能导致输出质量下降和临床医师技能减弱。此外,LLMs自我参考学习循环和医疗保健专业人员能力下降的潜在风险也被探讨。研究指出,LLMs在回音室内运行的风险可能固化偏见并降低其效力,同时对LLMs的依赖可能导致医疗保健提供者的诊断和思考能力下降。因此,需要积极对话和战略措施以确保LLM技术的安全有效使用。

面向 LLMs 的临床能力自动评估:度量标准、数据和算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-25T00:00:00Z
Otter将AI机器人融入群聊

Otter推出了新的AI功能,名为“AI Chat in Channels”,允许团队向聊天机器人提问过去会议的内容。此外,Otter还扩展了AI聊天机器人的数据来源范围,并添加了AI会议摘要功能,旨在提高团队的工作效率。

Otter将AI机器人融入群聊

The Verge
The Verge · 2024-02-13T15:06:50Z
逐步指南:如何阅读和理解SQL查询

本文介绍了处理SQL查询的方法,包括了解查询结构、最终结果、条件子句和数据来源等。通过逆序阅读和重复阅读查询,可以更好地理解和分析查询。阅读和理解SQL查询是现代时代每个人都应该具备的技能。

逐步指南:如何阅读和理解SQL查询

KDnuggets
KDnuggets · 2024-01-30T15:00:42Z

监控和告警对于服务的可用性和性能至关重要。监控数据来源包括云服务提供商、监控平台和平台提供的格式化数据。监控数据类型包括硬件指标、服务指标和日志数据。通过监控数据可以进行故障检测和预防、性能优化、容量规划和用户体验改进。制定有效的告警策略和规则,设置合理的阈值,考虑上下文和相关性,确定告警通知和接收人,并自动化处理流程。可视化和报表可以帮助理解系统状态和趋势。事故处理流程包括优先级和等级,故障处理和故障分析需要快速定位问题、团队协作、故障恢复和缓解以及编写故障分析报告。持续改进包括定期评估和更新监控策略、故障回顾和知识分享、自动化和智能化以及建立监控文化。常用监控告警工具包括Datadog、Promethus、Grafana等。

运维眼中的监控和告警以及事故管理

dotNET跨平台
dotNET跨平台 · 2023-12-30T00:01:29Z

本文介绍了大语言模型训练数据的来源和处理方法,包括网络数据、图书、论文、百科和社交媒体等。数据处理方法包括低质过滤、冗余去除、隐私消除和词元切分,可提高训练效果和泛化能力。

大语言模型训练数据常见的4种处理方法

华为云官方博客
华为云官方博客 · 2023-12-19T09:13:04Z
幽默:谷歌用户体验大概是世界上最差的

谷歌认为强密码需要更复杂,人工智能调优比关键词调优更难。LLM调优需要解决多个难点,每个LLM都需要调整。解决方案需要多个针对特定问题的LLM和来自未知来源的数据进行训练。

幽默:谷歌用户体验大概是世界上最差的

极道
极道 · 2023-11-01T01:01:00Z

WASA是一种基于水印技术的框架,可以解决大语言模型侵权问题并实现数据来源归属和溯源。经实证评估,WASA框架有效。

WASA:大规模语言模型生成数据的基于水印的来源追溯

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-01T00:00:00Z
How Are Incomes Adjusted for Inflation?

本文介绍了根据通货膨胀调整收入的方法,包括使用单一商品价格变化或消费价格指数(CPI)进行调整。还介绍了国内生产总值平减指数(GDP deflator)的使用。同时提到了数据的开放许可和引用数据来源。

How Are Incomes Adjusted for Inflation?

DemoChen's Clip
DemoChen's Clip · 2023-08-04T10:47:34Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码