小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
如何构建专属语言的大语言模型 [完整手册]

本文介绍了如何从零开始构建乌尔都语的大语言模型(LLM),涵盖数据准备、标记化、预训练、监督微调和部署等步骤。重点在于通过实践理解LLM的工作原理,最终目标是创建一个可用的乌尔都语聊天机器人,并提供技术栈和代码示例。尽管模型较小,数据集有限,但每个步骤展示了构建LLM的基本概念。

如何构建专属语言的大语言模型 [完整手册]

freeCodeCamp.org
freeCodeCamp.org · 2026-04-24T20:59:02Z
宣布Lakeflow Designer的公开预览

Lakeflow Designer是Databricks推出的无代码数据准备工具,旨在降低数据处理的技术门槛。用户可以通过可视化界面和自然语言进行数据准备,并生成生产级Python代码。该工具集成AI功能,支持实时数据处理和迭代,促进业务团队的自主数据分析,提升数据治理和一致性。无用户许可费用的模式加速了其在各行业的采用。

宣布Lakeflow Designer的公开预览

Databricks
Databricks · 2026-04-23T10:26:45Z
构建代码知识助手

Databricks知识助手通过不同的代码分块策略提升开发者对代码的理解。研究表明,基于AST的分块方法在回答复杂问题时表现最佳,尤其是在处理相似代码时。尽管所有策略的检索有效性高,但AST方法在正确性上明显优于其他方法。数据准备对知识助手的性能至关重要。

构建代码知识助手

Databricks
Databricks · 2026-03-23T18:15:00Z
.NET 8 + WPF 写的 YOLO 标注神器:ONNX 推理 + GPU 加速,标注效率翻倍

这是一款高效的AI图片标注工具,专为YOLO目标检测模型设计,提升数据准备的效率与准确性。支持YOLO格式标注、AI自动推理和批量管理,适合个人研究和小型团队,简化传统标注流程。

.NET 8 + WPF 写的 YOLO 标注神器:ONNX 推理 + GPU 加速,标注效率翻倍

dotNET跨平台
dotNET跨平台 · 2026-03-01T00:01:28Z
C# 轻量、易用、可本地部署的 OCR 标注工具

本文介绍了一款基于百度飞桨的PaddleOCR引擎的半自动图像标注工具,旨在提高OCR数据准备效率。该工具由C#前端和Python后端组成,支持矩形框和四点标注,能够自动识别文字并保存标注结果,适合OCR模型训练,显著提升标注效率。

C# 轻量、易用、可本地部署的 OCR 标注工具

dotNET跨平台
dotNET跨平台 · 2026-02-04T23:46:07Z

在人工智能迅速发展的背景下,构建机器学习应用已形成系统化流程。文章梳理了数据准备、模型训练和服务部署的完整生命周期,强调数据质量、模型评估和持续迭代的重要性,以助力开发者高效推进AI项目。

AI模型从数据到服务的全流程详解

dotNET跨平台
dotNET跨平台 · 2026-01-27T04:42:38Z
Avalonia跨平台入门第七十八篇之GIS建筑伪3D效果

本文介绍了GIS建筑伪3D效果的实现过程,包括数据准备、矢量数据导入、坐标系选择和WMS建筑服务加载。作者希望探索更复杂的效果,并鼓励读者留言交流。

Avalonia跨平台入门第七十八篇之GIS建筑伪3D效果

dotNET跨平台
dotNET跨平台 · 2025-12-24T00:01:41Z
Elastic与Alteryx:为企业代理提供可信赖的、可搜索的数据支持

Elastic与Alteryx合作,通过整合Alteryx的数据准备平台与Elasticsearch的向量数据库,帮助企业构建可靠的AI解决方案,提高决策效率和数据质量。

Elastic与Alteryx:为企业代理提供可信赖的、可搜索的数据支持

Elastic Blog - Elasticsearch, Kibana, and ELK Stack
Elastic Blog - Elasticsearch, Kibana, and ELK Stack · 2025-12-16T08:00:00Z
DataFlow - 一个用于特定领域训练的数据准备和管道平台

DataFlow是一个数据准备和管道系统,旨在提升特定领域的训练和检索增强生成(RAG)。它通过模块化操作符组合成可重用的管道,处理来自PDF、文本等噪声源的数据,生成高质量数据集,适用于医疗、金融和法律等领域的数据清理和标注。该项目主要用Python实现,支持Docker和GPU加速。

DataFlow - 一个用于特定领域训练的数据准备和管道平台

云原生
云原生 · 2025-12-12T09:48:05Z
李超:理解哈希连接的执行计划

哈希连接是PostgreSQL等关系数据库常用的连接方法,通过构建哈希表并用较大输入进行匹配,适合处理大规模无序数据。文章通过示例解释了哈希连接的原理,包括数据准备、查询和连接类型的理解。PostgreSQL根据表的大小选择内外表,可能导致计划中显示右连接。

李超:理解哈希连接的执行计划

Planet PostgreSQL
Planet PostgreSQL · 2025-10-22T08:26:42Z
通过数据清洗、治理和实验使数据为人工智能做好准备

随着组织越来越多地采用人工智能,数据准备变得至关重要。许多AI项目因缺乏干净、受控和丰富上下文的数据而停滞不前,而非模型限制。数据访问和治理是成功AI项目的基础,数据湖和数据联邦能提高实验速度和可扩展性,推动AI的有效应用。

通过数据清洗、治理和实验使数据为人工智能做好准备

The New Stack
The New Stack · 2025-10-19T17:00:01Z
大型语言模型(LLMs)提升机器学习工作流程的五个关键方式

大型语言模型(LLMs)可以显著提升机器学习工作流程,主要体现在五个方面:生成合成数据以降低数据准备成本;提供特征工程建议以优化特征提取;通过代码生成和调试简化实验过程;促进团队间有效沟通以减少误解;自动化研究以跟踪最新进展并推动持续创新。这些应用帮助解决机器学习中的常见挑战。

大型语言模型(LLMs)提升机器学习工作流程的五个关键方式

MachineLearningMastery.com
MachineLearningMastery.com · 2025-08-29T12:56:42Z
7个适合初学者的机器学习项目,周末完成

本文介绍了七个适合初学者的机器学习项目,涵盖预测建模、自然语言处理和计算机视觉等领域,帮助学习数据准备、模型评估和特征工程,提升技能与职业竞争力。

7个适合初学者的机器学习项目,周末完成

KDnuggets
KDnuggets · 2025-08-28T12:00:27Z
7个能将数据准备时间缩短一半的Pandas技巧

本文介绍了七个Pandas技巧,以显著缩短数据准备时间。这些技巧包括使用assign()进行链式转换、用fillna()填充缺失值、用explode()扁平化列表列、用query()进行可读性过滤、用groupby().agg()进行命名聚合、用pd.to_datetime()解析日期,以及用pipe()构建模块化工作流。这些方法能提高数据处理效率,使分析工作更专注。

7个能将数据准备时间缩短一半的Pandas技巧

MachineLearningMastery.com
MachineLearningMastery.com · 2025-07-14T13:45:04Z
文本向量搜索指南

Qdrant Stars的Clelia分享了文本向量搜索的经验,强调数据准备、嵌入和查询优化的重要性,建议使用混合搜索和语义缓存以提高效率,并鼓励持续迭代和探索以优化AI应用。

文本向量搜索指南

Qdrant - Vector Database
Qdrant - Vector Database · 2025-07-08T22:00:00Z
掌握大型语言模型微调:全面指南

大型语言模型(LLMs)在人工智能领域取得了显著进展,但在特定任务上可能表现不佳。通过微调技术,可以将预训练的LLM适应特定数据集,从而提升性能。微调流程包括选择基础模型、数据准备、微调、评估和部署。微调的优势在于领域专业化、任务特定性能、降低延迟和成本,以及提高一致性。成功的关键在于选择合适的基础模型和高质量数据。

掌握大型语言模型微调:全面指南

DEV Community
DEV Community · 2025-05-26T17:27:50Z
数据准备评估:您的数据是否为人工智能成功做好准备?

人工智能的成功依赖于数据的质量和准备。数据准备评估框架帮助组织判断数据是否适合AI应用,关键因素包括数据理解、质量、治理、可访问性、相关性和安全性。通过系统评估和改进数据基础,组织能够更有效地利用AI潜力,降低风险,加快价值实现。

数据准备评估:您的数据是否为人工智能成功做好准备?

DEV Community
DEV Community · 2025-05-04T16:08:34Z

本研究跟踪DeepSeek-R1发布100天后的复现研究,探讨监督微调和基于可验证奖励的强化学习的进展,揭示数据准备和方法设计的重要发现,推动推理语言模型的进一步探索与应用。

A Follow-Up Survey 100 Days After the Release of DeepSeek-R1: Replication Studies and New Directions for Reasoning Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z
AWS SageMaker

AWS SageMaker是一个完全托管的服务,旨在帮助数据科学家和开发者构建、训练和部署机器学习模型。它简化了机器学习的各个环节,包括数据准备、模型构建、训练和部署。主要功能有数据清理、集成开发环境、内置和自定义算法、分布式训练、实时推理,以及自动超参数优化和模型监控,提升模型性能和可解释性。

AWS SageMaker

DEV Community
DEV Community · 2025-04-30T12:08:04Z
弥合差距:对接Tableau的数据准备与Power BI的Power Query

企业在从Tableau转向Power BI时,数据准备工作流的对接是关键挑战。Tableau Prep通过可视化简化数据准备,而Power BI的Power Query则提供更深层次的控制和自动化。通过对比两者功能,企业可以顺利迁移,优化分析流程,实现高效的数据准备转型。

弥合差距:对接Tableau的数据准备与Power BI的Power Query

DEV Community
DEV Community · 2025-04-29T04:02:06Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码