小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

Meet two checkpoint neighbors paired by the alphabet, not the topic: `checkpoint_flush_after` tunes kernel writeback hints, while `checkpoint_warning` logs…

Christophe Pettus: All Your GUCs in a Row: checkpoint_flush_after and checkpoint_warning

Planet PostgreSQL
Planet PostgreSQL · 2026-05-23T01:00:00Z

PostgreSQL's default 5-minute checkpoint interval wastes I/O on modern servers.

Christophe Pettus: All Your GUCs in a Row: checkpoint_timeout and checkpoint_completion_target

Planet PostgreSQL
Planet PostgreSQL · 2026-05-22T01:00:00Z
Microsoft Agent Framework - Workflow 示例 — Checkpoint 与状态恢复

本文介绍了基于猜数字游戏的工作流检查点机制,包含同实例恢复、全新实例重建和人机交互三个示例。通过二分查找,游戏由两个执行者交替进行,展示了在不同场景下的状态保存与恢复。检查点管理器负责序列化状态,支持长流程恢复和调试。

Microsoft Agent Framework - Workflow 示例 — Checkpoint 与状态恢复

dotNET跨平台
dotNET跨平台 · 2026-05-02T00:01:24Z

Meta的LLaMA-3报告显示,405B模型在54天内发生466次中断,主要由于GPU故障。关键在于高效的checkpoint机制,包括异步写入和分布式存储。有效的故障容忍策略如热备节点、健康检查和自动识别慢节点,可以优化恢复时间,提高有效训练时间,从而降低成本,确保训练按期完成。

【大模型基础设施工程】10:Checkpoint 与故障容忍

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
宣布Checkpoint/Restore工作组

Kubernetes成立了Checkpoint/Restore工作组,旨在将检查点/恢复功能集成到Kubernetes中,以优化资源利用、加速应用启动、实现容错、支持负载均衡和安全事件调查。该工作组将促进Kubernetes社区与CRIU生态系统的合作与讨论。

宣布Checkpoint/Restore工作组

Kubernetes Blog
Kubernetes Blog · 2026-01-21T18:00:00Z
nanobot-checkpoint_manager

本文介绍了深度学习训练中检查点管理的核心技巧,包括向后兼容的配置演化、分布式训练状态管理、设备兼容的数据类型处理和内存高效的模型加载。强调了多层次API设计和人类可读的元数据存储,适合深度学习工程化实践。

nanobot-checkpoint_manager

plus studio
plus studio · 2026-01-18T00:00:00Z

本文介绍了通过网络扫描和漏洞利用进行渗透测试的方法,包括使用nmap和masscan工具扫描开放端口、获取服务信息,以及通过TFTP和SSH进行权限提升,强调了网络安全的重要性及法律责任。

[Meachines] [Hard] Joker TFTP+squid+ln+checkpoint-action

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-10-15T15:40:43Z

Flink中的状态用于记录中间计算结果,分为Operator State和Keyed State。状态存储通过StateBackend实现,支持内存、HDFS和RocksDB。通过checkpoint机制定期保存状态,以实现应用重启后的数据恢复,状态持久化使用Chandy-Lamport算法确保数据精确传递。

Flink State 状态原理解析

京东科技开发者
京东科技开发者 · 2024-12-25T01:39:20Z

PaddleNLP推出Unified Checkpoint技术,通过灵活的分布式策略切换和优化Checkpoint存储,显著提升训练效率和存储速度,节省空间,改善训练体验。

飞桨大模型Unified Checkpoint技术加速模型存储95%,节省空间78.5%

百度大脑
百度大脑 · 2024-12-13T13:35:27Z
带时间戳的 Git yolo 提交 (#代码片段)

凯尔·谢夫林在工作中相信详细的原子提交,但在副业项目中用单个提交更改整个项目。为了改善副业提交的混乱,他添加了一个名为checkpoint的make命令。另一个解决方案是一个自定义Git命令,称为git-yolo,它通过yolo提交将进度添加到版本控制中。Git历史记录将包括“yolo检查点”。

带时间戳的 Git yolo 提交 (#代码片段)

Stefan Judis Web Development
Stefan Judis Web Development · 2024-03-29T23:00:00Z

Checkpoint文件是保存深度学习模型状态的常用文件格式,包含模型参数、优化器状态和训练状态等信息。它在TensorFlow和PyTorch等框架中使用,需要重建模型架构和加载权重和状态。Checkpoint文件具有灵活性和可恢复性,但需要注意兼容性和存储空间。它在机器学习和深度学习中起到重要作用,确保训练连续性和模型可迁移性。

Checkpoint文件格式 - 蝈蝈俊

蝈蝈俊
蝈蝈俊 · 2023-11-18T23:36:00Z
【Flink】【更新中】状态后端和checkpoint

本文介绍了状态后端和checkpoint的配置和常见报错。状态后端是保存到本地的状态,checkpoint是将状态备份到第三方存储。建议配置state.backend为rocksdb,不开启state.backend.latency-track.keyed-state-enabled。常用的checkpoint配置有execution.checkpointing.interval、execution.checkpointing.mode、state.backend.incremental等。常见报错包括未完成的Checkpoint排队超过限制和部分任务未运行导致无法恢复checkpoint。

【Flink】【更新中】状态后端和checkpoint

小令童鞋
小令童鞋 · 2023-09-17T13:04:30Z
Flink Checkpoint/Savepoint对比

Flink提供了Checkpoint和Savepoint两种机制来保证作业的容错性。Savepoint是一种特殊的Checkpoint,用于手动触发并持久化存储结果,主要用于避免状态丢失。Checkpoint是由Flink runtime定时触发并自动清理的,而Savepoint的触发和清理由用户掌控。由于Checkpoint的频率较高,Flink对其格式进行了优化,但耦合性较强。Savepoint是全量的,不支持增量。Savepoint更关注可移植性和版本兼容性。

Flink Checkpoint/Savepoint对比

小令童鞋
小令童鞋 · 2023-09-10T03:26:22Z
Flink状态后端和CheckPoint 调优

RocksDB是一种嵌入式的Key-Value数据库,用作Flink中的RocksDBStateBackend的底层存储。它通过多层组织持久化数据,并通过异步Compaction合并重复、过期和已删除的数据。在写入过程中,数据会经过序列化后写入到WriteBuffer,再从内存flush到磁盘上。在读取过程中,会先尝试从WriteBuffer和Immutable Memtable中读取数据,如果没有找到,则会查询Block Cache和底层的SST文件。RocksDBKeyedStateBackend增量快照将差异上传到分布式文件系统,并通过SharedStateRegistry进行状态的注册和过期。RocksDB的性能调优方法包括开启性能监控、增量CheckPoint和本地恢复、设置多目录、调整RocksDB选项、增大block缓存、调整write buffer和level阈值、增大write buffer数量和后台线程数、开启分区索引功能。设置Checkpoint时需要考虑时效性和性能之间的平衡。

Flink状态后端和CheckPoint 调优

小令童鞋
小令童鞋 · 2023-07-17T15:14:12Z

阿里巴巴开发工程师俞航翔在 Flink Forward Asia 2022 核心技术专场分享了 Flink 中的 Checkpoint 机制和 Changelog 机制,未来将围绕性能优化、容错过程轻量化和易用化、为 Table Store 提供更高数据新鲜度三个方向进行优化。

基于 Log 的通用增量 Checkpoint

阿里云云栖号
阿里云云栖号 · 2023-06-01T08:46:55Z

PostgreSQL 9.6开始,我们有一些以pg_开头的内置角色,它们是组,不能用于登录数据库,但可以授予用户更多的权限,包括CHECKPOINT命令,pg_database_owner角色,pg_execute_server_program,pg_read_all_settings,pg_read_all_stats,pg_stat_scan_tables,pg_signal_backend和pg_use_reserved_connections等。

Hubert 'depesz' Lubaczewski:系统角色——是什么,为什么,如何?

Planet PostgreSQL
Planet PostgreSQL · 2023-03-14T20:13:42Z

将 Flink 应用部署到 k8s 上时,为了实现任务高可用,我们就需要将 checkpoint、savepoint 以及 Job Manager meta data 等数据持久化存储下来,而不是简单地

Flink on k8s: Checkpoint 的持久化存储

Hang Jiang
Hang Jiang · 2021-08-02T11:30:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码