LLM | 标签 | OldWang TechTalk

#LLM

🗒️CrewAI Evaluation 学习笔记：我如何评价 Agent 是否可靠

我从 CrewAI Evaluation 出发梳理 Agent 评测：可运行不等于可靠，评测要覆盖任务完成度、过程质量、稳定性和成本。

LLM

agent

工具

🗒️Talky 学习笔记：一个大模型数据生成工具的想法

我把 Talky 理解成一个大模型数据生产工作台：用多 Agent 生成对话，再完成验证、可视化和训练数据导出。

🗒️Agent is All You Need：我的 Agent 生态学习笔记

我把 Agent 生态按能力拆解：规划、工具调用、记忆、协作、评测和权限控制，比单纯罗列框架更重要。

LLM

agent

工具

🗒️医学大模型数据汇总：我的学习笔记

我从医学大模型数据出发，整理真实医患对话、医学文献、结构化知识和通用指令数据的价值与风险。

LLM

训练

DATA

🗒️大模型数据生成学习笔记：从 Self-Instruct 到多 Agent 数据流水线

我从学习者角度梳理大模型数据生成方法：Self-Instruct、CAMEL、ShareGPT、Baize 和 Data-Copilot 的共同问题是如何让数据可控、可验证、可复用。

LLM

DATA

训练

大模型数据生成学习笔记：从 Self-Instruct 到多 Agent 数据流水线

🗒️DataSet Collection：我的大模型数据集整理方法

我把数据集整理看成训练工程的一部分：要记录任务类型、数据来源、许可证、偏差风险和适用边界。

LLM

DATA

训练

🗒️多任务训练如何加强 zero-shot 泛化：我的学习笔记

我从多任务提示训练理解 zero-shot 泛化：任务多样性和提示多样性会影响模型迁移到未见任务的能力。

LLM

训练

DATA

Agent Memory 学习笔记：我如何理解智能体长期记忆

我把 Agent Memory 理解成智能体从一次性助手走向长期协作者的基础能力，关键在于写入、检索、更新和遗忘机制。

LLM

agent

工具

🤖长周期运行智能体（Long-Horizon Agents）深度研究报告

深度研究报告：涵盖长周期智能体的上下文管理创新（Context-Folding、MemAct）、工业架构演进（DeerFlow、Anthropic接力架构、Cognition反思）、持久化记忆框架（Zep、Mem0）以及评估体系重构（SWE-Bench Pro、Harvey LAB）。

LLM

agent

🔬Autoresearch（uditgoenka）深度分析：一个被过度包装的好点子

客观分析 uditgoenka/autoresearch 项目：它是什么、能做什么、真正的局限在哪里，以及与 Karpathy 原版的本质差距。

LLM

agent

工具

Autoresearch（uditgoenka）深度分析：一个被过度包装的好点子

🗒️ARIS vs AutoResearchClaw：两种自主科研工作流的对比

对比 ARIS 与 AutoResearchClaw 两个自主 ML 科研工作流框架的设计哲学、架构和适用场景。

LLM

agent

工具

🦸Superpowers：给 AI Coding Agent 的结构化开发方法论

Superpowers 是一套开源的 AI coding agent 工作流插件，通过 14 个技能模块硬性约束 AI 的开发流程，防止跳步骤和自作主张，让 Claude Code、Cursor、Copilot 等工具变得更可控、更有纪律。

1 2 3

老王TechTalk

Do not go gentle into that good night, rage, rage!