2 | Page | OldWang TechTalk

🗒️CrewAI Evaluation 学习笔记：我如何评价 Agent 是否可靠

我从 CrewAI Evaluation 出发梳理 Agent 评测：可运行不等于可靠，评测要覆盖任务完成度、过程质量、稳定性和成本。

LLM

agent

工具

🗒️Talky 学习笔记：一个大模型数据生成工具的想法

我把 Talky 理解成一个大模型数据生产工作台：用多 Agent 生成对话，再完成验证、可视化和训练数据导出。

🗒️Agent is All You Need：我的 Agent 生态学习笔记

我把 Agent 生态按能力拆解：规划、工具调用、记忆、协作、评测和权限控制，比单纯罗列框架更重要。

LLM

agent

工具

🗒️医学大模型数据汇总：我的学习笔记

我从医学大模型数据出发，整理真实医患对话、医学文献、结构化知识和通用指令数据的价值与风险。

LLM

训练

DATA

🗒️大模型数据生成学习笔记：从 Self-Instruct 到多 Agent 数据流水线

我从学习者角度梳理大模型数据生成方法：Self-Instruct、CAMEL、ShareGPT、Baize 和 Data-Copilot 的共同问题是如何让数据可控、可验证、可复用。

LLM

DATA

训练

大模型数据生成学习笔记：从 Self-Instruct 到多 Agent 数据流水线

🗒️Deep Auction 学习笔记：当深度学习遇到拍卖机制

我从学习者角度理解 Deep Auction：用神经网络学习拍卖机制时，不能只看收益，还要关注激励相容、约束和 regret。

开发

思考

🗒️DataSet Collection：我的大模型数据集整理方法

我把数据集整理看成训练工程的一部分：要记录任务类型、数据来源、许可证、偏差风险和适用边界。

LLM

DATA

训练

🗒️多任务训练如何加强 zero-shot 泛化：我的学习笔记

我从多任务提示训练理解 zero-shot 泛化：任务多样性和提示多样性会影响模型迁移到未见任务的能力。

LLM

训练

DATA

🗒️LLM-白泽🐲

用chatgpt生成多轮完整对话数据，而不是QA对，从而有更好的效果。同时使用chatgpt做了一个对齐方式代替人类的对齐方式（SDF，Self-Distillation with Feedback）

chatgpt

训练

PEFT

Agent Memory 学习笔记：我如何理解智能体长期记忆

我把 Agent Memory 理解成智能体从一次性助手走向长期协作者的基础能力，关键在于写入、检索、更新和遗忘机制。

LLM

agent

工具

📈Daily Stock Analysis：从数据抓取到 Agent 决策的完整使用指南

这篇文章系统梳理 Daily Stock Analysis 的核心功能、部署方式、普通分析与 Agent 模式的实现差异，并用一只股票示例说明不同模式下报告会长什么样。

Python

agent

工具

🤖长周期运行智能体（Long-Horizon Agents）深度研究报告

深度研究报告：涵盖长周期智能体的上下文管理创新（Context-Folding、MemAct）、工业架构演进（DeerFlow、Anthropic接力架构、Cognition反思）、持久化记忆框架（Zep、Mem0）以及评估体系重构（SWE-Bench Pro、Harvey LAB）。

LLM

agent

1 2 3

老王TechTalk

Do not go gentle into that good night, rage, rage!