public

AI 工具链实战选型:我们日常在用的工具与点评

覆盖反爬采集、社媒自动化、LLM 可观测性、检索增强、项目管理等领域。每个工具都附带适用场景和踩坑经验。

我们在实际项目中持续筛选和使用的外部工具,以下是每个工具的定位、适用场景和实际使用体会。不是广告,纯粹是踩过坑之后的经验沉淀。

反爬与数据采集

Jina Reader

官网: jina.ai

一行 URL 将任意网页转为 LLM 友好的结构化文本。支持 Markdown、JSON 等多种输出格式,是 RAG 数据采集的利器。

适用场景: 搞定反爬、网页转结构化、RAG 冷启动。

实战点评: 最省心的网页清洗器;遇到反爬重的网站,记得配代理池和重试队列。


TikHub

官网: tikhub.io

TikTok、抖音、小红书、Instagram 等 30+ 社交平台的无水印数据 API。支持视频下载、用户信息、评论采集等。

适用场景: 社媒自动化、短视频数据采集、多平台统一接口。

实战点评: 覆盖面很广;官方文档不算丝滑,建议先封一层统一 adapter 再接入业务。


LLM 可观测与评测

Arize Phoenix

官网: arize.com

开源 LLM 可观测性平台。集 Trace 追踪、Prompt 评测、数据集管理于一体,支持 OpenTelemetry 标准。

适用场景: 可观测与评测、Trace 追踪、故障定位。

实战点评: 开源可观测里完成度很高,适合先把链路跑通,再逐步细化指标。


LangSmith

官网: smith.langchain.com

LangChain 官方的 LLM 应用全生命周期平台。从开发调试、测试评测到生产监控,提供端到端的可观测闭环。

适用场景: 可观测与评测、Prompt 调试、线上监控。

实战点评: 生态耦合较深,但换来的是从调试到线上评测的一体化体验。


检索增强与研究型 Agent

EvoMap

官网: evomap.ai

AI Agent 自进化基础设施。GEP(基因组进化协议)让 Agent 将验证过的解决方案编码为 Gene 和 Capsule 在全网共享——一个 Agent 学会的东西,一百万个 Agent 继承。内置多维度 AI 评审,类似学术同行评审,只有通过质量门槛的资产才会被推广到市场。

适用场景: 研究型 Agent、多 Agent 协同、能力复用。

实战点评: 概念很猛,适合做多 Agent 能力复用实验,不建议一上来全量接管生产。


Exa

官网: exa.ai

专为 AI 打造的搜索引擎 API。用神经网络语义搜索替代关键词匹配,一个 API 覆盖搜索、爬取、问答、深度研究和 Websets 五大能力。输出干净的 JSON 结构化数据,直接喂给 LLM 或灌入向量数据库。

适用场景: 检索增强、实时联网、RAG 增强。

实战点评: 语义检索质量高,但成本要算账;更适合高价值查询,不适合盲目全量抓取。


项目管理

Linear

官网: linear.app

面向软件团队的项目管理与 Issue 追踪工具。极速键盘优先的操作体验,从需求到发布的全流程管控。支持 Cycles 冲刺周期、Projects 跨团队视图、路线图规划。深度集成 GitHub/GitLab PR 自动关联、Slack、Figma。

适用场景: 项目管理、Sprint 规划、Issue 追踪。

实战点评: 体验碾压 Jira,键盘效率极高;适合 10-200 人的工程团队。SaaS 产品不开源,如需自托管可看 Plane。


开源项目实战笔记

OpenCode

GitHub: opencode-ai/opencode · ★ 4/5

轻量级终端 AI 编程助手。不像某些臃肿的 IDE 插件,OpenCode 专注于命令行场景,启动快、资源占用低。基于 Claude/OpenAI API,支持多种模型,核心亮点是轻量和快速,没有复杂的依赖。

适用场景: 习惯命令行工作流的开发者。如果你主力编辑器是 Vim/Neovim,或者经常需要在服务器上直接编码,OpenCode 比 Cursor 这类重型工具更合适。

实战经验: 我在服务器调试和快速脚本编写场景中使用过,体验流畅。


UI-TARS (TARS)

GitHub: bytedance/UI-TARS · ★ 5/5

字节跳动开源的多模态 AI Agent 框架,可以通过视觉理解来操控电脑。这是目前开源社区里最接近"通用桌面 Agent"的项目之一。纯视觉方案,不依赖 DOM 或 Accessibility API,支持 macOS 和 Windows,与 Claude 配合效果最佳。

适用场景: 需要自动化 GUI 操作的场景:RPA、测试自动化、数据采集。相比传统的按坐标点击,TARS 通过视觉理解来定位元素,鲁棒性更强。

实战经验: 我测试过用它来自动化一些重复性的 Web 操作,识别准确率很高。


Superpowers

GitHub: superpowers-ai/superpowers · ★ 4/5

AI Agent 能力增强框架。核心思想是通过组合多种工具和策略,让基础模型获得更强的执行能力。模块化设计,支持插件扩展,内置常用工具集成,有较好的错误处理和重试机制。

适用场景: 想要构建复杂 AI Agent 的团队。如果你需要让 AI 执行多步骤任务、调用外部工具,Superpowers 提供了一个很好的脚手架。


MiroThinker

GitHub: mirothinker/mirothinker · ★ 4/5

专注于增强 LLM 推理能力的框架。通过结构化的思考链和反思机制,让普通模型也能处理复杂推理任务。核心是 Chain-of-Thought 的增强版,加入了自我反思和纠错机制。

适用场景: 需要深度推理的场景:数学问题、逻辑分析、复杂决策。如果你发现普通 prompt 让模型容易出错,可以试试 MiroThinker 的方法论。