对话Clipto.AI创始人康洪文：没有记忆的AI，只是一个“失忆”的聪明人

爱游戏
2026-06-29

对话Clipto.AI创始人康洪文：没有记忆的AI，只是一个“失忆”的聪明人

硬件就位，软件缺位

1945年，美国科学家Vannevar Bush在那篇影响了整个计算机科学发展的文章《As We May Think》中，提出过一个名为Memex（记忆延展）的设想。

在他的想象里，每个人都会拥有一台机器。它能够存储自己的阅读、照片、笔记和知识，并像人的记忆一样，随时帮助主人回忆、关联和检索信息——后来，人们把它视作个人计算机、超文本乃至互联网最早的思想源头之一。

Vannevar Bush Memex

过去80年里，计算机、互联网和智能手机相继诞生，存储容量增长了数百万倍，人类积累的信息也以前所未有的速度膨胀。但Bush描绘的那个梦想，却始终没有真正实现。

原因并不复杂。机器越来越擅长保存信息，却始终不会形成记忆；它能存下你一生的数据，却无法在你需要的时候，替你找回某一个瞬间。

直到最近，这件事情开始出现变化。

过去一年，AI行业几乎完成了一次基础设施的集体升级。

端侧算力第一次不再只是概念，而开始成为消费电子产品的标准配置：英伟达推出RTX Spark，将AI算力直接部署至PC；英特尔的Lunar Lake、高通Snapdragon X Elite，将笔记本的NPU算力分别提升至60 TOPS和45 TOPS；苹果也持续将AI能力整合进M系列芯片。

模型也走到了新的拐点。Llama 3、千问、Gemma、Phi等开源模型不断缩小体积，却持续提升能力；llama.cpp、MLX等推理框架的成熟，则让大模型第一次能够稳定运行在普通个人设备上。与此同时，Apple Intelligence、Copilot+ PC，以及英伟达围绕端侧AI搭建的开发工具链，又把模型进一步嵌入操作系统。

芯片、模型、系统，以及随着市场教育，“端侧AI”逐渐赢得用户信任，几乎每一层基础设施都已经准备就绪。

但把这些拼图放在一起，却依然很难得到一款真正让普通用户每天都会使用的AI产品。问题不在于单点技术，而是缺少一个能够把模型、硬件、系统与个人数据真正整合起来的产品。

曾经红极一时的“消费级端侧设备”Rabbit R1、Humane AI Pin，很快因为产品定义失败，成为浪潮中的一捧浮沫。Rabbit R1希望成为一个新的跨端交互入口，然而，它却没能回答“为什么要在手机之外买一台设备”的疑问；Humane AI Pin有替代手机的野心，但酷炫的硬件并不能创造需求，反而带来体验的熵增。

更重要的是，这些端侧新物种，没有解决一个核心痛点：即便处在离用户个人数据库最近的位置，AI大脑仍常常陷入“失忆”的窘态。

行业，缺少一个将模型、端侧和记忆系统整合的玩家。

当所有人都在讨论Agent的时候，一个更底层的问题开始浮现：Agent到底依赖什么长期存在？

两年前，当整个行业仍沉浸在“云端更大的模型”时，Clipto.AI创始人康洪文却做出了一个颇为反共识的判断：

真正的新机会，将出现在端侧算力与大模型能力交汇之后催生的新一层基础设施。

在他看来，只有当两条技术曲线——端侧算力的成熟，以及大模型能力的成熟——同时抵达临界点，AI才有机会真正成为每个人设备里的“第二大脑”，而不仅仅是一个聊天机器人。

而真正的机会，不仅限于模型本身，也属于建立在它们之上的“Memory Layer（记忆层）”。

康洪文和团队研发的产品，Clipto，正是这个假设的试验场。

用户只需要用自然语言描述自己想找的内容，Clipto就能在数TB的本地视频、音频、图片和文档中，快速定位到相关的片段和信息。

但搜索，只是Clipto对外暴露的第一个能力。

在Clipto背后，是由十余个端侧自研大模型、推理架构、算力调度系统，以及数据组织能力共同构建的一套Memory Layer——它让原本分散的海量数据，持续沉淀为可被AI调用的个人记忆，并能够在毫秒内，从海量内容中找回那些早已被用户遗忘的信息。

2026年5月，发布新版Mac端App后，Clipto登上了Product Hunt日榜第一，端侧和记忆构筑的想象空间，正在逐渐落地到田野。

Product Hunt榜首截图

"聪明的人没有记忆，也只是一个失忆的人"

过去一年，Agent成了AI行业最炙手可热的关键词。

几乎所有大模型公司都在讲Agent，创业公司在做Agent，资本追逐Agent。从编程、办公到购物、客服，越来越多的人相信，Agent将成为继ChatGPT之后AI的下一次产品革命。

在2026年4月的报告中，Gartner将业界对Agentic AI的态度形容为达到“期望膨胀顶峰（the Peak of Inflated Expectations）”，超过六成企业计划在未来两年部署AI Agent，即便迄今为止，只有17%的企业完成了部署。

但在这场几乎没有异议的追捧中，Clipto创始人康洪文却不断提出一个看似简单、却很少有人回答的问题：一个没有记忆的Agent，真的理解用户吗？

在他看来，今天大多数Agent都建立在一个危险的假设之上：只要模型足够聪明，就能够成为用户的助手。

但事实恰恰相反。每一次打开Agent，它都像第一次认识你；不知道你昨天开过什么会，不知道你的照片存在哪里，也不知道过去一年积累了哪些文档。它能够推理，却没有经历；能够回答，却无法延续。

“一个聪明的人，如果没有记忆，也只是一个失忆的人。”康洪文说。

这也是他过去二十多年一直在研究的问题。

开始的前十年，康洪文的研究命题是机器如何理解世界。2004年，康洪文进入微软亚洲研究院实习，让Xbox自动分析用户拍摄的大量家庭照片和视频，再从数小时素材中提取关键片段，自动生成一段家庭短片。

而后，他前往卡内基梅隆大学机器人研究所攻读博士，师从计算机视觉领域学者Takeo Kanade，继续研究图像与视频理解。在他看来，理解视频，本质上是在理解现实世界。

最近的十年，康洪文转向研究机器如何生成内容。2017年，他创业成立AIGC公司“慧川智能”，随后旗下创作平台“智影”在2020年底被腾讯收购。加入腾讯后，康洪文继续负责文生图、文生视频和数字人等全栈AIGC产品研发。

而今天，在Clipto，康洪文又把问题重新拉回了”理解”。因为他认为，生成已经不是AI最大的瓶颈，“真正缺失的是记忆”。

端侧大模型的出现，让这条技术路线第一次迎来了成熟的时机。

康洪文告诉36氪，云端模型更像是一个“全球大脑”，负责学习公共知识、理解整个世界；而端侧AI则应该成为“个人记忆”，理解的是每一个具体的人。

在他看来，未来AI的架构并不会是Cloud AI与Edge AI的简单竞争。真正的演化方向是Cloud Intelligence + Edge Memory——云端负责世界知识，端侧负责个人记忆，Agent 只是连接两者的交互层。

“Agent只是站在最上层的交互界面，而真正决定它是否聪明的，并不只是模型本身，而是底下是否拥有一套持续生长的Memory Layer（记忆层）。”他提到，在他看来，这是一个被行业长期忽视的架构问题。

Living Memory Graph

模型会升级，Agent会重构，但用户长期积累的记忆不会轻易迁移。他提到。

围绕“记忆层”，Clipto从底层重新搭建了一整套端侧AI技术体系。

在康洪文看来，很多人理解的Memory，更像是模型拥有更长的Context，或者接入一个向量数据库。但真正的记忆层，远不止于此。

"Memory不是一个模型，而是一整套系统。"他在采访中提到。

第一层，是模型。

多模态数据天然具有高度异构性。视频、音频、图片、文档，每一种数据都需要不同的理解方式。围绕人物识别、语音理解、OCR、场景分析、事件理解等能力，Clipto自研了十余个端侧AI模型，其中部分基于开源基础模型进行针对性的后训练，部分则完全自主研发。每一个模型都需要针对端侧算力重新设计，而不是直接迁移云端模型。

第二层，是端侧算力架构。

与云端拥有几乎无限算力不同，端侧设备受到CPU、GPU、NPU、内存、存储带宽以及系统资源的共同限制。为了让多个模型能够长期协同工作，Clipto从零搭建了端侧推理框架和算力调度系统，根据设备资源动态调度不同模型，而不是让它们彼此争抢计算资源。

康洪文介绍，Clipto的架构能够自动兼容各种不同配置的设备，甚至包括仅配备8GB内存的M1 MacBook。而在最新一代的M5 MacBook Pro上，Clipto可在24小时左右完成2TB本地视频的离线分析，如果完全依赖云端，同样的处理成本约需400美元。

用户使用Clipto制作视频电脑桌面截屏

第三层，也是最重要的一层，构建记忆本身。

模型能够理解内容，却不会天然形成记忆。系统还需要持续把分散的多模态信息组织成时间、地点、人物、事件等结构化关系，并不断建立跨文件、跨时间、跨来源之间的关联，最终形成能够持续生长的个人记忆网络。

Agent调用的，也不再是某一个模型，而是这套不断积累、持续演化的记忆层。

在康洪文看来，这也是记忆层真正困难的地方。

它横跨模型研发、端侧推理、算力调度、多模态理解、数据组织、时空数据库、知识图谱以及检索系统等多个技术层级。任何一个模块都无法单独构成真正的Memory。只有把这些能力整合成一套长期运行、持续生长的系统，AI才真正拥有了"记忆"。

"模型会不断升级，Agent也会不断演进，但用户长期积累的记忆不会轻易迁移。真正的护城河，是围绕Memory建立起来的整套技术体系。"他对36氪总结。

如果说今天的大模型解决的是AI如何理解世界，那么Clipto解决的是AI如何长期记住一个人。

Clipto不是创作工具，而是记忆基础设施

Clipto登顶Product Hunt日榜后，真正让康洪文感到意外的不是成绩本身，而是评论区的用户反馈。

按照惯例，大多数用户讨论的是产品好不好用、功能是否足够丰富。但Clipto上线后，评论区里出现了另一种声音：

不少开发者开始询问API是否开放、能否作为Agent的长期记忆后端，甚至讨论如何把Clipto接入自己的产品——彼时，Clipto甚至还没有发布SDK。

这释放出一个信号：用户关注的已经不只是一个搜索工具，而是开始把它视作一层基础设施。

这种变化，也超出了Clipto团队最初的预期。

一开始，康洪文以为最先买单的会是视频创作者、摄影师等内容生产者。但随着用户增长，团队发现，快速扩大的不仅是创作者群体，还包括金融分析师、律师、医生、咨询顾问等知识工作者。

根据官方数据，目前，Clipto的用户中，大约1/3为创作者，其余2/3则是来自金融、法律、医疗等行业的专业职场人。

这意味着，记忆管理，是比内容创作空间更大、更刚性的需求。

过去，人们总认为多模态数据管理是视频编辑、影视制作等专业场景才需要解决的问题。事实上，每一个知识工作者都在不断产生音频、图片、会议记录和文档。会议录音、培训视频、手机截图、播客收藏、PDF文件……这些信息每天都在增长，却很少能够再次被有效调用。

当AI能够真正理解这些数据之后，“记忆管理”便不再是创作者的需求，而成为所有人的需求。

商业数据进一步验证了这一判断。Clipto上线后三个月，便实现了盈亏平衡。2025年，公司的ARR（年度经常性收入）达到了1500万美元。

对于一家仍处于产品早期、且坚持端侧部署路线的AI公司而言，这样的商业化速度本身就是一个强信号：市场愿意付费的，并不仅仅是一次性的AI能力，而是长期积累的个人记忆。Memory并不是一个未来市场，而是一个已经被验证的现实需求。

更重要的是，它也验证了Clipto团队的能力。当许多AI创业公司仍停留在模型能力验证或Demo阶段时，Clipto已经率先完成了从底层模型、端侧基础设施、产品体验到商业化的完整闭环。这种跨越底层研发、产品设计和全球商业化的完整执行能力，本身就是团队最重要的竞争壁垒。

互联网的发展史，本质上是一部基础设施不断演进的历史。

PC互联网时代，Google建立了信息检索的基础设施，它建立的是人类的公共记忆（Collective Memory），让人们能够"找到世界上的信息"；移动互联网时代，Meta和微信构建了社交关系的基础设施，让人们能够"连接世界上的人"；AI时代，OpenAI解决了"如何推理"的问题，而接下来即将面临的，不再是"世界知道什么"，而是"我自己经历了什么"，让人们能够"被AI真正理解"。

这正是下一代基础设施的机会。

Clipto希望解决的，正是每个人的个人记忆（Personal Memory）。

它并不创造新的内容，而是持续理解、组织和连接用户过去积累的数字生活，让这些原本沉睡的数据，成为Agent可以长期调用的上下文。

也因此，在康洪文看来，未来AI应用真正的竞争，并不只是模型能力，也不只是Agent的执行能力，而是谁能够率先建立起这层长期存在的Memory Layer。

“模型可以随时切换，Agent也可以重构，但用户长期积累的记忆一旦形成，迁移成本极高。”

过去十年，AI公司争夺的是Intelligence；未来十年，真正不可替代、也最难迁移的，将是Memory。

Clipto.AI创始人康洪文

围绕Clipto的构想、端侧AI、记忆层，36氪近期和Clipto.AI创始人康洪文聊了聊。以下是我们对部分观点的整理：

36氪：Clipto为什么从音视频搜索切入？

康洪文：有两个考虑。

首先，文本、文件、PPT数据已有不错方案，但音视频这种重多模态的数据一直没被服务好，单位处理成本高；

其次，音视频天然更多存在端上（太重），完美贴合端侧优先场景。种子用户=有大量音视频、高隐私高价值、现有方案服务不好的人。

36氪：Clipto的PMF为什么跑得快？做对了什么？

康洪文："以终为始"，我们有宏大的愿景，但还是要逼自己尽快做商业化验证。

我们做了两个关键决策。首先，以App形态切入，将端侧AI的能力最高效送到用户手里；未来，App也可以灵活搭载在PC、手机、智能设备等任何终端硬件上。

其次，第一天就主打全球市场。不少西方国家用户支付订阅习惯成熟，确定性高。我们选择把精力放在高确定性的事上。

36氪：行业对端侧AI最大的误解是什么？

康洪文：“下个Ollama就能做。”

但我们真正做的，其实是一整套Memory Layer。

第一层，是模型。围绕多模态理解，我们已经自研了十余个端侧AI模型，其中部分基于开源基础模型进行后训练，部分完全自主研发。真正做到专业级、多模态理解，本身就是非常大的技术挑战。

第二层，是基础设施。端侧和云端几乎是两套完全不同的技术体系。从推理框架、算力调度到系统优化，都需要重新设计，让多个模型能够在有限的设备资源下长期稳定协同运行。

第三层，是记忆构建。模型能够理解内容，但不会天然形成记忆。系统不仅需要理解每一个文件，更需要持续建立跨文件、跨时间、跨来源之间的关联，把原本孤立的数据组织成一个能够不断生长的个人记忆网络。

真正困难的，并不是某一层技术，而是把模型、基础设施和记忆构建长期协同成一套系统。这也是我们认为Memory Layer真正的技术门槛。

36氪：Clipto定义的"记忆"和模型记忆、Context有何区别？

康洪文：

今天行业里讲的“Memory”，其实主要有两种。

一种是模型记忆，它本质上是参数里的统计性知识，更适合学习公共知识、用户偏好和行为模式。

另一种是Context，它解决的是一次任务里的短期上下文，帮助模型完成当前对话，但生命周期很短。

Clipto做的是第三种记忆。

我们关注的是用户长期积累的真实个人数据，包括视频、音频、图片、文档和会议记录。这些数据不是抽象概念，而是一个人真实经历和工作的完整沉淀。

举个例子，模型可能知道你最近一直在讨论产品定价，也知道你更关注欧美市场，这是统计性的”记忆”。但它永远不可能准确回答：“5月18日下午那场融资会议里，John对欧洲定价策略到底说了什么？”

因为这些具体、可追溯的事实，不应该被编码进模型参数，而应该作为个人记忆长期保存，并能够随时被AI精准调用。

所以我们认为，模型负责学习公共知识，Memory Layer负责保存个人知识。

36氪：记忆层会被模型厂商吃掉吗？

康洪文：

我觉得不会。

我一直认为，未来AI会逐渐形成新的分工。

模型负责Intelligence，持续学习和编码公共知识；Memory Layer则负责保存和组织每个人独有的长期记忆。

这两者解决的是完全不同的问题。

模型的价值来自规模化，服务的是所有用户；Memory Layer的价值来自个性化，它需要持续理解、组织和管理每一个人的数据。

所以模型厂商未必天然擅长做Memory Layer，就像Google很擅长搜索，但并没有天然解决个人记忆的问题一样。

我们更相信，未来Agent会不断变化，模型也会不断升级，但Memory Layer会成为长期存在的一层基础设施。

封面来源｜视觉中国

海量资讯

爱游戏，点亮您的游戏人生。

2 条评论

海量资讯

一手掌握最新游戏动态。

海量资讯

与全球玩家深度交流。

对话Clipto.AI创始人康洪文：没有记忆的AI，只是一个“失忆”的聪明人

硬件就位，软件缺位

"聪明的人没有记忆，也只是一个失忆的人"

Clipto不是创作工具，而是记忆基础设施

封面来源｜视觉中国

2 条评论

发表您的看法