112: 与千寻高阳聊具身：一个像机器人的人，怎么做像人的机器人

晚点聊 LateTalk

محتوای ارائه شده توسط 晚点 LatePost. تمام محتوای پادکست شامل قسمت‌ها، گرافیک‌ها و توضیحات پادکست مستقیماً توسط 晚点 LatePost یا شریک پلتفرم پادکست آن‌ها آپلود و ارائه می‌شوند. اگر فکر می‌کنید شخصی بدون اجازه شما از اثر دارای حق نسخه‌برداری شما استفاده می‌کند، می‌توانید روندی که در اینجا شرح داده شده است را دنبال کنید.https://fa.player.fm/legal

حدود یک سال پیش 1:22:09

MP3•خانه قسمت

「伯克利 BAIR 博士、清华叉院助理教授，跳进具身创业。」

高阳是清华大学交叉信息研究院的助理教授，同时也是具身智能公司千寻的联合创始人和首席科学家。

高阳在具身智能领域深耕多年，他是清华计算机系本科，UC Berkeley 博士，师从国际计算机视觉大师 Trevor Darrell。在 2016 年时，他就和许华哲一起做了端到端自动驾驶的课题，这在当时是个小众的方向，但如今已经成为自动驾驶行业的共识。

这几年在具身智能领域崭露头角的早期公司，多多少少有 UC Berkeley 学子的身影——刚才提到的许华哲是星海图的首席科学家，星动纪元的创始人陈建宇、最近刚刚加入估值最高的智元机器人的罗建兰，都曾在 UC Berkeley 深造过；创立边塞科技的吴翼也是毕业于 UC Berkeley。

在 2024 年，高阳与有产业经历的韩峰涛共同创立了千寻，千寻在非共识中找到的切入点是端到端+具身大脑+机器人本体+互联网视频预训练、模仿学习、强化学习。成立至今，千寻已经获得了四轮融资。最近他们也发布了VLA Spirit v1 的 demo，机器人可以叠衣服了。

这次我们不仅聊到了高阳的技术理解，也聊到了他的思维方式和过往经历。

创业者们都在尝试怎么把机器人做得更像人，而高阳像一个融入人类世界的机器人：他从不熬夜，早晨七点半“开机”，每天骑 31-33 分钟的共享单车前往工作地点，在每周固定时间健身；他相信 COT（Chain-of-Thought，思维链），认为所有事情都可以按照 COT 一步一步走向结果，不仅是生活，也包括学术研究和创业，甚至“一步一步，每一个链条都做好，自然会导向具身智能的 L2、L3 的实现”。

这位 91 年出生的具身研究者和创业者，不倾向输出斩钉截铁的结论，但他相信他推理出的一切，不管和别人的声音是否一致。

本期嘉宾：
高阳，千寻智能首席科学家，清华叉院助理教授，个人主页（内有邮箱联系方式）

时间线跳转：

-“中国速度”在具身智能的体现：修机器
02:02 创业 moment：科学家能做的探索越来越少，这在大语言模型领域已经发生
04:09 团队搭建：产业老炮+年轻科学家
07:18 Figure 02 的 demo 很好，展示了快慢系统
09:38 中国相对美国优势在于修机器人快，不然修机器人的速度赶不上做实验的速度
12:12 具身智能的阶段划分
14:23 现在中国具身智能在从 L1 到 L2 的路上

-机器人必须得是“人”形吗？
14:41 机器人不一定是人形，但 L2 以后可能需要双臂+轮式底盘
15:31 没有操作、只有移动，不能解决主要矛盾
18:52 双足不难，没有本质的卡点
21:31 虽然操作重要，但一定得有上半身吗？其实是从成本角度考虑的，像“人”一定可行
23:53 人形机器人，到底是更精细分工，还是更泛化？

-“端到端是走向具身智能的共识，分层只是短期工程选择”
27:00 端到端（VLA，Vision-Language-Action）是现在具身智能的共识吗？
28:53 训练过程：互联网视频预训练、模仿学习、强化学习
29:51 为什么叠衣服这样的操作会成为具身智能领域的“智商测试”？
34:14 快慢系统在叠衣服这件事里怎么配合的？
35:35 当前机器人的主要挑战是泛化性

-“人是分布式，机器人是中心式”
36:28 视频数据的可用量只有 1%，机器人学习怎么操作、预测轨迹
38:44 人类的肌肉记忆，机器人也有
43:33 跨任务泛化：强化学习成功率取决于基模的训练和 SFT（监督微调 Supervised Fine-Tun-ing）
45:00 具身智能也有 Scaling Laws 吗？做到 GPT3.5，可能需要 100 亿条有效数据、1 亿遥操数据、几千万强化学习数据
49:05 Scaling Laws 在仿真数据不成立

-“具身智能做到 GPT-4 那种程度还得5年”
50:32 为什么只做大脑不行？驯化新的躯体很难的
51:55 为什么只做本体不行？价值在大脑端，现在有了大脑能力才引起的风潮
53:06 机器人未来会像汽车产业链
55:10 关于朱啸虎说的没有商业化，高阳觉得现在最重要的还是把技术做好
56:41 行业何时收敛？当具身智能走向 L2 时
57:57 现在具身智能的瓶颈还是在 AI，要补齐才能成为“木盆”

-个人成长：一位信奉 COT 的“小天才”
59:35 伯克利“归国几子”的介绍
01:01:27 同一个实验室的，还有许华哲、贾扬清等
01:03:22 2016 年博士最开始做自动驾驶，那时端到端自动驾驶还不被相信
01:06:41 学术不需要灵光乍现，个人的思考方式就是 COT
01:07:11 所以在明年 6 月具身智能会到 L2，再过一年半到两年 L3
01:07:34 读书时在 waymo 实习三个月：感觉脑子要坏掉了
01:10:15 读博想创业，但没好机会；毕业后回国做科研，伯克利“归国几子”兼职“HR”
01:12:43 跟许华哲最近讨论：看起来具身智能是个非共识行业，但这已经是坍缩、收敛后的结果
01:15:54 大学教授出来创业，会拍拍屁股走人吗？
01:17:37 一个崇尚规律的 ISTJ：不熬夜、骑共享单车上下班、规律健身

剪辑制作：甜食

本期主播：即刻 @王与桐

☆《晚点聊 LateTalk》建立「播客听友群」啦！☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

118 قسمت

#晚点 LatePost #Latepost #晚点聊 #LateTalk