杏彩注册吴文俊人工智能科学技术奖杰出贡献奖何晓冬：没有魔法要有耐心

2023-05-29 故障排查已读 70

　　“所需要的任何数学公式、物理学定律和工作原理，都可以在任何一所理工科大学的图书馆里找全，但是这距离制造出光刻机，完全是两码事，中间需要解决的工程问题是数以十万级。”

　　光刻机的例子来自曾任微软雷德蒙德研究院深度学习技术中心的首席研究员，现任京东集团副总裁、京东科技智能服务与产品部负责人的何晓冬博士。

　　在这九条经验中，何晓冬博士不仅再次强调了“工程能力”的重要性，而且毫无保留地将他心中的普世科研真谛递给麾下科研人员。

　　如今，大模型的爆发将AI工程实践推向了一个崭新巅峰。在何晓冬博士看来，AI在科学原理意义上的进步，离不开工程的极致实现。

　　历史反复证明，技术是创新的核心，但它也需要资源和管理的加持才能产生预期的成果。所以，创新不是技术的独角戏，而是与资源与管理的合奏曲。

　　当今世上，一个人一支笔依然可以拿诺贝尔文学奖，但一个人就想造出有竞争力的千亿参数的AI大模型，已绝无可能。

　　时隔五年，一篇完成于2018年，关于注意力机制的论文（“Bottom-up and top-down attention”）引用量，悄然增长（截至发稿前4028次引用）。

　　这篇论文的学术价值在于，在更高层次上提出一个比较基础的问题：“跨模态的语言和图像信息，在语义层次怎么对齐？”

　　稍作论文综述与归纳就会发现，这篇论文是更早期三篇论文的“集大成者”。文中提出了一种非常创新的注意力机制。前三篇之一的论文“Hierarchical attention networks”，截至我的这篇文章发稿前，有4953次引用。一般来说，AI领域论文引用量在一千以上就算较高。

　　有趣的是，过去五年，CVPR会议发表的所有论文中，“Bottom-up”这篇论文排名前二十。

　　要我说，排名前二十的论文中，按多模态技术排名，这篇论文排第一。（因为前19篇都是关于计算机视觉的，哈哈。）

　　CVPR在世界上所有期刊和会议文集中排名第四，有多少AI科研工作者宵衣旰食、不辞劳苦都是为了在会议截稿前争取“一张门票”。

　　CVPR有一个指标（H5因子），在此发表的重要工作（不是所有工作）的科研价值已经跟科学杂志Nature（《自然》），Science（《科学》）处于同一水平。

　　那是一只红羽毛白肚子的短嘴小鸟，胖憨可爱，加上两道黑粗剑眉，神似风靡全球的游戏“愤怒小鸟”里的主角。何晓冬博士告诉我，他喜欢给阶段性工作留下纪念品，这只小鸟有段时间是他的手机屏保。

　　那一年，时光仿佛打开了一扇门。他从门缝中看到了一个更大的空间，一个从未见过的空间，他对到达那个空间充满信心。

　　1.要实现多模态大模型的涌现，现在的Transformer模型架构是否足够？Transformer模型架构有没有必要做底层改变？

　　一开始，何晓冬与言犀团队语言大模型的发展目标是使其具有更强的语言能力，特别是语言生成能力。这种能力很快在京东就用起来了。说白了，写商品文案能写得越来越好。

　　团队的大模型原创性工作包括10亿规模参数的K-PLUG大模型。K代表knowledge，知识。这个大模型从2019年开始推动，到2021年就成熟了。

　　京东毕竟是一家擅长于用技术推动零售生意的企业，基于京东云言犀AI应用平台的基础能力，内容审核，拍照购、商品营销文案生成等多种应用应运而生。

　　比如，在京东商城里，商品营销文案工作量大，文案生成很有必要，且已覆盖到商品类目（服装，女装，连衣裙），已达3000余个类目。

　　清点一下总体工作量，K-PLUG大模型累计生成超30亿字，直接带来了至少3亿元人民币的收入。

　　我向团队中的吴博士和张博士了解到，文案生成场景有一个有趣的地方，文案生成后要人工审核，而通过率就好比成绩单，目前成绩是95分（满分100分）。因为通过率已经超过了95%。

　　团队发现，很多产业应用对“生成内容”的忠实度和可靠性要求极高，营销一个商品不能一味堆砌赞美之词，真实的赞美尤其重要。

　　在传统语言模型时代，很可能会把一些词就放上去了。对冰箱产业链来讲，忌讳“有名无实”，把不存在的“亮点”硬塞给商品，商家完全不可能接受。

　　何晓冬与言犀团队不会只做一个技术路线，大模型背后有很多尝试工作，或者说创新本身就包含多种尝试。

　　团队的大模型原创性工作还包括一个多模态文本生成模型。也就是说，现有的两类大模型将会是未来京东产业大模型的重要组件。

　　“文生图会是很好的一个牵引性的应用。”何晓冬博士说，“虽然这是科学问题，但我们还是希望有一个应用来牵引。”

　　第三步，当通用智能向前进发，除了多模态技术非常关键之外，数字智能会走向实体世界。物理世界中的机械体，不管是手臂，机器人，还是无人驾驶汽车，将通用智能赋予机械体会是一个巨大飞跃。

　　2017年美国耶鲁大学的一次会议上，何晓冬博士和美国波士顿动力机器人团队有一场令双方兴奋的交流。

　　比如，去隔壁小卖店帮我买一瓶可乐。这个对人类小孩来说是简单任务，对机械狗来说是高难度的。复杂环境下的定位，识别，外加推理、数学、对话等“技能”。

　　何晓冬博士的观点是，比较之前的感知智能，认知智能进入到一个学习曲线更加陡峭，也就是说，更加艰难的学习过程里。

　　到了认知智能这个层次后，学习会变得困难。而在感知智能这个层次，你可以很清晰地告诉计算机，识别错了，改过来。打标签就是公布答案。反复试验（trial and error）这个机制很清晰。

　　人们常说：“一千个人心中有一千个哈姆雷特。”在认知智能这个层次，情况变得微妙和复杂，也就是说，AI要理解事务的复杂性，涵义的宽泛性。一幅画，每个人都有自己的理解，也许各个角度的描述都是正确的，那么如何设计训练？

　　这个问题我们遇到了，美国公司OpenAI肯定也遇到了。人类反馈是非常重要的技术。人类可能只能给出一些非常大致（general）的反馈，但是很难给出非常细节（detail）的标注。

　　日前，很多人对大模型无止境的算力，数据，参数量的增长，持悲观态度，担忧有可能形成新一轮的技术垄断。

　　那些中小企业势穷力尽也不能从零造出世界领先大模型，他们的诉求是“用”。在这一点上，何博士做了乐观的判断。

　　产业利润低洼地的企业，以及供应链上地位低的中小企业都有机会用上“大模型”。如此一来，不仅不会加大数字和技术鸿沟，还会产生普惠价值。

　　想回答这个问题，ChatGPT就得知道在哪里下单，得接入电商业务系统，包括订单、下单、仓储、物流。

　　因为京东对购物体验要求高，人类客服都不能服务差，更别说机器人了。所以，从技术走到服务这个过程必须在京东内部有非常严格的验证，验证逻辑就是直接和人类服务对比。

　　第一，京东智能客服有一个指标叫“首句挂断率”。杏彩体育平台这很好理解，操着某某浓厚方言又不着五六的腔调的电话和你说人货钱，你不仅不信，而且想挂断。

　　家电大件商品配送货的时间预约电话，接起来一听就是机器人的冰冷声音，电话瞬间被挂，实在很耽误事。

　　比如用户带着售后问题来了，得尽快把人家的问题解决掉。这时候，客服不需要“嘴甜留人”，而是尽快理解人家之所急，给一个满意的方案，然后，就没有然后了，服务结束，满意而归。

　　用技术语言来总结就是：人机对话中，通常带有明确目的指向，需完美解决客户售前售后咨询、价保、交易、支付、配送、退换货服务等各环节需求。

　　第三个例子是400热线。用户来电投诉，谁也不会准备投诉的演讲稿，再照稿朗诵。用户想怎么说都行，一边说一边想，想停就停。

　　第三个例子，虽然口语谈话打断习以为常，但曾经是个技术难点。比如，智能客服说完了，轮到人类发言了，人类可能在思考。

　　对此，何晓冬与言犀团队用一个多模态的话语决策模型解决。原理是，通过语音信号、停顿时间、语意完整度、语气相关等多模态信号综合做动态决策模型，来判断人类是说完了还是在思考，等对方表述结束，再去接话。

　　模态是一种学术词汇，更准确而久远的来源是和“信号”相关的。简单理解，不同种类的数据就是“模态”。

　　所以，不用好奇京东这里会成长出什么样的大模型。多模态是一个顺承并满足业务场景需求的技术路线，以此类推到与京东密切相关的产业，比如零售，比如金融。

　　京东科技智能服务与产品部门的出现，就是因为京东日益增长的客服业务需要一支专门的技术团队，把内部所有的客服单独拿出来用“智能”来解决。多年以来，陆续将技术和能力沉淀成一个可用的产品能力平台，就是言犀平台。

　　“我们平台（京东云言犀人工智能应用平台）有40多个独立子系统，3000多个意图和3000万个高质量问答知识点。”何晓冬团队的吴博士说。

　　京东全量智能服务的技术经验，加上在京东零售、物流、健康等多类业务的多年实践，体量做到了日均千万次智能交互。

　　谈笑间，那些轻量化模型任务（信息抽取、语音识别、方言语音识别、关键词识别、语义识别、情感分析）早已“拿下”。

　　所以，高难度的技术问题内部早已入手研发，内容生成，复杂语义理解或意图识别，多轮对话决策推理都是重点。

　　何晓冬博士是自然语言处理和跨模态智能领域极具影响力的科学家。在AI2000人工智能全球最具影响力学者榜单中，同时入选三个领域（NLP、Speech、IR），为全球60人之一。

　　他是教授，也是IEEE Fellow，他虽然有极强的学术背景，但特别重视技术的应用前景。何晓冬团队的技术领域的积累建立在200余篇学术论文、近4万次学术论文引用、5.8亿用户真实场景的练兵场上。对于有能力挑战的人来说，难度越高，能把技术水平提得更高。

　　2023年5月6日，第十二届吴文俊人工智能科学技术奖正式公布，京东云言犀团队凭“任务型智能对话交互关键技术及大规模产业应用”，斩获吴文俊人工智能科学技术奖科技进步奖。

　　“产生了逾20亿元的直接经济效益和良好的社会效益，促进了零售、物流、金融、政务等相关产业的快速发展。” 组委会点评。

　　“他擅长指明方向，总是能在讨论中找到问题的本质，帮助我们打开思路。”何晓冬博士麾下的吴博士、范博士这样评价道。

　　京东对人工智能大模型的布局可以从一个个前沿酷炫的实验室名称中洞见。那些研究员们有些来自图生文实验室，有些来自基础模型与系统实验室，有些来自跨模态视觉生成实验室，未来还会来自机械智能实验室。这里鼓励探索，策励探讨，不欢迎施号发令、刻板短视。

　　在大模型的技术路线之争这件举足轻重的事情上，到底是Decode-Only胜出，还是Encode-Decode胜出，任谁目前也不能草率得出结论。

　　虽然目前走Decode-Only路线暂时领先，可保不齐谷歌哪天逆风翻盘，大大书写一笔《谷歌战微软：AI大模型反转史》。

　　这三点既是本质，又是限制。大模型制高点是强者之间的游戏，产业大模型与通用大模型的竞争优势来自于此。

　　每一次变革都有规律可循，从消费互联网到产业互联网的变革亦是如此。像京东这样的技术企业，有供应链思维的企业，那些年虽有优势但也不能保证稳胜。

　　虽然我们是做零售出身的，但每一次进入零售细分领域，也是从头学习。早期做家电，后来做生鲜（7FRESH），再次出发做大量的线下零售，摸爬滚打。零售是一个巨大的场景，每一个赛道都是不一样的，都有单独的解决方案。深入行业不能仅靠想象力，浮泛的议论好发却无用。

　　“用通用数据把大模型常识能力训练足够，再用精准，少量的行业数据，最终以产业大模型的形式提供给产业。” 何晓冬博士说。

　　数据依然在大模型的发展中占据无以复加的重要地位，这无疑会增加产业大模型的竞争优势。大模型是迄今为止人类最高智能的AI原生产品，有实力颠覆SaaS层现有生态。

　　在所有的科技企业中，京东在零售产业和零售供应链实力最为雄厚，他们理解零售业的高度动态极其需要敏捷推动，他们理解零售以SaaS的形式提供服务最为合适。

　　比如，农产品和电商的关系日益紧密杏彩注册吴文俊人工智能科学技术奖杰出贡献奖何晓冬：没有魔法要有耐心，搜索关键词“产地+特色农产品”，在京东APP消费者TOP搜索热词中，连续四年持续增长。

　　近5年，地标农产品消费金额年均增长36%，高于农产品整体增速4个百分点；地标生鲜农产品消费金额年均增长41%，高于生鲜农产品整体增速7个百分点。

　　离需求最近的人，最有机会。京东在产业大模型的加持下，有机会生长出一个市值等同于Salesforce的龙头企业。

　　在产业大模型上，每一个人都可以通过SaaS套件，不仅是开商店、做生意，而是把各个行业的销售和服务做好。从货到钱的支付物流，从后端客服到前台导购营销，有全生命用户全生命周期管理服务。并且，不但有自己的SaaS产品（模块），还要建一个允许第三方开发的平台。这样才能把产业大模型的生态真正做起来。