对话昆仑万维首席科学家颜水成：大模型的三个一致与三个不合

09-12 771阅读 0评论

出品｜科技《情绪AGI》对话栏目

作者｜丁广胜

大模型工业，热闹非凡，也争辩不断。共同有三，Transformer和MOE架构的才干、Scaling Law的潜力、视频生成的远景。

不合也不少。Transformer是否是AGI的终究架构、大模型的监管问题、模型的商业化途径和功率前进。

在昆仑万维兼天工智能首席科学家颜水成看来，共同也好，非共同也罢，大模型要实在迎来“奇点”时间，还需求三点打破：

“一是完成大模型在更多实践使用中的成功落地，能够大规划处理实践问题并发生经济效益；二是树立完善的AI道德和监管结构，保证AI技能的开展在可控和安全的规划内；三是技能立异持续打破，如数据处理、模型架构等方面不断前进。”

颜水生长期深耕人工智能工业，是横跨学界和工业界交融的代表性人物，他于一年前参加昆仑万维，垂青昆仑万维明晰的产品矩阵。

“我在多家公司从事过AI相关的研讨作业，我一直以为合理的产品布局至关重要。我更倾向于挑选那些能够用产品引领技能研制的公司，这样技能能够有的放矢，与产品互相促进，然后添加产品成功的概率。”

曩昔一年，颜水成带领团队树立了2050全球研讨院，致力于将产品、研制和研讨团队经过六个大模型有机连接起来。

3月29日，他们与国际顶尖高校协作开源了数字智能体研制工具包AgentStudio，为研讨人员和开发者供给了一个完好掩盖智能体开发流程的综合性渠道。

4月29日，昆仑万维2050全球研讨院联合新加坡国立大学、新加坡南洋理工大学团队发布并开源了Vitron通用像素级视觉多模态大言语模型。这款重磅的视觉多模态模型支撑从视觉了解到视觉生成、从低层次到高层次的一系列使命，处理了图画与视频模型分裂的问题。

6月25日，他们与新加坡南洋理工大学协作开发了Q算法，大幅前进了现有大模型的推理才干。Q*算法的开发使小模型的推理才干得以挨近乃至逾越参数量大几十倍、上百倍的模型。

7月3日，他们联合北京智源人工智能研讨院、新加坡南洋理工大学、北京大学等组织提出了通用核算机操控结构Cradle，使AI Agent无需练习即可像人相同直接操控键盘和鼠标，完成在恣意开闭源软件上的交互。

节奏不可谓不快。

而要问颜水成花最多时间的当地是什么，他作答：

“原生语音交互和视频生成技能。我以为原生语音交互是下一代AI使用的要害，它能大幅简化人机交互的方法，让人与AI或设备的沟通愈加天然和高效，然后大幅添加AI产品的用户基数。这种交互方法有望改动AI智障标签，使其实在成为智能帮手。”

视频生成也是重中之重，颜水成以为，视频生成技能的前进将彻底改造内容出产的方法，极大前进创造功率。

至于多模态的论题，他说多模态的终极方针便是“all-modality-in, all-modality-out”，即输入和输出包含一切模态，而中心在于生成的内容有必要契合实践国际的逻辑和物理规律。这样的才干能够让模型更挨近于人类对国际的了解和互动方法。

在访谈中，颜水成还谈及大模型同质化问题，他说到，跟着言语模型规划的不断扩大和数据量的添加，练习大模型的本钱逐步超出大多数小公司的承受规划。一起，开源大模型的功能也在快速前进，使得从零开始练习一个全新大模型的必要性越来越低。

“因而，越来越多的公司将挑选持续练习（continual training）和开发高效小模型，这天然导致模型的同质化。从现在现已揭露的开源模型来看，模型自身的差异性并不显着，更多的差异体现在数据挑选和一些微立异上。”

他以为，这种状况决议了大模型的开展趋势会趋向同质化，这是商场开展和技能资源分配下的必然结果。

以下为科技对话颜水成实录（经收拾）：

科技：您上一年9月宣告参加昆仑万维，一年曩昔了，现在感触怎样？有什么不相同？

颜水成：我在多家公司从事过AI相关的研讨作业，我一直以为合理的产品布局至关重要。我更倾向于挑选那些能够用产品引领技能研制的公司，这样技能能够有的放矢，与产品互相促进，然后添加产品成功的概率。在我参加之前，昆仑万维现已有了相对明晰的产品矩阵，包含查找、音乐、游戏、交际等，这些产品部分现已有了原型，部分现已面向用户发布，对技能的需求十分清晰，这与我关于技能与产品协同开展的理念高度契合。

其次，昆仑万维88%的营收来自海外商场，这与我的作业布景十分契合。由于我曾在新加坡作业多年，对海外事务的特色有着深化的了解，这让我对昆仑万维在全球规划内的布局更有决心。此外，昆仑万维的创始人周亚辉在事务范畴的前瞻性和在出资范畴的独特眼光，眼光十分独特，也让我对公司的未来充溢等待。

其时入职时，我感到十分振奋。现在一年曩昔了，昆仑万维仍旧坚持着“产品引领技能”的特色，并且还新增了AI短剧方向的布局，这也正是我多年来的研讨范畴之一，因而我的初衷仍旧坚持不变。

科技：您参加昆仑万维的一个原因是，昆仑万维是少量打通了研讨、研制到产品链条的通用人工智能企业。那到现在来看，你们做的工作是否契合预期？曩昔一段时间获得了哪些效果？

颜水成：曩昔这一年，咱们为完善研讨、研制和产品的协同链条，树立了2050全球研讨院，致力于将产品、研制和研讨团队经过六个大模型有机连接起来。这一年，咱们在研讨上获得了一系列令人满意的效果，充沛展现了研讨对产品的推进效果。

3月29日，咱们与国际顶尖高校协作开源了数字智能体研制工具包AgentStudio，为研讨人员和开发者供给了一个完好掩盖智能体开发流程的综合性渠道，极大地前进了开发功率，让构建专属数字智能体变得愈加简略、高效和灵敏。

4月29日，由我带队，昆仑万维2050全球研讨院联合新加坡国立大学、新加坡南洋理工大学团队发布并开源了Vitron通用像素级视觉多模态大言语模型。这款重磅的视觉多模态模型支撑从视觉了解到视觉生成、从低层次到高层次的一系列使命，处理了图画与视频模型分裂的问题，完成了图画和视频内容的共同处理，为下一代通用视觉大模型的开展奠定了根底，推进了大模型迈向通用人工智能（AGI）的进程。

6月25日，咱们与新加坡南洋理工大学协作开发了Q算法，大幅前进了现有大模型的推理才干。在GSM8K数据集上，Q使Llama-2-7b的精确率到达80.8%，逾越了ChatGPT；在MATH数据集上，Q协助DeepSeek-Math-7b完成了55.4%的精确率，超过了Gemini Ultra；在MBPP数据集上，Q协助CodeQwen1.5-7b-Chat前进至77.0%的精确率，显着缩小了与GPT-4的编程水平距离。Q*算法的开发使小模型的推理才干得以挨近乃至逾越参数量大几十倍、上百倍的模型，为未来的高效AI开展指明晰方向。

7月3日，咱们联合北京智源人工智能研讨院、新加坡南洋理工大学、北京大学等组织提出了通用核算机操控结构Cradle，使AI Agent无需练习即可像人相同直接操控键盘和鼠标，完成在恣意开闭源软件上的交互。Cradle是第一个能一起操作多种商业游戏和软件使用的AI结构，相关论文和代码均已开源，为通用人工智能的进一步开展供给了强有力的支撑。

此外，研讨院还在MOE（Mixture of Experts）模型架构上做出了一系列立异，将核算功率前进了100%，并成功将部分效果使用于公司的MOE大模型，使昆仑万维成为国内最早将MOE模型使用于事务的公司之一。

总的来说，曩昔一年的效果充沛验证了昆仑万维在研讨、研制到产品的全链条打通形式的有用性，也让我对未来的研讨充溢决心。

科技：那在昆仑万维有面临什么应战吗？

颜水成：咱们面临的首要应战是怎样高效地将前沿研讨转化为有商场价值的产品。为此，咱们优化了跨部门协作和沟通机制，显着前进了团队功率，使研讨效果能够更快地使用于产品中。但是，商场需求改动和技能落地速度的平衡仍需不断调整。咱们还需加强对商场趋势的掌握，保证研讨方向与实践需求对接，一起加大对团队成员的培育与支撑，前进全体才干。

全体而言，这一年昆仑万维的务实精力和团队之间的严密协作让我感触深化，虽有应战，但每个应战都推进咱们不断前进，我对未来充溢决心。

科技：您在新加坡，你们内部怎样做好协作？比方，素日您和CEO方汉先生是怎样沟通的？

颜水成：虽然我的作业地点首要在新加坡，但每次回北京，我都会和搭档们线下沟通沟通。这种面临面的沟通十分名贵，不只能互相学习，还能激起新的主意和思路。昆仑万维的团队气氛十分敞开，咱们都十分乐于同享互相的开展和心得，这对推进团队的全体立异十分有协助。

方汉先生是一位十分特别的CEO，他不只深化了解技能，还坚持着亲身读论文、写代码的习气，这在管理者中十分可贵。我个人喜爱用数学和公式推进研讨，而方汉先生坚持写代码和许多阅览论文，这种精力十分值得我学习。咱们常常评论最新的研讨效果和论文，方汉先生的物理系布景让他对问题的了解十分独特，咱们之间的沟通不只限于AI技能，有时也会讨论“国际的来源”“AI的未来结局”等更深层次的问题。这种跨学科的沟通拓宽了咱们的思想，也为研讨带来了不同的视角。

全体来说，和搭档们，尤其是方汉先生的沟通，让我感触务实的立异精力，这对个人和团队的开展都有着十分活跃的影响。

科技：现在您花最多时间研讨的问题是什么？

颜水成：现在我在AI范畴投入最多时间的研讨方向是“原生语音交互和视频生成技能”。我以为原生语音交互是下一代AI使用的要害，它能大幅简化人机交互的方法，让人与AI或设备的沟通愈加天然和高效，然后大幅添加AI产品的用户基数。这种交互方法有望改动AI“智障”标签，使其实在成为“智能帮手”。

视频生成同样是我注重的要点范畴。视频现已成为当今获取信息的首要途径之一，视频生成技能的前进将彻底改造内容出产的方法，极大前进创造功率。当视频模型开展到能够模仿物理国际时，游戏将不再需求传统的3D引擎支撑，许多试验也将能够在虚拟环境中进行，影视创造将变得触手可及，成为每个人都能掌握的基本技能。

这些技能的前进不只能打破现有的职业瓶颈，还将改动人们的日子和作业方法。虽然这些场景看似悠远，但技能正在快速开展，这些革新正一步步向咱们走来。我信任，跟着原生语音交互和视频生成技能的不断老练，咱们将看到一个愈加智能、高效且充溢构思的国际。

科技：您曾在一次沟通中谈到，在座的同行，肯定在要害技能和经历上的同享有所保存，否则无法解释为什么产品这么好。那昆仑万维，现在有什么正在研讨的或比较看好的新方向吗？

颜水成：从公司竞赛力的视点来看，技能同享有所保存是合理的。其时职业界最常见的保存方法是开源模型但不彻底敞开数据，特别是那些对模型体现至关重要的数据部分。昆仑万维一向以产品为中心，竞赛力首要体现在用户粘性上，因而在技能和数据同享方面相对敞开，咱们的言语大模型和许多数据集都进行了开源和同享。

但是，一个成功的模型不只仅是技能和数据的堆积，更是经过无数次试错和调整的效果。这些试错进程中的经历和细节往往是最名贵的，也是难以彻底同享的部分。正是这些不断优化和改善的进程，赋予了咱们产品和模型逾越竞品的竞赛力。咱们的“杀手锏”更多体现在这些细节和迭代中，而这些往往是模型比其他产品更为强壮的原因。虽然详细的技能细节不方便彻底泄漏，但大致方向便是经过持续的试验、优化和对用户需求的深化了解，不断前进模型和产品的体现。

科技：昆仑万维特别注重多模态，您怎样点评昆仑万维在多模态方面的开展？

颜水成：模态是完成通用人工智能（AGI）的重要途径，由于人类的智能实质上便是多模态的，交融了视觉、听觉、言语等多种感知和认知才干。昆仑万维致力于多模态研讨，首要是由于公司的中心产品自身就需求多模态技能支撑，比方AI音乐和AI短剧等产品，这些都要求能够处理和生成不同类型的数据。

公司在多模态技能上的投入是十分必要且具有前瞻性的。现在，公司的AI音乐产品在技能层面到达了国际级水准，具有十分强的竞赛力，并在不断迭代中前进用户体会。一起，公司在短剧创造方面推出的SkyReels具有极大的幻想空间，这类产品有望成为AI 2.0年代的爆款。全体来看，昆仑万维在多模态范畴的开展快速且成效显着，为公司未来的产品立异和商场竞赛力打下了坚实的根底。

科技：多模态的终极形状或许便是国际模型，您怎样看？

颜水成：我个人十分认同这一观念，并且对国际模型的了解也在不断演进。全体来说，多模态的终极方针便是“all-modality-in, all-modality-out”，即输入和输出包含一切模态，而中心在于生成的内容有必要契合实践国际的逻辑和物理规律。这样的才干能够让模型更挨近于人类对国际的了解和互动方法。

视频作为当今人类获取信息的首要方法，视频生成技能的开展有望彻底改动内容出产的方法，大幅前进创造功率。当视频模型开展到能够传神模仿物理国际时，游戏或许不再需求传统的3D引擎，许多试验和模仿将能够在虚拟环境中进行，而影视创造也将变得愈加遍及，乃至成为每个人的基本技能。虽然这些看似是未来的场景，但技能正一步步将它们变为实践，视频生成模型的炽热正是这一趋势的重要体现。

科技：AI大模型、AI交际、AI游戏、AI查找、AI视频和AI音乐等事务矩阵，都是昆仑万维布局的范畴。在您看来，这些测验是多，是少？什么才实在是昆仑万维在AI范畴的中心竞赛力？

颜水成：我以为这些测验是十分合理的。每个产品的潜力各有不同，有的或许终究只能开展到独角兽规划，而有的则有时机成为更大的事务。不只每个探究的方向都具有生长为优质事务的潜力，更重要的是它们之间的技能能够互相学习和同享，乃至或许催生出全新的事务形状。

昆仑万维在AI范畴的中心竞赛力实践上在于这些事务背面同享的六个大模型：言语大模型、多模态大模型、音乐大模型、语音大模型、视频大模型和3D大模型。这些模型不只支撑着现有的事务开展，还为未来的立异供给了技能根底。经过这些底层技能的共用和迭代，昆仑万维能够敏捷呼应商场改动，并不断推进产品的演进和晋级。

科技：有观念称，昆仑万维从游戏转型AI，跨度很大，是在追热门。

颜水成：我以为昆仑万维的转型是寻觅“第二添加曲线”而非追热门。优异的公司不会仅满足于现有事务，而是会在老练事务的根底上活跃探究新的添加点，保证公司在快速改动的商场中坚持生机和竞赛力。AI正是昆仑万维在游戏和文娱事务根底上拓荒的新赛道，是对未来添加的前瞻性布局。

昆仑万维多年来在游戏和文娱范畴堆集了丰厚的2C产品的经历，这些是新的AI产品的根基。AI作为咱们的第二添加曲线，不只为昆仑万维带来了新的商场空间，还为公司未来的开展注入了新的动力。

科技：昆仑万维“All in AGI与AIGC”战略，从您的视点来看，这场战要想打赢，决胜战争是什么？

颜水成：要打赢这场战，要害在于公司AI产品的商业形式是否树立。决胜的中心战争是既能精确掌握用户的实在需求，又能持续前进AI模型的才干，一起有用下降模型的推理本钱。下降本钱不只需求算法和体系层面的持续立异，还需求在芯片范畴获得打破。

为此，昆仑万维在AI产品、AI研讨、AI根底设施（AI Infrastructure）和AI芯片等多个方面进行了全面布局。咱们不只专心于优化算法和体系，还活跃推进芯片技能的立异，以支撑AI模型的高效运转。经过这样全方位的布置，咱们力求打造从底层技能到使用场景的完好生态链，以保证在AGI与AIGC范畴占有优势，实在完成商业化落地。

科技：现在各家大模型有的趋于同质化了。

颜水成：我认同这一观念，并且未来同质化现象或许会愈加显着。跟着言语模型规划的不断扩大和数据量的添加，练习大模型的本钱逐步超出大多数小公司的承受规划。一起，开源大模型的功能也在快速前进，使得从零开始练习一个全新大模型的必要性越来越低。因而，越来越多的公司将挑选持续练习（continual training）和开发高效小模型，这天然导致模型的同质化。

此外，从现在现已揭露的开源模型来看，模型自身的差异性并不显着，更多的差异体现在数据挑选和一些微立异上。这种状况决议了大模型的开展趋势会趋向同质化，这是商场开展和技能资源分配下的必然结果。

科技：现在AGI还没有一个切当的界说规范，您以为今日的国内大模型商场有哪些共同与非共同？在您看来，何时才是“奇点时间”。

颜水成：现在国内大模型商场存在几大共同：

1. Transformer和MOE架构的才干：咱们遍及认可Transformer模型架构和MOE结构具有满足的拟合才干，能够充沛学习和了解现有的许多文本数据。

2. Scaling Law的潜力：咱们共同以为Scaling Law还没有到极限，进一步前进模型功能的要害或许在于组成数据（synthetic data），这一方向正在被广泛注重和探究。

3. 视频生成的远景：视频生成被以为是未来的一个重要方向，咱们遍及看好其开展潜力，以为其大迸发指日可下。

在非共同方面，也有不少不合：

1. Transformer是否是AGI的终究架构：虽然Transformer现在是干流架构，但职业对其是否会成为AGI的终究模型存在不合。虽然有新的架构被提出，但还未能实在不坚定Transformer的中心位置。

2. 大模型的监管力度：不同国家和地区对大模型的监管方针存在较大差异，职业对怎样平衡立异与监管、保证数据安全和隐私的观念也并不共同。

3. 模型的商业化途径和功率前进：在怎样更高效地完成模型的商业落地和持续优化方面，职业界也存在不同的思路和探究途径。例如，有的企业聚集于下降推理本钱和模型优化，而有的企业则侧重于数据笔直化和职业定制化，这种战略上的差异也体现出非共同的一面。

要实在迎来“奇点”时间，需求在几个要害方面获得打破：一是完成大模型在更多实践使用中的成功落地，能够大规划处理实践问题并发生经济效益；二是树立完善的AI道德和监管结构，保证AI技能的开展在可控和安全的规划内；三是技能立异持续打破，如数据处理、模型架构等方面不断前进。只要在技能老练、商业形式验证、社会承受度前进等多个维度一起获得开展，职业才干迎来实在的“奇点”时间。

科技：关于现在中美AI的距离，有人以为中美平起平坐，有人以为我国显着仍是落后于美国。

颜水成：关于中美在AI范畴的距离，我以为两国各有优势，并不彻底是简略的“抢先”或“落后”能够归纳。美国在根底研讨、顶尖人才和中心算法立异方面的堆集深沉，具有全球抢先的AI企业和学术组织，这使得美国在技能立异和前沿打破上占有优势。而我国在使用层面、数据规划和商场落地速度方面体现杰出，尤其是在AI技能的实践场景使用和商业化上开展十分快。

我国的优势在于巨大的数据资源和商场规划，能够敏捷将AI技能转化为实践使用，推进了工业的快速开展。一起，国内的AI企业和研讨组织也在不断加大投入，技能水平在许多范畴现已逐步缩小距离。

未来，两国在AI范畴的竞赛和协作将持续推进全球AI职业的开展。我信任，经过不断尽力和立异，我国有时机在更多的AI范畴获得打破，与国际抢先水平齐头并进。

科技：这几年经历过认知层⾯⾃我推翻的时间吗？

颜水成：和许多人相同，ChatGPT的呈现对我来说是认知层面的一次推翻时间。它敏捷让言语模型成为AI范畴最中心和最有价值的课题，展现了AI在某些使命上真的能够逾越人类。其时我意识到，作为研讨者，必定不能置身于AI最前沿的课题之外，由于很难再找到比言语大模型更值得深化的研讨方向。恰逢那时我刚从Sea集团脱离，所以挑选参加智源人工智能研讨院，深耕这一范畴。

另一个自我推翻的时间是Sora的呈现。本来以为不或许完成的使命，却被不断打破，这让我信任国际模型的潜力是实在存在的。Sora的呈现不只验证了这一或许性，也预示着视频工业及其他范畴将迎来巨大革新。

关于我的研讨而言，方针一直是“Know More About Intelligence”。虽然有观念以为研讨者应据守自己的范畴，不该追逐风口，但我的挑选是一直站在AI开展的最前沿。这两次认知上的推翻让我毫不犹豫地拥抱这些改动，由于它们带来了了解智能实质的全新时机。

关于《情绪AGI》

科技重磅推出系列对话栏目《情绪AGI》。曩昔三年，AI革新如火如荼，全球科技次序正在重构，通往AGI的路途或许正在悄然接近。本栏目以AGI为题，将对话100位AI专家、企业家、出资人，企图拨开云雾，与咱们一道见证AGI年代的到来。第十五期对话荣耀CEO赵明。

往期回忆：

《情绪AGI》第一期：对话李开复：大模型创业狂奔一年中美距离缩小我十年不套现

《情绪AGI》第二期：对话王小川：咱们不跟进大模型价格战

《情绪AGI》第三期：对话戴文渊：大模型价格战不处理中心问题

《情绪AGI》第四期：智源研讨院院长王仲远：GPT4不是国内大模型的止境

《情绪AGI》第五期：对话朱啸虎：5年后将没有独立的大模型公司存在，由于没有商业形式

《情绪AGI》第六期：对话梅花创投吴世春：“我国大模型五虎”想要跑出来十分难

《情绪AGI》第七期：对话跃然立异CEO李勇：做大模型使用怎样和巨子错位竞赛