【资料图】
作者 | Chenglin Pua(马来西亚) 编审 | 于百程
来源|01元宇宙
以聊天机器人ChatGPT为代表的AIGC的异常火热,将AI再次推到聚光灯之下。AIGC(AI generated content,即人工智能自动生成内容)被认为是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式。人们发现,AIGC已经飞速成长,甚至在接下来的时间有进一步的突破和规模化的商业应用。近期,微软宣布ChatGPT将会与旗下的Office软件以及搜索引擎Bing结合,此消息给谷歌带来了极大挑战,巨头们的AI竞争再度白热化。实际上,谷歌、Meta和百度等在AIGC上也有不同程度的布局。ChatGPT简介ChatGPT 是 OpenAI 开发的一款专门从事对话的人工智能聊天机器人原型。聊天机器人是一种大型语言模型,采用监督学习和强化学习技术。ChatGPT 于 2022 年 11 月推出,尽管其回答事实的准确性受到批评,但因其详细和清晰的回复而受到关注。ChatGPT 使用监督学习和强化学习在 GPT-3.5 之上进行了微调和升级。ChatGPT的相关模型是OpenAI与微软合作在其 Azure 超级计算基础设施上进行训练的。ChatGPT 的训练数据包括手册页、互联网现象和编程语言的知识,例如公告板系统和 Python 编程语言。ChatGPT 获得了普遍正面的评价。《The Guardian》的Samantha Lock指出,ChatGPT能够生成令人印象深刻和类似人类的文本。然而新的科技是一把双刃剑,带来好处的同时也会带来许多弊端。例如学生利用ChatGPT来生成作业,或是利用ChatGPT来写文章等等。在一篇评论文章中,经济学家Paul Krugman写道,ChatGPT 未来将影响知识工作者的需求,很可能对此工作领域产生深远的影响。微软:ChatGPT或将加入Office和BingChatGPT的横空出世,让人们看到了AI的更大创造力,再次给了人类很大想象力。而微软作为OpenAI背后的金主爸爸之一,也积极把握ChatGPT的优势,希望把ChatGPT整合进Office(包括Word、PowerPoint、Outlook等软件)以及微软旗下的搜索引擎Bing。微软已经讨论在Word、PowerPoint、Outlook和其他应用程序中加入OpenAI的人工智能,用户通过简单的提示,就可以自动生成文本。想象一下,在需要请假时,只要随手打出“写一封请病假的邮件”几个字,Outlook就能秒秒钟把措辞正式的请假申请写好,直接点击发送即可。微软的工程师和研究人员一直致力于创造用于撰写电子邮件和文档的个性化AI工具。个性化定制,可以使AI理解对个人或公司具有独特含义的词语,例如特定个人的姓名、具有特定含义的术语、特定的工作场所,还可以让AI更好地解析电子邮件和文档草稿,并据此提出写作建议。微软计划将ChatGPT整合进自家的搜索引擎必应(Bing),希望从而挑战谷歌在搜索引擎界压倒性的领先地位。而整合进Office软件里,也将会加强自己在办公软件方面的霸主地位,后来者与微软之间的差距会越来越远。市场预测,或许在2023年3月,微软将会把ChatGPT成功整合进Bing,Bing会直接向用户回答完整的句子。而微软的野心,实际上也威胁到了另一个搜索巨头——谷歌的地位。谷歌虽然一开始表示没有兴趣在AIGC方面,但近期却是感觉到了威胁。为此,谷歌也不得不采取一些动作了。微软在AIGC方向除了布局ChatGPT之外,还有Copilot与Dall·E 2。2021年6月微软发布了Copilot,是微软 Visual Studio Code 中内置的一项新的软件开发人工智能协助服务。GitHub Copilot 支持各种语言和框架,可以在 IDE (integrated development environment,集成开发环境)内为整行或整个功能提供建议。GitHub Copilot 由 OpenAI Codex 提供支持,它是在数十亿行的开放源代码上训练出来的,为开发者提供有偿(定价 10 美元 / 月或 100 美元 / 年,学生免费使用)的 AI 服务,包括能够自己生成部分代码以及自行修复部分bug。在2022年10月19日举办的Ignite 2022大会上,微软宣布推出DALL-E2,一个文本到图像的AI生成模型。DALL-E2生成图像的结果令人印象深刻,以至于许多行业组织和艺术家都在考虑使用它来创作原创艺术。使用者只要输入文字描述(Prompt),AI图像生成工具就会自动产出其认为符合描述的图像。谷歌推出Sparrow硬刚ChatGPT微软频出险招,谷歌自然不能坐以待毙。根据DeepMind创始人Demis Hassabis在2023年1月12日《时代》专访中透露的信息,谷歌很有可能会利用DeepMind此前推出的Sparrow,来应对微软ChatGPT的挑衅。Demis Hassabis表示,谷歌手中就有好几个酝酿了很久的大模型,比如LaMDA、Imagen、Chinchilla和Flamingo等等,但从未对外公开。而如今微软把谷歌逼急了,谷歌准备把这些模型发表。虽然ChatGPT很费钱,每天大约都要烧掉30万美元,但人们永远都会记住,在2022年12月,ChatGPT写下了大规模语言模型历史上浓墨重彩的一笔,让全世界人民为了和机器人聊天挤爆了服务器。2020年,谷歌就推出了一个26亿参数的端到端神经网络对话模型Meena。但仅仅只是推出,没有将其应用于任何产品,推出后的反响也没有很大。谷歌此前担忧AI聊天机器人非常容易被“带偏”,因AI训练的数据来自互联网,往往充满了偏见、仇恨和谩骂,所以AI会生成攻击性内容,以及与事实不符的答案。但如今的谷歌,恐怕无法再趋于保守了。DeepMind的聊天机器人Sparrow可能会在2023年晚些时候进入测试阶段(private beta)。Demis Hassabis表示,之所以推迟发布Sparrow,是希望让Sparrow在基于强化学习的功能上更进一步,而这正是ChatGPT所欠缺的。和ChatGPT类似,DeepMind在2022年9月提出的Sparrow模型,采取了一种基于人类反馈的强化学习(RL)框架。Sparrow模型在最初的设计时就是为了和用户闲聊,并且可以在回答问题时,利用谷歌搜索出相关的信息来作为支撑证据。而为了确保模型的行为是安全的,还必须对其行为进行约束。因此,研究人员为该模型确定了一套最初的简单规则,例如不要发表仇恨或侮辱性的言论、不要冒充或假装是一个真人等等约束。比如用户问如何偷车时,Sparrow模型会说,自己受到的训练是不会给任何违法行为提供建议,这也是与ChatGPT不同的地方,有类似道德上的约束,而不是盲目的回答人类的指令。此前谷歌曾在AIGC领域上有着相对不错的表现。例如Chinchilla的参数量(700亿)只有GPT-3的零头(1750亿)。然而Chinchilla在几乎所有的语音任务中都比前辈们表现得更好,包括GPT-3。然而如今却是画风突变,微软也开始威胁到了自己的地位。毕竟,广告业务为谷歌狂挣了5628亿美元,占公司总收入的81%。目前,有报道表示目前谷歌已经发布了“红色代码”,重点解决ChatGPT对本公司的搜索引擎业务构成的威胁。谷歌许多团队开始协助人工智能原型和产品的开发、发布。在可预见的未来,谷歌将会积极入场AIGC领域,目前OpenAI的试水反响相当不错,有人探出了前路,谷歌或许能够少走些弯路。在2023年即将发布的Sparrow测试版,身上肩负的使命着实不小。百度全面布局AIGC领域2022年1月10日,百度召开Create大会,开场视频便是数字人希加加在不同维度的虚拟世界跑酷穿梭;更有数字人乐队演绎歌曲,从作词、作曲到编排,全部是由AIGC生成。虽然整场大会当然有专业制作人员参与,但AI这次加入了各个环节之中。Create大会就像一个百度的AIGC秀场。2022年8 月,百度基于自身的文心大模型也推出了AI 绘画平台:文心一格。此平台明确定位为面向有设计需求和创意的人群,基于文心大模型智能生成多样化AI创意图片,辅助创作者的创意设计。2022年9月23日举办的2022万象·百度移动生态大会上,百度发布了AI助理,堪称AI打工天团,覆盖了各种AIGC应用,包括AI自动生成文字、图片,图片转换成视频。用百度的话来说,这个团队里不仅有文案、插画师,还有视频制作人,熬夜加班的活儿都可以交给AI了。当前,短视频战役愈发白热化,百度如果想对短视频再次发起冲击,杀出重围,需要更具杀伤力的秘密武器。而AIGC,则被百度视为一把利刃。借助AIGC的力量,百度希望掀起一场内容生产革命,为百度现有的500多万百家号创作者带来一套AI生产内容工具,帮助他们更快、更好地产出视频内容,从而增加百度百家号等产品的用户粘性,以反击头部短视频平台。百度移动生态负责人何俊杰认为,AIGC技术将成为百度移动生态的新变量新方向。基于AI生产文案、图片、图文转视频等技术,百度已经和数十家权威媒体成立“AIGC媒体联盟”,希望能够利用AIGC来改变如今的媒体行业。除了以上的成果之外,百度早前在AIGC领域的成果包括了百度的数字人度晓晓曾发布MV《启航星》,作画、作词、作曲,全部由AI一手操刀;百度AI数字人度晓晓,挑战写高考作文,40秒写了40篇,得分可以排在总考生前 25%。Meta布局视频领域的AIGC工具实际上,Meta在AIGC领域也有布局。2022年11月,Meta推出Make-A-Video,用AI驱动文本、图片生成短视频等。Meta 旗下人工智能实验室 Meta AI,发布了从文本生成视频的AI系统“Make-A-Video”,即根据输入的自然语言文本生成一段5秒钟左右的短视频。并且在此基础上,拓展到从图像生成视频,和从视频生成视频。Meta 创始人扎克伯格表示,AI生成视频要比图像困难得多,这是非常惊人的进步。系统除了要正确生成每个像素外,还需预测像素将如何随时间变化。Make-A-Video 能够理解物理世界中的运动,并将其应用于传统的文本生成图像AI技术中。例如,输入“一只泰迪熊在画肖像”,Make-A-Video 便能生成一个泰迪熊般的角色,在画板上绘画的画面,并表现出细腻的手部动作。同时,Make-A-Video 还允许输出超现实、写实、风格化等不同的视频类型。在此基础上,Make-A-Video 进一步拓宽了视频生成的输入窗口,支持从单图片、两张相似图片、一段视频素材输出一段视频。例如上传一张静止的航海油画,Make-A-Video 会输出一段正在海浪中前行的帆船视频;还可以为两张相似的陨石图像,补全一段陨石运行变化的视频;甚至是根据一段玩偶跳舞的视频,生成多个类似的视频。Make-A-Video是建立在 Meta 已有的AI图像生成技术之上,AI 模型 Make-A-Scene。Make-A-Scene用数百万个示例图片训练AI模型学习图像和文字间的关系,并最终能从输入的文本生成图像。
Make-A-Video生成的照片