(报告出品方/分析师:东方财富证券高博文陈子怡)

1.趋势

1.1.发展历程:算法不断迭代,效果日渐逼真

AIGC(AI-GeneratedContent)尚无统一规范的定义,国内产学研各界对于AIGC的理解是“继PGC(ProfessionalGeneratedContent)和UGC(UserGeneratedContent)之后”,利用人工智能技术自动生成内容的新型生产方式。

国际上对应的术语是“人工智能合成媒体(AI-GeneratedMedia或SyntheticMedia)”,是通过人工智能算法对数据或媒体进行生产、操控和修改的统称。

AIGC、NFT和VR是元宇宙和Web3.0的三大基础设施,随着数据积累、算力提升和算法迭代,人工智能正逐步在写作、编曲、绘画和视频制作等创意领域渗透。

结合人工智能的演进历程,AIGC的发展大致分为三个阶段:

萌芽阶段(s-s):受限于科技水平,仅限于小范围实验。年,莱杰伦·希勒和伦纳德·艾萨克森通过将计算机程序中的控制变量换成音符,完成了历史上第一支由计算机创作的音乐作品——《依利亚克组曲(IlliacSuite)》。80年代中期,IBM基于隐形马尔科夫链模型创造了语音控制打字机“坦戈拉(Tangora)”。由于高昂的系统成本却无法带来可观的商业化,人工智能领域的投入持续减少。

积累阶段(s-s):AIGC从实验性向实用性逐渐转变。年,罗斯·古德温使用人工智能系统通过对公路旅行中的一切所见所闻进行记录,撰写世界第一部完全由人工智能创作的小说,但整体可读性不强且缺乏逻辑。年,微软公开展示了全自动同声传译系统,基于深层神经网络通过语音识别、翻译和合成生成他国语音。算力性能提升和互联网数据膨胀为人工智能提供了海量训练数据,使其取得了显著发展。

提速阶段(s-至今):随着生成式对抗网络(GenerativeAdversarialNetwork)为代表的深度学习算法的迭代创新,AIGC内容的效果日渐逼真。年,英伟达发布的StyleGAN模型可以自动生成图片。

年,DeepMind发布了DVD-GAN模型用以生成连续视频,在草地、广场等明确场景表现突出。

年OpenAI推出DALL-E,并根据Diffusionmodels推出升级版本DALL-E-2,主要应用于文本与图像的交互生成内容,用户只需要输入简短的描述性文字,即可得到高质量的各类风格绘画作品。

1.2.内容生产:从PGC到UGC,从UGC到AIGC

随着技术的发展,内容的生产方式也随之变化,从PGC到UGC,再从UGC到AIGC。

根据Questmobile数据显示,年上半年以UGC为主要生产方式的短视频时长进一步增长2.3个百分点达28.0%,以PGC为主要生产方式的在线视频时长下降0.2个百分点达6.6%。相比于PGC,UGC具有供给量充足、快速试错、优胜劣汰等优势,成为当前内容生产的主要形态。

AIGC是UGC发展到一定阶段的必然产物。

一方面,内容生产的升级依赖于工具的迭代,而工具的迭代依赖于对优质内容的总结。以抖音为例,美颜、配音和特效简化内容制作,而创作者对于热门和优质内容的模仿又推动优质内容的集中产出。

事实上,推荐算法的结果将加剧局部的中心化,一个爆款内容往往带动的是一类爆款内容。可以说UGC是基于PGC内容的,从影视内容的二次创作到爆款内容的扩散。同理,大量的UGC内容也是AIGC的温床,AI通过对数据的深度学习和归纳,不断提高内容的质量。

将UGC供给量充足、快速试错、优胜劣汰的优势进一步深化。

另一方面,尽管UGC极大提升了内容的供给量,但仍难以满足日益增长的用户需求。

以哔哩哔哩为例,自年第一季度到年第二季度,用户日均观看量从6.6上升至33.8个视频/天,用户对内容的需求不断提升。而内容创作者渗透率约1.2%,月均投稿3.7篇/月,仍然难以满足用户的消费需求,短视频相对供给更充足但内容质量略低。AIGC将弥补这一供给缺口。

AIGC并不是一蹴而就,百度创始人、董事长兼首席执行官李彦宏在百度世界大会中判断AIGC将迎来三个发展阶段:

1)助手阶段,AIGC辅助人类进行内容生产;

2)协作阶段,AIGC以虚实并存的虚拟人形态出现,形成人机共生;

3)原创阶段,AIGC将独立完成内容创作。

1.3.内容形态:从文字到图片,从图片到视频,从视频到游戏

内容生产方式和内容形态不可分割。从内容形态的难易程度来看,依次是文字、图片、视频和游戏。游戏领域的UGC仍不成熟,文字领域的AIGC日趋成熟,由此推演,图片和视频领域的AIGC化即将到来。

文字:相对专业性较强的博客自年进入中国,用户仅停留在数十万级别。

微博于年上线,对文字内容的数量和质量要求大幅下降,到了年10月底微博的注册用户即超过万。年腾讯财经开发的写稿机器人Dreamwriter发出第一篇稿件。发展至今,青云智能开放平台(Dreamwriter)年发稿量30万篇,稿件字数万,平均成文速度为0.46秒/篇,涵盖财经、体育、房产、法律等二十多个场景。

图片:视觉中国成立于年,逐步从编辑类图片涉及创意类图片,与海外图片巨头Getty有稳定的合作。

年以后,像我图网、图虫网这样的UGC类型摄影师社区也逐步出现,视觉中国也于年收购了全球知名摄影社区px。年,OpenAI宣布开放DALL.E2接口,已有万人使用过DALL.E2,每天创造图片数量超过万。国内诸如盗梦师等品牌纷纷推出自研的AI绘画工具,可以通过文字AI生成多种风格和画师的画作。

视频:国内三大长视频网站中优酷(年)、爱奇艺(年)、腾讯视频(年),早期优酷尝试过偏UGC模式,但由于版权等问题,最后仍以PGC内容为主。

年,以PUGC内容为核心的哔哩哔哩成立了,并且逐步从二次元内容向游戏、科技、动漫、影视、生活等多领域延伸。真正实现视频UGC的大规模普及还是由抖音(年)和快手推动,其用户超过70%都上传过内容。短视频的AIGC化也初见成效,MOBA类国民级游戏王者荣耀年7月上线了视频战报功能,可以将玩家的精彩瞬间汇集成1分钟的短视频内容。

游戏:游戏的互动性更强,其制作难度远高于视频。

年,全球第一款图形图像多人在线网络游戏《UltimaOnline》由美国EA公司推出。至今为止,游戏的制作仍然以专业机构为主。

元宇宙第一股Roblox于年成立,是世界最大的多人在线创作游戏,其中大多数游戏作品都是用户自行建立,从FPS、RPGC到竞速、解密,全由玩家操控的圆柱和方块形小人参与完成。

Roblox尽管提供了非常优秀的创作工具,但其画面效果仍较为粗糙,游戏领域的UGC化并不普及。

另一个广为人知的游戏UGC案例是DOTA,其是基于《魔兽争霸》的地图编辑器而来,通过一系列特定的游戏规则和英雄,打造成风靡一时的游戏,并持续影响着诸如《英雄联盟》和《王者荣耀》等MOBA类游戏。

2.技术

2.1.NLP:AIGC发展最早技术,多应用场景商业化落地

自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的科学,是人工智能的核心课题之一。

基于NLP技术的文本生成则是AIGC发展最早的技术,已经在众多应用场景中大范围商业化落地。比如“搜索的自动更正”,当你在搜索引擎中输入几个文字后,系统自动显示可能的搜索关键词;当你搜索文字存在错别字的情况下,系统自动更正错别字。“语音助理”,像苹果Siri等,通过自然语言处理来理解用户的口头命令并执行相应的操作。

这些自然语言处理的应用场景如今可谓是随处可见。

NLP经历了“One-Hot”、“Word2Vec”、“Bert”等多代技术的更迭。

1)One-Hot是NLP的第一代技术,其做法简单,NLP以“词”为单位,将整个样本库的所有词转换成一个词典,不同的词做成不同的维度矩阵来表示。每一个维度代表一个词,不能重复。转换的过程就像填空题,将对应的维度位置作为1,那其他的剩余的维度位置都是0,这也是“One-Hot”用作命名的原因。

2)Word2Vec是NLP的第二代技术。One-Hot的运用简单粗暴,但大量的数字造成空间的浪费。Word2Vec是在第一代的基础上,塞进了CBOW模型(通过上下文的词预测中心词)、Skip-gram模型(通过中心词预测上下文的词),将其维度降低。Word2Vec与深度学习有着密不可分的关系,其能将关系表示出来,比如“King–Man+Woman=Queen”。

3)Bert是NLP的第三代技术。One-Hot和Word2Vec在遇到多义词上显得比较乏力。Bert基于PTM(预训练模型),其在SQuAD任务中有着非常优秀的表现。Bert采用两阶段过程,第一个阶段是利用语言模型进行预训练,第二阶段通过Fine-tuning的模式解决下游任务。

NLP的核心任务是“判别”与“生成”。

1)自然语言理解:使计算机能够与人一样拥有正常的语言理解能力。以往,计算机只能处理结构化数据,而自然语言理解使得计算机能够识别语意。

2)自然语言生成:将非语言格式的数据转换成可以理解的语言格式,如文章等。自然语言生成主要包括:内容确定、文本结构、句子聚合、语法化、参考表达方式以及语言实现。

综合来看,自然语言理解是人工智能的基础功能,无论是文字、图片、视频还是游戏的AIGC,理解人类语言并转化成为计算机能够识别的数据都是非常有必要的。而自然语言生成是文字AIGC化的核心,最终的输出形式是符合人类理解的语言格式。

2.2.GAN:图像生成传统思路,仍需解决不稳定等问题

生成式对抗网络(GAN,GenerativeAdversarialNetworks)是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。

其由生成器和判别器两部分组成,生成器将抓取数据、产生新的生成数据,并将其混入原始数据中送交判别器区分。

这一过程将反复进行,直到判别器无法以超过50%的准确度分辨出真实样本。

年,自IanGoodfellow等人提出《对抗式生成网络》并将其应用于图片和视频领域,其应用场景不断丰富。HanZhang等人于年发表题为《StackGAN:使用堆叠GAN技术进行文字-图片转化及合成》的论文,介绍了如何运用StackGAN将对于简单物体的文字描述转化为现实图片。

年,AndrewBrock等人发表了题为《用于高保真自然图像合成的GAN规模化训练》的论文,展示了用BigGAN技术生成合成照片。

相较于年初现期,现有的GAN在神经网络架构、损失函数设计、模型训练稳定性、模型崩溃问题上取得了相应突破,提升了最终图像的特定细节、内在逻辑、生成速度等。

但要在实际应用中大规模稳定应用,GAN仍需解决以下问题:

1)训练不稳定:GAN模型在相互博弈过程中容易造成训练不稳定,使得训练难以收敛。

2)样本大量重复相似:是GAN模型图像生成时最难解决的问题,会造成训练结果冗余、图像质量差和样本单一等问题。

3)GAN模型需要压缩:将GAN模型镶嵌入小型软件中,需要根据需求调整模型大小。

2.3.Diffusion:新一代图像生成主流模型,带动AIGC进入新篇章

年,DiffusionModel成为图像生成领域的重要发现,甚至有超越GAN的势头。其模型来源于年名为《DenoisingDiffusionProbabilisticModels》的研究,并被DALL·E等应用而爆火。DiffusionModel和其他模型的不同点在于其latentcode(z)和原图是同尺寸大小的。DiffusionModel通过前向过程(Forwarddiffusionprocess)往图片上添加噪声,再通过逆向过程(Reversediffusionprocess)去噪推断过程。

估值亿美元的人工智能巨头OpenAI专门写了一篇名为《HierarchicalText-ConditionalImageGenerationwithCLIPLatents》的论文,来说明用DiffusionModel生成的图像质量明显优于GAN模型。

此外,StableAI公司向公众开放了StableDiffusion的预训练模型权重,任何人都可以在为普通消费者设计的硬件上下载和使用StableDiffusion。

也就是说,新一代图像生成模型DiffusionModel的竞争更多不是基于技术的,而是数据和商业化上的竞争。

3.商业化

3.1.RosebudAI:广告行业采用率高,即将上线AI素材平台

Rosebud由LishaLi于年创办,总部位于旧金山。RosebudAI是一款生成文本、图像、视频和语音的工具,其使用AI以编程方式创建图像和视频,或者帮助创作者在没有智能合约或web3.0体验的情况下创建NFT集合。

此外,还通过将现有的计算机图形技术与AI研究相结合,提供创作和编辑视觉内容,使客户能够为旧照片添加动画并将其艺术赋予生命。

RosebudAI的产品套件包括Synth、Tokkingheads和Pixelvibe等,覆盖了图片生成,衍生加工以及素材平台。

Synth是一款拥有移动端和网页端的利用AI创作包括字符、风景、人像等的智能角色生成器,可以从文本中创建角色、头像、动画、风景和艺术品。

例如,描述你想要创造的东西(“动漫女孩”),指定一个模型和美术风格(超过20种风格:动漫,幻想,现实,卡通等),点击“创建”,Synth只需要几秒钟就可以根据你的原始描述制作出一幅AI生成的艺术品。

Tokkingheads是一款即时人像动画应用程序,用户可以通过输入音频、文本或者上传即时动态视频,生成任意一个给定目标(包括照片、合成图片、动画等)的动画。

PixelVibe是公司即将上线的以AI生成为基础的素材摄影平台。PixelVibe中,用户无须使用文字标签,可以通过点击目标图像,或者描述想要得到的图片,进而获得数以千计的相关素材。目前,公司已推出了超过10万张图片,并计划在未来几个月增加数百万张。

平台主要采取订阅式付费模式。目前,公司的产品均采用订阅式付费模式。其中,Tokkingheads的订阅付费模式价格在12.99美元/月-49.99美元/月,主要权益包括去水印、图像清晰度、视频长度等;Synth的会员价格为12.99欧元/月,主要权益包括水印,以及是否可以商用等。

由于推广某种产品或服务通常需要创建独特但重复的内容,例如拍摄模特的照片图像,因此公司的技术和产品在广告业和营销业采用率最高。

年,公司提供了超过25,张为不同的虚拟人建模图像,可以供客户根据需求自由调整包括微笑程度、年龄、五官等特征,并将模型衣服穿到虚拟真实模型上,还可以根据详细的受众人口统计数据制作无限变化的模型并使用各种视觉效果来定位客户。

根据公司声明,利用他们的人工智能生成模型的第一个活动显示点击率增加了22%。

3.2.巴比特:率先媒体AI配图,一站式区块链版权存证

以AI创作自有版权图片取代付费图片库版权图片。-年,长铗、吴忌寒创建巴比特,以白皮书和专著形式做区块链技术的传播推广。-年,先后上线了巴比特区块链数据产品区块元和区块链公链项目比原链。年至今,巴比特获普华资本、泛城资本联合领投、启赋资本、比特大陆跟投的1亿元A轮融资,收购信链社。近期,巴比特郑重宣布规模化采用AIGC,以AI创作自有版权图片。

此前,巴比特内容使用的是国内主流的付费版权库图片,以及无版权图片库图片。现在,巴比特AI配图主要应用于自家自媒体平台头条图片、文章配图,包括但不限于巴比特网站和APP、



转载请注明地址:http://www.xianrenzhangaxrz.com/xrzsc/11462.html