什么是合成媒体? 类型、优点和最佳实践
已发表: 2023-07-26我们所做的事情有没有不涉及媒体的?
滚动社交媒体应用程序、听音乐、看电视、工作——媒体就在我们身边。 我们消费的内容比我们前几代人想象的要多,新技术让我们积极参与内容的创作。
如今,任何人都可以设计漂亮的网站、在 TikTok 上进行编辑、创作音乐或在度假视频中应用搞笑的 Snapchat 滤镜。
那么,是什么推动了这场内容创作革命呢?
随着计算机变得越来越智能,制作内容需要我们人类的参与越来越少。 这种情况的结果是合成媒体,一种人工生成的媒体形式。
合成媒体软件等工具可以创建由人工智能 (AI) 生成的音乐、文本、图像和声音合成。 随着合成媒体公司试图颠覆传统媒体过时的方面,创作新作品变得更加简单。
什么是合成媒体?
合成媒体是一种利用人工智能(AI)创建的新型虚拟媒体。 高度的真实性和沉浸感使其有别于其他形式的传统媒体。
合成媒体是通过自动化手段人工生产、操纵和修改数据和媒体以欺骗或改变其原始目的的总称。 这些修改通常是通过人工智能算法来实现的。
我们的沟通方式始终与当时可用的技术有着千丝万缕的联系。 目前,我们正在见证技术的稳步进步,这带来了新的沟通方式,例如在创作、消费和情境化方面有所不同的新媒体格式。
随着越来越多的企业认识到合成媒体的全部潜力,它的利用将彻底改变众多行业和应用程序,从而产生令人震惊的结果。
35,620.9 亿美元
是到 2027 年全球合成媒体市场的预计价值。
来源: 360咨询
合成媒体如何运作?
生成人工智能是合成媒体生产背后的技术,这就是为什么这两个术语经常互换使用的原因。 如今,许多人工智能应用程序都是通过深度学习和生成对抗网络(GAN)来实现的,这些网络教会计算机像人类一样思考并做出明智的决策。
GAN 让计算机生成真实的内容。 它由两个神经网络推动:一个根据实际照片创建虚假图像,另一个则充当判断图像是否真实的角色。
GAN 输出通常看起来很自然,与原始图像没有区别。 因此,它们能够创建难以与真实媒体区分开的合成媒体,特别是在计算机视觉和图像处理应用中。
合成媒体与非合成媒体
合成媒体部分或全部由计算机构建。 非合成媒体是指以传统方式制作的所有其他媒体,即通过人工输入创建的媒体。
考虑两个具体实例。
首先是报纸上的故事。 它是一种非合成媒体,因为有人(人类)编写了它。 接下来,考虑一张使用 Instagram 滤镜在自然人脸上添加兔子耳朵的照片。 由于人工智能主要创造了它,因此媒体被认为是合成的。
合成介质的类型
每天,财富 500 强企业和独立制作人都会转向人工智能生成的内容。 下面讨论一些众所周知的合成介质形式。
- 基于文本的合成媒体使用机器学习软件 (ML) 和 AI 算法生成书面内容。 文本形式的合成媒体采用自然语言处理 (NLP) 工具,根据用户提供的输入数据或提示生成连贯、相关且类似人类的文本。
- 基于音频的合成媒体或文本转语音 (TTS) 技术利用人工智能算法将书面文本转换为口语音频。 这些人工智能系统使用录制的人类语音的大型数据集来学习人类声音的模式、语调和细微差别。 然后,它们生成合成语音,紧密复制自然的人类口音。
- 基于图像的合成媒体,包括文本到图像技术,采用算法从文本或其他数据输入(例如图像或艺术品)生成视觉内容。 这些合成图像使用 NLP、计算机视觉和先进的图形技术来创建逼真的视觉内容。
- 基于视频的合成媒体(例如文本到视频技术)使用户能够构建在生成的视频内容中使用的头像或数字角色。 用户可以创建类似于自己、其他人或虚构人物的合成视频。
合成媒体和深度伪造
在讨论合成媒体时,我们不能忽视臭名昭著的深度伪造。 Reddit 上的一位用户最初在 2017 年提出了这个术语,它是深度学习和fake的结合,并迅速流行起来。
一般来说,深度造假的名声不好。 该术语最常用于指经过更改的内容,使之看起来好像某人正在做或说一些他们实际上没有说过或做过的事情。
互联网上最著名的例子是 TikTok 频道,该频道以汤姆·克鲁斯 (Tom Cruise) 的 Deepfakes 为特色,该频道立即走红。 其他深度伪造品包括大卫·贝克汉姆(David Beckham)用九种语言来对抗疟疾,或者巴拉克·奥巴马(Barack Obama)的视频,讲述了真正的奥巴马永远不会公开说的话。
合成媒体示例和应用
合成媒体在多个领域提供了灵活性,从光学和能量存储到传输和通信,再到虚拟商务。 以下来自现实世界的示例展示了合成媒体的广泛使用。
- MetaHuman 是一款角色生成器,可帮助创建逼真的人类或数字化身,用于游戏中的角色设计和开发、动画和电影内容、广告或娱乐。
- CogVideo 是一种文本到视频的人工智能工具,可让计算机仅根据文本描述制作简短、连贯的视频片段。
- Thispersondoesnotexist.com 是一个使用人工智能真实渲染虚构人物的摄影图像的网站。
- DALL-E 2 是一种先进的人工智能技术,经过 2.5 亿张图像的训练,通过将文字与特定图像特征相结合来创造独特的合成艺术。
- Voiseed 是一项通过创建语音界面使音频内容人性化的技术,该语音界面使用情感和智能以真实、自然的语言进行交流。
- Icons8 和 Evoke 等平台制作人工智能生成的、无版权的音乐,使音频与人类创作的音乐没有区别。
合成媒体在工作场所的使用
虽然信任和道德问题可能难以克服,但合成媒体在工作场所的许多层面上都具有优势。 您可以使用合成媒体工具创建复杂的数据可视化、设计甚至电影。
分析师和研究人员经常使用这些平台来创建并向更多受众传播研究结果。 事实上,艺术总监也在将概念付诸开发之前使用它来建模概念。
当然,有些作品只是好奇心项目,比如人工智能衍生的艺术。 相比之下,其他人将成长为数字劳动力的一部分,其中合成媒体的好处可能会融入到更受监管的商业环境中。
在与使用不同语言的客户互动时,合成媒体工具可能会有所帮助。 例如,讲德语的消费者打电话询问产品,讲英语的工作人员可以利用实时翻译成德语的人工媒体工具来提供帮助。
因此,无论语言障碍如何,此类技术都可以使公司提供尽可能最好的服务。 这项技术正在通过 Translatotron 得到完善,Translatotron 是一款由 Google 驱动的人工智能软件,于 2019 年推出。
工作场所中的其他应用包括为员工和客户创建培训视频、为最有价值的潜在客户提供个性化营销活动,以及在向新客户或客户推销时提供独特的卖点或报价作为案例研究。 Synthesia 等多个平台可以开发这些项目,从员工培训到由人工智能软件支持的营销服务。
合成介质的优点
合成媒体工具正在通过更智能、更高效的方法重新定义我们的工作,从而产生前所未有的质量媒体体验。 下面讨论合成培养基的主要优点。
- 合成媒体的发展迅速,人类的投入可以忽略不计。 它可以为世界任何地方的任何受众量身定制。
- 它很方便,因为它每天都可以访问,并且可以留出时间进行更多互动元素。 由于合成媒体的动态特性,它不太可能变得停滞。
- 合成媒体产量大。 一般来说,媒介可以包括文字、音乐、图画、绘画或声音。 这种多功能性允许各种创造性的、基于媒体的格式。
- 由于其高度适应性,合成媒体可以在多个平台上运行。 除了游戏之外,公司还将其应用于应用程序、网站、虚拟现实和增强现实 (VR/AR) 体验以及许多其他数字渠道。 这使得它成为一种适应性很强的形式,可以广泛应用于各个领域,包括营销、教育、新闻、娱乐和艺术。
- 它可以创造真实的假象,使企业能够与观众进行交流,而无需支付演员费用或聘请专业摄影师或摄像师。
合成媒体的缺点
当任何人有能力制作此类媒体时,最重大的风险就来自于技术滥用。 这里提到了合成媒体的一些主要挑战。
- 由于人工智能技术主要负责输出的质量和适当性,因此它允许使用一些危险的合成介质。 这意味着对观众体验的控制更少。
- 深度造假技术的信任问题很难克服。 公众才刚刚开始意识到它如何被用来传播假新闻或误导个人相信某些事情是真实的,而事实并非如此。
- 合成媒体因其潜在的安全风险而受到审查,特别是在面部或语音识别软件等生物识别安全工具方面。
- 深度的人工相似度经常会陷入恐怖谷,导致用户脱离体验。 出现这种情况是因为这些相似之处看起来很真实,但给人的印象却有些不对劲。
- 人工智能生成的创意媒体(例如音乐和绘画)存在人类艺术性和工艺性的缺失,这一点值得争议。
合成媒体的最佳实践
互联网将从静态的、基于文本的交互演变为丰富的、交互式的交互,新的通信方式将永久改变媒体格局。 考虑到合成媒体是一门动态、复杂且不断发展的学科,我们必须遵守一些最佳实践。
- 评估数据。 信息不充分可能导致结果的误传和实施失败。 了解可用数据并相应地定义明确的目标。
- 选择正确的工具。 可用工具众多,选择合适的工具很大程度上取决于需求。
- 遵守法律和道德价值观。 了解任何产出的法律或道德影响是必要的。
- 采用以人为本的方法。 评估系统的预测、建议和决策的真正影响需要了解实际用户将如何响应。
- 测量并跟踪结果。 尝试使用人工智能,并在每一步都采用关键方法建立严格的监视、监控和测量。
合成媒体软件
随着新的竞争对手和尖端技术挑战既定标准,合成媒体软件市场正在不断发展。 这些平台使我们能够完全控制我们的合成媒体,并具有严格而全面的隐私标准,以保证该工具的安全使用。
要包含在此列表中,产品必须:
- 允许用户输入数据并获取合成媒体作为输出。
- 为非技术用户提供使用人工智能创建合成媒体的工具。
- 允许用户导出和共享合成媒体。
- 包括内容审核功能或指南。
* 以下是 G2 2023 年夏季网格报告中排名前五的领先合成媒体软件。 为了清晰起见,一些评论可能会被编辑。
1.综合
Synthesia 是一个用于创建人工智能生成的视频内容的平台。 它使您能够将基于文本的材料转换为小型影片,以提高销售内容的参与度、转化率和保留率。
用户最喜欢什么:
“该平台的用户界面非常棒而且非常简单。 这些模型可以很好地工作,有许多选项可供选择和自定义您的 AI 角色、背景和屏幕上的资产。 我将其与 Storyline 360 结合使用,结果令人惊叹。 我们的产品让人们惊叹不已。”
- 综合评论,Thomas S.
用户不喜欢什么:
“我觉得《Synthesia》的一个方面有点令人失望,那就是某些化身偶尔会有怪癖和奇特的动作。 具体来说,我并不是特别喜欢某些化身表现出的零星的蜱虫和不寻常的头部、眼睛和嘴巴的动作。 如果这些方面能够进一步完善以增强整体体验,那就太好了。”
- Synthesia 评论,Andy O.
2. 聊天GPT
ChatGPT 是一个人工智能聊天机器人。 它经过训练,可以通过遵循说明并提供彻底的响应来响应提示。 它以帮助用户微调和指导特定持续时间、结构、风格、信息程度和语言的讨论而闻名。
用户最喜欢什么:
“ChatGPT 是一款出色的工具,帮助我节省了大量时间。 以前需要 20 分钟或更长时间的任务现在可以在 5 分钟内完成。 此外,它还帮助我了解网站开发。 如果您没有达到预期的结果,我建议您学习如何使用有效的提示。 通过一些练习,您会看到更好的结果。 然而,请记住,最后您可能仍然需要进行一些细微的调整。”
- ChatGPT 评论,Dan M.
用户不喜欢什么:
“虽然它试图给你一个完美的答案,但有时它可能会错误地解释你的问题并给出不正确的结果。 它对2021年后事件的了解有限,无法帮助你做出决策。 它只能列出所有可能的选项。”
- ChatGPT 评论,Abhay V.
3. 写声波
Writesonic 是一个人工智能写作和图像生成平台。 它包括用于创建、编辑和发布搜索引擎优化的文章、博客文章、广告、登陆页面、电子商务产品描述或社交媒体帖子的工具。
用户最喜欢什么:
“Writesonic 扩展与我的浏览器无缝集成,让我只需点击几下即可访问其功能。 我特别欣赏使用人工智能驱动的内容创意生成器为文章和博客文章生成新创意的能力。 写作助手功能也很有用,可以提供改进写作的建议并发现任何语法或拼写错误。 总的来说,我强烈推荐 Writesonic 扩展给任何想要提高写作水平和简化工作流程的人。 它是任何作家或内容创作者的必备工具。”
- Writesonic 评论,Stig-Arne K.
用户不喜欢什么:
“有时,它无法跟踪之前对话中的主题。 因此,我必须在每次聊天中包含我之前的对话,以提醒它我想要什么。”
- Writesonic 评论,Yasser Q.
4.贾斯珀
Jasper 是一款人工智能写作助手,可以立即为电子邮件、广告和网站创建高质量的文案。 它理解 30 多种语言,并逐字提供原创、无抄袭的内容。
用户最喜欢什么:
“Jasper 让学习曲线变得简单! 我喜欢用自己的话写内容,然后让 Jasper 以一种更有吸引力、更诙谐的方式进行编辑! 就好像它知道我在想什么一样!”
- 贾斯珀评论,Gabe S.
用户不喜欢什么:
“如果你不知道如何使用 Jasper,它可能会有点千篇一律。 有时它会使内容听起来非常通用,有时很难以其他方式重新措辞。”
- 贾斯珀评论,Brittani C.
5.Murf.ai
Murf.ai 是一款在云端运行的真实文本转语音引擎,可以为 YouTube 视频、播客、广告、电子学习材料、演示文稿和有声读物等内容生成画外音。 它包含 120 多种语音和 20 多种语言。
用户最喜欢什么:
“你可以获得听起来令人难以置信的真实声音,并且无需使用传统的配音艺术家,而且你还可以获得额外的多功能性,可以即时进行更改,而这是你雇佣配音艺术家所无法做到的。还有很多选择免版税的音乐曲目可与您的画外音集成。”
- Murf.ai 评论,Nathan A.
用户不喜欢什么:
“每种语言的字符数量有限,而且语调有时可能是机器人的。此外,创建独白与对话时存在一些问题。创建对话是一个非常漫长且漫长的过程,需要进行更改才能变得更加高效”。
- Murf.ai 评论,Helena M.
媒体新时代
我们正处于范式变革的开始阶段。 内容创作正在从物理领域转向数字领域,使我们能够创作出以前无法创作的作品。 合成媒体在真实性和使用简单性方面逐渐发展,同时也产生了出色的效果。
然而,同样重要的是要注意,人工智能和相关技术的生产不能将道德作为次要考虑。 原则必须是首要和中心,是每个组织的固有组成部分,反映在业务政策和这些革命性技术中。
如果您对合成媒体感兴趣,请探索一下即将到来的虚拟宇宙!