过去复杂的视频制作过程,对Sora来说只是简单几句话的事。
OpenAI发布Sora模型几天后,360创始人周鸿祎表示,“AGI(通用人工智能)的实现将从10年缩短至两三年”;国内视频生成软件Pika创始人郭文景,开始筹备对标Sora的新产品;Stability AI CEO埃马德·莫斯塔克不由得赞叹道,“阿尔特曼(OpenAI 首席执行官)真是一个魔术师”。
Sora强在哪
根据OpenAI的官方简介,Sora可以制作长达60秒的视频,视频包括高清晰度的场景、复杂的镜头动作,并可支持多个角色的创作,是基于ChatGPT和静止图像生成器DALL-E所建立的视频生成模型。
视频生成模型,并不是今年的新应用。早在去年4月,纽约一家名为Runway AI的初创公司推出了这项技术,人们只需在电脑屏幕上的框中输入一句话,即可生成视频,比如无人机航拍的山脉或者一个男人晚上走在纽约市中心的街头。
但Runaway AI的生成视频仅有4秒,视频模糊、断断续续、人物四肢扭曲。
仅仅10个月后,OpenAI公司的Sora就解决了这一技术难题。该公司在Sora的官方介绍中称:“该模型不仅了解用户在提示中提出的要求,还了解事物在物理世界中的存在方式。”
比如,当几只巨大的毛茸茸的猛犸象在白雪皑皑的草地上奔跑时,猛犸象踏过的雪地随之扬起巨大的雪浪,一个毛茸茸的小怪物跪在融化的红蜡烛旁边时,蜡烛随之慢慢减少,变成蜡油。
谈到Sora最大的优势,周鸿祎日前在社交网络上分享指出,以往文字视频软件都是在2D平面上对图形元素进行操作,可以把视频看成多个真实图片的组合,并没有真正掌握这个世界的知识。但Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。
不过,Sora仍有缺陷。OpenAI公司公开表示,Sora是一项正在进行的工作,当涉及到现实世界中的空间细节和因果关系时,它可能具有明显“弱点”。
比如,在OpenAI公布的演示视频中,一个在跑步机上反向跑步的人,手脚动作节奏并不合理。再者,当一群幼狼在碎石路上嬉戏玩耍,幼狼的数量会凭空增加和减少;当一位寿星老人在生日吹蜡烛时,蜡烛在吹气后毫无反应。
“Sora并不能替代抖音、快手等短视频社交平台”
即使技术并未真正成熟,Sora的横空出世仍在技术圈、影视圈,乃至全球互联网引发了一定程度上的“AI焦虑”。
有网友声称,抖音、快手等短视频平台要被“团灭”了;还有人说,明星和导演即将被取代;影视与广告制作的相关从业人员似乎也感受到前所未有的职业危机。
但与那些感到焦虑的从业人员不同,从事编剧工作七年之久、深耕抖音短视频赛道的刘宇阳对Sora的出现感到兴奋。在他看来,制作传统影片涉及到的选址、选演员、分镜构图、架设机位、后期制作等复杂流程将被Sora简化,降低了影视制作的周期与成本。
他认为,Sora将减轻编剧的工作负担,提高编剧的独立性和自主性。“一直以来,编剧在影视制作过程中都处于弱势地位。”原来编剧在完成完整剧本前,需要拿着相关策划方案、剧情框架乃至已经初步完成的剧本和导演、资方进行项目沟通。
刘宇阳解释说,一个影视项目常常牵涉多方利益,开拍前的沟通工作费时且效率低。“以后用Sora,分镜镜头、样片都可以直接生成,我们可能还有独立制作影片的机会”。
尽管如此,他认为Sora无法真正替代演员和导演,独立生成影片。“Sora是一个视频辅助工具,它没办法体验人的真实感受。”而在影视创业相关行业中,人在真实场景中的感受与体验,对影视创作至关重要。
以影视演员为例,一个合格的演员只有在充分了解所饰演角色的性格、背景、生活经历的基础上,才能表演出拥有复杂情感的人物,甚至还有些演员需要去体验生活,才能更好地诠释角色。
而从编剧的角度来看,“使用Sora需要关键提示词,它不能凭空制作出一个好故事片”。刘宇阳说,编剧与其他各行各业一样存在二八定律,有能力的编剧只占总体从业人员的百分之二十,甚至更少,而这些好编剧擅长的方向也不一样。
比如,有些编剧文笔好,剧本读起来让人舒服;而有些编剧可能框架做得好,故事概念设计得新颖;另外还有一些人是创造能力强、社会经验丰富,可以构造出有深刻含义的好故事。
“创意是最重要的,这也是目前生成式工具无法替代的。”在他看来,编剧的文笔、框架甚至逻辑思维能力都可以通过时间训练,但想象力不行。“人有多少想象力,有多少社会阅历,就会产生多少灵感,好的故事需要敏锐的观察力和想象力支持。”
与此同时,短视频资深从业者、字节跳动旗下产品西瓜视频的第一任负责人宋健从短视频社交的角度提出相似观点。他认为,目前生成式视频的信息量远不如真实拍摄大,短视频平台用户更看重的是人与人之间的连接和情绪价值。因此,“Sora并不能替代抖音、快手,更不会取代此类社交平台。”
在宋健看来,抖音、快手等短视频平台的本质是“社交”,特效、动画,甚至视频本身只是个形式与载体。他解释说,董宇辉长相并不优异,出身平凡,但仍有大量网友关注,这是因为他的语气、表情、观点的背后是积累了30多年的“经验数据”总和,网友可以在他身上获得情感价值和连接。
不过新技术的出现也使一些人感到焦虑。刘宇阳也承认,“Sora面向用户开放后,会对影视行业内一些工作产生威胁。未来受Sora影响最大的可能是玄幻类影片,因此特效制作团队可能受到比较大的打击。”
同一时间,太平洋彼岸的美国好莱坞,也因Sora的发布引发强烈震动。美国《纽约时报》2月21日报道,部分技术人员称,多数情况下,制作一部电影昂贵又耗时,经常需要数十或数百人,但Sora的出现,将降低影片生产成本,未来制作一部与“漫威大片”具有相同复杂视觉效果的电影,可能只需要一个特效制作人员。
宋健说,相比于人力成本,图片和视频生成能够节约大量时间和经济成本,比如帮助公司的广告客户低成本、便捷地制作视频。
或许,低成本的设计、剪辑工作会被技术取代。
“人们更需要知道技术是干什么的、如何适用于市场”
技术在一路狂奔,人们要如何跟上技术发展的速度?技术又如何更好地服务人类?
OpenAI公司很谨慎。截至目前,Sora并未对用户开放使用,而是首先提供给被称为“红队成员”(red teamers)的网络安全教授,用以评估产品的危害或风险。
不难看出,伦理问题仍是业界讨论与商榷的重点。
牛津互联网研究所客座政策研究员穆塔勒·恩孔德(Mutale Nkonde)接受媒体采访时表示,人们在未来将轻松掌握文本转换视频的技术,这令她感到振奋。但她也担心,这些技术工具将会嵌入社会偏见,不经意间对人们的日常生活产生影响。
她说,Sora这类工具的出现将对社会角色提出新的问题。比如,影视行业是否还需要人类临时演员?“从政策的角度来看,我们是否需要开始思考如何保护人类?”
北京师范大学新闻传播学院学术委员会主任、教授,北京师范大学传播创新与未来媒体实验平台主任喻国明早先接受中青报·中青网记者采访时,从相似角度提出了思考。他认为,机器越来越像人一样思考并不可怕,可怕的是人会像机器那样去思考。算法技术的发展打破了人们之间智力的围墙,但也会形成对人的个体价值的蔑视、贬低与驯化。“人们如何去形成自己个性的生存之地是首要问题。 ”
喻国明说,在技术不断革新的情况下,人们更需要知道技术是干什么的、如何适用于市场、怎么进行技术的产品化。
“随着人工智能等新兴技术逐渐渗透到社会生活的方方面面,我相信它们对于目前劳动岗位的替代并不是人类的危机,而是人类的福祉。”喻国明认为,工业革命发生以后,劳动强度的减低是历史性的趋势,未来人类劳动会得到某种程度上的强度递减。
他说,或许人们可以从现在的8小时工作制,转变为未来4小时工作制甚至可能更短。“人类将从过去的物质生产压力中释放出来,拥有更多精神性的、文化性的和个性化的追求。”
但宋健认为,当技术刚刚出现的时候,人们或许对这种新技术寄予厚望,甚至将它称为实现社会平等、减轻人群分化的工具,然而技术也天然带有不平等的力量。
比如,美国一家非营利组织Common Sense Media曾发布研究报告指出,来自低收入家庭的青少年每天在电子屏幕上平均会花8小时7分钟,而高收入家庭的青少年每天只会花4小时42分钟。从这样的对比来看,电子产品是这个时代最低廉的娱乐消遣方式,它可以用来替代其他如教育、陪伴等更“昂贵”的东西。
此外,宋健担忧地说,这些年,从DALL-E、Midjourney等静止图像生成器的发展中不难看出,短短一两年时间人工智能就可以使机器生产的图像与真实照片几乎毫无差别。未来随着生成式工具的发展,Sora是否会成为一种快速且低成本的深度伪造工具,加剧网络信息的判断难度和不平等,这个仍未可知。
监管要如何发力
当披着高科技外衣的生成式视频让互联网中存在的问题更难被“看见”,监管变得尤为重要。
在中国互联网协会法工委副秘书长胡钢看来,“文字生成视频”大模型Sora标志着人工智能生成内容(AIGC)的跨越式发展,但它也存在一定滥用风险。
胡钢说,这项技术可能造成显性风险与实质危害,损害个人和组织的人格和财产权益,甚至严重危害社会秩序和国家安全,必须全过程有效治理。
“我国已经建构了人工智能多元化监管机制,实现了多维协同治理体系。”胡钢说,未来我国需要及时响应即将生效的欧盟《人工智能法案》和美国系列人工智能立法的挑战,强化国际立法竞合与协调,促成全球防范和制止人工智能风险共识,推动普适性的高风险人工智能系统的监管措施。“特别是协同风险评估、安全测试、相互认证、透明度和可解释性要求,以实现数据保护、隐私捍卫和国家安全的共同目标。”
(责任编辑:张紫祎)