IT之家 10 月 2 日动态,Meta 公司克日揭晓了一集体工智能系统,也许根据文字提醒天生短视频。
IT之家领会到,这个系统名为 Make-A-Video,禁止用户输入一连串的词语,例如“一只穿戴超级英雄打扮、披着白色大氅正在天际中遨游的狗”,然后天生一个五秒钟的短视频。
虽然动机异常精致,但这个系统昭彰要比文字转图片 AI 系统更高等。
上个月,人工智能测验室 OpenAI 向一切人供给了其最新的文本转图像人工智能系统 DALL-E,而人工智能首创公司 Stability.AI 则推出了 Stable Diffusion,这是一个开源的文本转图像系统。
但文本转视频 AI 系统陪同着一些更大的寻衅。开始,这些模子须要大度的算计才略。它们比大型文本到图像的人工智能模子的算计量还要大,后者利用数百万张图像施行锻炼,由于仅仅拼集一个短视频就须要数百张图像。这意味着正在可猜测的他日,只要大型科技公司才有才略建立这些系统。它们的锻炼也较为辣手,由于没有大领域的高质量视频与文本配对于的数据集。
为领会决这个课题,Meta 贯串了三个开源图像以及视频数据集的数据来锻炼其模子。规范的文本转图像数据集的符号静态图像帮忙人工智能练习物体的称号以及它们的式样。一个视频数据库帮忙它练习这些物体应该若何活着界中迁徙。这两种方式的贯串帮忙 Make-A-Video 恐怕从文本中大领域地天生视频。
Meta 公司称,该本领也许“为创造者以及艺术家带来新的机缘”。不过,随着本领的繁华,人们耽心它大概被用作发觉以及传播正确信息以及深度虚拟的无力器械,它大概会使人们更难识别网上的可靠以及作假实质。
打造 Make-A-Video 的争论人员过滤失落了打击性的图片以及文字,但对付由数百万以及数以百万计的文字以及图片组成的数据集,多少乎弗成能全面节略有私见以及有害的实质。
Meta 公司的一名讲话人说,今朝还没有向大众供给这个模子,“算作这项争论的一全体,咱们将连续研究进一步完满以及削减潜伏告急的方式”。