“话题之王”非ChatGPT莫属了。在ChatGPT的大火下带来了AIGC技术及相关应用的“强势出圈”同时,麦麦也开始思考AIGC可能产生的潜在风险。
全球首例:“Stable Diffusion”AIGC模型版权侵权案
1月23日,美国三名漫画家针对包括Stability AI在内的三家AIGC商业应用公司,在加州北区法院发起集体诉讼,指控Stability AI研发的Stable Diffusion模型以及三名被告各自推出的、基于上述模型开发的付费AI图像生成工具构成版权侵权。
Stable Diffusion模型对版权作品的利用存在于两个阶段:AI模型训练阶段+AI模型应用阶段。
AI模型训练阶段:Stable Diffusion利用版权作品训练内部组件“图像编码器”(U-Net模型),辅之以“Clip文本编码器”(Text Encoder模型),然后做到只需输入一段描述性文字,即可生成对应的图像内容。
AI模型应用阶段:经过充分训练后,可以依据用户给出的文本输出最终图像。但这些生成的图像内容,很大的概率包含并展现出作为训练数据的版权作品的元素及特征。
另外,在2月15日《华尔街日报》记者弗朗西斯科·马可尼(Francesco Marconi)也公开指责,Open AI公司未经授权大量使用路透社、纽约时报、卫报、BBC等国外主流媒体的文章训练Chat GPT模型,但从未支付任何费用。
根据 OpenAI 公司的透露,他们在训练过程中使用45TB的数据,包含近1万亿个单词,这个数字差不多抵得上牛津词典单词量的 1300 倍。
美国版权局:AI制作的图片不受版权保护
2022年9月,卡什塔诺娃为自己的漫画书《黎明的曙光》申请版权保护,但没有透露书中的插图由AI创作。今年2月21日美国版权局称,艺术家克里斯蒂娜·卡什塔诺娃写了一本名为《Zarya of the Dawn》的漫画书,虽然书的内容受版权保护,但她用Midjourney制作的AI图片不受保护。
卡什塔诺娃作品中的AI生成的插图
美国版权局信件截图
AIGC存在哪些版权侵权风险?
目前AI模型的数据来源包括以下几类:公共数据集、公共网站、自有数据、众包数据、合成数据等。除了合成数据没有版权争议外,其他数据都是通过采集互联网获得。在创作进程中,AIGC不同于人类著作的起点是“从无到有”,即在白纸上开始增加线条颜色等,最终形成相应著作;AIGC著作是“从有到无”,即从布满杂乱噪点的底板(类似于九十年代电视的“雪花屏”),不断去掉无关的噪点,直至保留最终目标图像的过程。
在去噪与解码这样的过程中后生成的内容,与原作品在表达上构成“实质性相似”,则落入近似侵权;若不构成“实质性相似”,而是在保留作品基础表达的前提下形成了新的表达,则可能构成对原作品侵权。
中国法下关于AIGC权利归属的判例
在《著作权法》第三条规定:“本法所称的作品,是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果”。由此可见,受到著作权法保护的作品需要同时满足以下三点:
(1)具有独创性;
(2)属于文学、艺术、科学领域;
(3)能够以一定形式表现的智力成果。
如果人工智能生成物被认为不属于人的智力成果,则不属于著作权法可保护的作品,比如可以认为属于公有领域的产品,有可能就不存在侵害他人著作权的问题。
美国版权局对于AIGC的最新表态
在ChatGPT和Midjourney最新版相继发布之后,美国版权局于2023年3月16日,就含有人工智能生成内容(AIGC)的作品发布了版权注册指南:
版权只保护人类创造力的产物。最根本的是,在宪法和版权法中,“作者”一词将非人类排除在外。在包含有AIGC的作品中,美国版权局将会考虑AI的贡献是“机械复制”的结果,还是作者“自己最初的思想概念,(作者)赋予了可见的形式”。在申请版权登记时,如AIGC超过了允许的标准,则必须对AIGC提供一段简短描述。
综上目前来看,鉴于AIGC生成内容是否构成版权法上的作品加以保护,仍处于探讨之中,未有定论。针对AI 侵权相关的法律条文还不成熟,需要经过多方考量和求证,但是未来针对 AIGC 作品的具体规范文件出台是大势所趋。
在时代发展的洪流中,我们既要肯定 AIGC 技术带来生产效率上的巨大提升,同时我们也要保证创作者的合法权益。麦麦提醒:涉及大型语言模型的一个重要问题是它们如何使用用户提供的信息,同时提供给ChatGPT的提示目前还不是私密的。