AIGC时代下的版权危机，如何有效应对AI侵权问题？

“话题之王”非ChatGPT莫属了。在ChatGPT的大火下带来了AIGC技术及相关应用的“强势出圈”同时，麦麦也开始思考AIGC可能产生的潜在风险。

全球首例：“Stable Diffusion”AIGC模型版权侵权案

1月23日，美国三名漫画家针对包括Stability AI在内的三家AIGC商业应用公司，在加州北区法院发起集体诉讼，指控Stability AI研发的Stable Diffusion模型以及三名被告各自推出的、基于上述模型开发的付费AI图像生成工具构成版权侵权。

Stable Diffusion模型对版权作品的利用存在于两个阶段：AI模型训练阶段+AI模型应用阶段。

AI模型训练阶段：Stable Diffusion利用版权作品训练内部组件“图像编码器”（U-Net模型），辅之以“Clip文本编码器”（Text Encoder模型），然后做到只需输入一段描述性文字，即可生成对应的图像内容。

AI模型应用阶段：经过充分训练后，可以依据用户给出的文本输出最终图像。但这些生成的图像内容，很大的概率包含并展现出作为训练数据的版权作品的元素及特征。

另外，在2月15日《华尔街日报》记者弗朗西斯科·马可尼（Francesco Marconi）也公开指责，Open AI公司未经授权大量使用路透社、纽约时报、卫报、BBC等国外主流媒体的文章训练Chat GPT模型，但从未支付任何费用。

根据 OpenAI 公司的透露，他们在训练过程中使用45TB的数据，包含近1万亿个单词，这个数字差不多抵得上牛津词典单词量的 1300 倍。

美国版权局：AI制作的图片不受版权保护

2022年9月，卡什塔诺娃为自己的漫画书《黎明的曙光》申请版权保护，但没有透露书中的插图由AI创作。今年2月21日美国版权局称，艺术家克里斯蒂娜·卡什塔诺娃写了一本名为《Zarya of the Dawn》的漫画书，虽然书的内容受版权保护，但她用Midjourney制作的AI图片不受保护。

卡什塔诺娃作品中的AI生成的插图

美国版权局信件截图

AIGC存在哪些版权侵权风险？

目前AI模型的数据来源包括以下几类：公共数据集、公共网站、自有数据、众包数据、合成数据等。除了合成数据没有版权争议外，其他数据都是通过采集互联网获得。在创作进程中，AIGC不同于人类著作的起点是“从无到有”，即在白纸上开始增加线条颜色等，最终形成相应著作；AIGC著作是“从有到无”，即从布满杂乱噪点的底板（类似于九十年代电视的“雪花屏”），不断去掉无关的噪点，直至保留最终目标图像的过程。

在去噪与解码这样的过程中后生成的内容，与原作品在表达上构成“实质性相似”，则落入近似侵权；若不构成“实质性相似”，而是在保留作品基础表达的前提下形成了新的表达，则可能构成对原作品侵权。

中国法下关于AIGC权利归属的判例

在《著作权法》第三条规定：“本法所称的作品，是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果”。由此可见，受到著作权法保护的作品需要同时满足以下三点：

（1）具有独创性；

（2）属于文学、艺术、科学领域；

（3）能够以一定形式表现的智力成果。

如果人工智能生成物被认为不属于人的智力成果，则不属于著作权法可保护的作品，比如可以认为属于公有领域的产品，有可能就不存在侵害他人著作权的问题。

美国版权局对于AIGC的最新表态

在ChatGPT和Midjourney最新版相继发布之后，美国版权局于2023年3月16日，就含有人工智能生成内容（AIGC）的作品发布了版权注册指南：

版权只保护人类创造力的产物。最根本的是，在宪法和版权法中，“作者”一词将非人类排除在外。在包含有AIGC的作品中，美国版权局将会考虑AI的贡献是“机械复制”的结果，还是作者“自己最初的思想概念，(作者)赋予了可见的形式”。在申请版权登记时，如AIGC超过了允许的标准，则必须对AIGC提供一段简短描述。

综上目前来看，鉴于AIGC生成内容是否构成版权法上的作品加以保护，仍处于探讨之中，未有定论。针对AI 侵权相关的法律条文还不成熟，需要经过多方考量和求证，但是未来针对 AIGC 作品的具体规范文件出台是大势所趋。

在时代发展的洪流中，我们既要肯定 AIGC 技术带来生产效率上的巨大提升，同时我们也要保证创作者的合法权益。麦麦提醒：涉及大型语言模型的一个重要问题是它们如何使用用户提供的信息，同时提供给ChatGPT的提示目前还不是私密的。