(图片来源网络,侵删)
引言上期内容分享了AIGC由谁取得作品著作权归属的问题,不同国家较为统一地认为AI本身不能成为作者,人类才能成为作者。而公司或者网络服务平台,因为法律将其拟制为人的主体身份以及委托创作、职务行为、与客户之间的协议约定等多种原因产生的法律关系,有可能成为权利的所有者。在AI算法模型构建和演进的过程中,势必要用到一定数量的样本作为训练AI的数据库,在样本的选择过程中是否涉及侵犯原作者的相关权益?个人用户在使用离线软件进行模型训练、生成的过程中,又有哪些需要注意的问题呢?本期内容与大家分享AIGC所涉及的使用作品的相关问题。多种潜在的侵权风险AI能够完成哪些任务、针对用户的需求给出答案,取决于背后支持其功能的AI模型。例如绘画模型中聚焦图像的色彩分布、画面内容、元素与文字的对应关系等内容;写作模型聚焦文本、语言结构、词汇等内容;对话模型聚焦于对于输入内容的分析和含义理解。这些功能、风格迥异的模型一方面来自模型所采用的算法(如循环神经网络、卷积神经网络、深度置信网络等),另一方面取决于前期输入的、训练模型所用到的数据集、作品集。使用同样的算法,用不同的作品集进行训练,很可能会得出不同风格的生成偏好。可见训练数据集的质量对于最终AIGC的质量起到了举足轻重的影响,各大平台和科技公司在训练自身产品时也都希望可以选用高质量的数据、作品集。开发出Chat GPT、GPT-4o等产品的著名AI公司Open AI就面临多方的起诉,2023年9月美国作家协会以及包括《权力的游戏》原著作者乔治·马丁在内的17位美国著名作家对Open AI发起集体诉讼,称Open AI在未经授权的情况下使用原告作家的版权作品训练其AI模型。同年12月纽约时报在纽约南区联邦法院起诉Open AI公司未经沟通、授权、许可,利用纽约时报的专栏报道进行语言模型的训练,其中包括用户需要单独向时代周刊付费观看的文章。GPT系列产品生成的文段中存在直接引用、照搬纽约时报付费内容的情况,严重地减损了纽约时报构建的专栏文章收益模式。2024年5月,在漫威电影中饰演“黑寡妇”的著名影星斯嘉丽·约翰逊指控Open AI在未与其达成合意的情况下,其旗舰AI模型GPT-4o的五种音色中的“Sky”音色与“寡姐”在影片中曾饰演过的AI助手呈现出惊人的相似。这些纠纷暴露了AI在训练和使用中出现的三种不同侵权情况。训练数据集的问题《生成式人工智能服务管理暂行办法》第七条规定生成式人工智能服务提供者开展预训练、优化训练等训练数据处理活动,应当依法使用具有合法来源的数据和基础模型;不得侵害他人依法享有的知识产权;使用个人信息应取得个人同意或者符合法定情形;增强训练数据的真实性、准确性、客观性、多样性;符合网络安全方面的法律、行政法规、监管部门要求。目前AI企业取得训练所需训练集的方式主要有两种,一种是向数据所有者或者收集者购买,另外一种就是利用网络爬虫技术进行数据爬取。网络爬虫又称网络蜘蛛,是一种自动化浏览网络程序,其按照设置的规则通过模拟人工点击来自动抓取互联网数据和信息,通过大范围下载相关网页信息直接取得或者间接经过统计、整理获得所需数据。由于程序自动搜集具有范围广泛、自动快捷的特点,并且可以如同搜索引擎一样设置相应的关键词,针对某个特定类型文件或者特定领域进行检索,因此可以快速获得可观的数据量,是很多企业正在运用的技术手段。当下信息经济高速发展,数据成了经济、技术发展,促进市场活力的重要素材之一,使用取得授权或者合法渠道购买的数据资料受到政府鼓励。《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》就指出要促进数据合规流通、顺应经济社会数字化转型发展趋势,推动数据要素供给调整优化,提高数据要素供给数量和质量。建立数据可信流通体系,增强数据的可用、可信、可流通、可追溯水平。实现数据流通全过程动态管理,在合规流通使用中激活数据价值。但用户、企业在购买这些数据的时候也应该注意分辨来源是否合法。如杭州某数据科技公司在用户协议中明确告知不会存储用户的账号、密码等个人信息,但是公司仍私自将用户的信息、操作记录等内容作为数据进行二次加工,以每人0.1-0.3元不等的价格出售给其他公司作为“风险控制”的参考依据。最终该公司以侵犯公民个人信息罪定罪,所出售的数据也都被认定为非法数据。使用网络爬虫是否涉及侵权就因情况而异,目前我国尚未对于爬虫技术进行官方、明确的规范要求。使用爬虫技术往往只有行业内部的一些约定俗成的如robots协议等的要求、道德规范。对非法爬取的认定主要考量爬取的手段和目的两个方面。从技术手段来看,爬取方在访问协议范围内进行数据爬取行为一般认定为合法行为;如果爬虫无视或者破解网站的访问限制、假扮为有访问权限的合法访问者,以此来获得正常情况下一般访问者无法获取的信息,一般被认定为不合法。从目的来看,如果数据爬取一方获取对方提供的部分产品或者服务,以此自行提供该类产品、服务,或者对于需要付费查看、查询的数据信息进行出售、公开,破坏了被爬取方原本正常的商业模式、侵犯了其原本的商业利益,则应该被认定为非法爬取。数据脱敏的问题数据脱敏指的是对某些如身份证号、手机号、卡号、客户号等个人敏感信息,通过脱敏规则进行数据的变形,实现对敏感隐私数据的保护。经过脱敏处理的数据不再和个人一一对应,可以有效地防止用户的个人信息和隐私遭到泄露。对于更大范围的数据库,如果不进行相应的数据脱敏,就很有可能使得AI得出的结论产生某些偏向性。比如因为脱敏不彻底,使得AI 对于某个特定的品牌、产品或者服务产生具有偏向性的推荐或者批评。对于Open AI目前涉诉的案件,实务界存在不同的观点。一方观点认为AI公司未经授权采用爬取的付费内容进行训练,直接输出原文没有进行数据脱敏,侵犯了新闻媒体传统的盈利模式,构成侵权。另一方观点认为,AI助手对于报道的直接引用属于“合理使用”。无论是我国合理使用制度所提到的“报纸、期刊、广播电台、电视台等媒体刊登或者播放其他报纸、期刊、广播电台、电视台等媒体已经发表的关于政治、经济问题的时事性文章”,还是美国版权法第107条规定考虑使用的目的与性质;该版权作品的性质;使用部分占被利用作品质与量的比例;该使用对版权作品潜在市场或价值所产生的影响的“四要素标准”。两种标准都认为出于描述相应的新闻事实以及相关评述的目的,可以直接使用其他人享有著作权的内容,但应该标明相应的出处。因此为了更好地进行实现AI模型训练、提供相应服务的目的,各大AI企业和平台一定要注意相应的数据脱敏,尽可能避免直接出现他人享有著作权的作品,如果不得已需要引用也应该添加相应的标注和引用链接。这样可能较大程度上避免出现侵权风险。训练结果存在实质性相似由于AI训练过程中存在一些不确定性、随机性,在大量样本的训练下,最终输出的结果可能与另外一个具有著作权的、并非训练材料的作品存在高度的近似。正如前文Open AI与影星斯嘉丽的案件中,尽管Open AI声称其语音助手的音色来自精心挑选的另外几名合作配音演员,并为他们支付了远超过市场价格的报酬,但还是难以解释“Sky”音色与斯嘉丽的声音如此相似。2024年4月23日,我国首例“AI声音侵权案”一审宣判。本案中配音师殷某在为某公司提供过配音作品后,其声音未经允许被AI化,并被出售给了另一家科技公司。我们常说未见其人先闻其声,通过音色、语调等声音特点也可以在一定程度上分辨说话人的身份、年龄等特征。北京互联网法院明确《中华人民共和国民法典》第一千零二十三条规定,对自然人声音的保护,参照适用肖像权保护的有关规定。从法理上看,声音权益属于人格权的一部分,并且声音权益受到保护的前提是具有“可识别性”。对于像配音师、影视明星这样的具有一定影响力、声音作品可识别性比较强的对象,影视公司虽然支付了报酬,拥有其录音录像的著作权,但是未经本人知情与同意,不可以将这些作品进行AI化的使用,最终综合侵权情节、同类市场产品价值、产品播放量等因素,对损害赔偿金额进行确定。由此可见,无论是故意对于某些作品进行模仿、使得其他受众产生混淆;还是在训练AI模型的过程中,无意地导致了成果与有“辨识度”的内容存在实质性相似,都构成对于作品权益的侵犯。结语随着AI的功能越发多样,更多类型的作品成为训练数据的一部分,与之相关的侵权争议在短时间内势必会越来越多。由于暂时没有法律对于相关内容进行明确的界定,如何平衡发展和保护成了一个重大的问题。是为了技术的发展,较为灵活地许可作品数据在服务器中存储、训练的“合理使用”,限缩对于现有作品权利的保护?还是牺牲技术进步的速度,对于使用他人作品、数据的行为进行严厉管制?面对许多原本毫无价值的数据和信息,在大数据、多元视角的细化下也可能变得具有极高经济价值的情况下,这些新的数据信息又该如何规制,怎样建设这类数据信息的合理交易机制,是目前有待进一步思考解决的问题。
0 评论