发布时间:2024-03-14 15:21

日本学者:如何界定“机器学习”的版权问题

  参考消息网3月13日报道 《日本经济新闻》2月26发表日本早稻田大学教授上野达弘的文章《生成式AI的“光与影”》,文章认为,生成式AI的“阴暗面”不在于学习,而在于生成。如果不能对二者做出清晰界定,有可能给生成式AI的光明一面蒙上阴影。文章编译如下:

 

  生成式人工智能(AI)的发展赢得全球瞩目已经一年有余,我们正在见证这一新技术带来的正负两方面影响。

 

  自动翻译、摘要、编程支持……生成式AI带给社会和生活的便利等正面影响已经无需过多提及。与此同时,围绕其负面影响,生成式AI也引发了诸如虚假和错误信息泛滥、侵犯知识产权等问题。

 

  近来尤其引发讨论热度的是对他人的形象和声音进行模仿的深伪技术。乌克兰战争爆发后的2022年3月,一则乌克兰总统泽连斯基向民众发布“投降声明”的虚假视频出现在互联网上,2024年1月,“日本能登半岛地震引发海啸”的伪造视频也广为流传。

 

  此外还有侵犯著作权的问题。如果生成式AI产出的图像和文本与他人著作在具体的创意表现层面存在雷同,可能会构成侵权。2023年12月,美国《纽约时报》就曾对研发ChatGPT的美国开放人工智能研究中心(OpenAI)涉嫌侵犯著作权一事提起诉讼。虽然诉讼的结果现在还无法预测,但如果输出的文本与已有新闻报道在创意性表达上存在雷同,可能会被判定侵犯著作权。

 

  当然,无论是侵犯著作权还是深伪技术,都不是今天才有的。依据现有的法律制度基本上可以处理这些违法和有害的产出。但是随着飞速进步的生成式AI的出现,任何人都可以轻松创建内容,这一点是不争的事实。所以想要切实杜绝违法有害内容的生产,必须采取包括研发相关技术措施在内的有效对策。

 

  不过本文想讨论的不是生成式AI的“产出”,而是“输入”,即人工智能的学习和版权问题。近来围绕这一话题产生了激烈争论。

 

  首当其冲的就是日本《著作权法》中一项名为“信息分析规定”的条款。该条款规定,如果以信息分析为目的,原则上可以免费大量使用受版权保护的作品。该条款于2009年实施,并于2018年针对人工智能进行了扩展。

 

  在2022年ChatGPT和图像生成式AI取得飞跃进步后,创作者和媒体尤其开始对这一条款表现出担忧。人们强烈反对生成式AI未经授权使用新闻内容。创作者中也存在反对开发生成式AI的声音,因为这种AI技术能够批量生成与特定艺术家画风或风格相同的作品。

 

  信息分析条款覆盖的目标行为不只局限于AI学习,还包括对大规模数据的分析。例如通过收集和综合研判社交媒体上的帖子预测未来趋势,或者通过综合分析大量的医学论文来研发新的药物和治疗方法。这种大规模的数据分析固然给社会带来便利,但是鉴于版权不仅适用于学术论文,也同样适用于网络上的帖文,所以如果没有涉及信息分析的法律规定,全面分析事实上也将无法实现。

 

  继日本于2009年在全球率先为信息分析立法后,英国、德国、法国、新加坡也相继引入了同样规定。日本在法律制度层面领先全球并不常见,应当说日本在这方面是有先见之明的。

 

  笔者将日本称为“机器学习天堂”,从2016年左右开始就一直在呼吁充分发挥信息分析条款的作用。虽然很难讲日本企业已经充分利用了这一规定,但还是可以期待从现在开始发展出新的业务和服务。

 

  信息分析条款可能会被理解为给著作权设限,而非优先发展商业活动。

 

  但是如果从这一规定制定的初衷看,这种观点并不正确。日本《著作权法》中的信息分析条款属于有关所谓“非享受性使用”(并非以鉴赏等为目的使用作品)的规定。所谓著作权这种权利是因为通过鉴赏作品等方式满足了人类的享受而受到保护,以此为前提,在无法享受作品的情况下,不能理解为是著作权受到了侵害。

 

  由此可见,对大量作品进行信息分析一事因为并没有人以鉴赏等为目的使用这些作品,所以也就可以认定为非享受性使用。日本的信息分析条款不过是给予那些本来就不涉及著作权的行为以自由。这种思路是在2018年《著作权法》修订时提出的,作为一种适应新时代的著作权制度的理论框架而受到全世界的关注。

 

  不应当误解的是,信息分析条款绝不是为生成式AI随意使用所有版权作品大开绿灯。也就是说,这一条款只是对“学习”的许可,至于“生成”就是另一个问题了。所以当生成式AI的产出在创意表达层面与他人的版权作品发生雷同时,自然会构成侵权。

 

  另一方面,如果生成式AI的产出仅在事实或风格上与他人的受版权保护作品相似,则这种产出并不构成侵权。这虽然是《著作权法》的大原则,但还是有声音主张,即便产出合法,还是应当阻止未经许可将版权作品提供给AI进行学习的行为。

 

  不过即便以著作权的名义阻止AI学习,也不可能杜绝侵权和深伪技术造假。对于违法的有害产出,还是需要在阻止产出本身这方面下功夫。且不说借著作权限制AI学习能否奏效,甚至可能妨碍对各领域海量数据的分析,这很难讲就是上策。

 

  举例来说,即便信息分析不涉及著作权,出于分析目的缔结数据提供合同也是可能且有用的。对于从事信息分析的人来说,假设《著作权法》允许其个人收集杂志文章和报纸文章,那么通过与权利人签订合同、以适合分析的方式全面获取数字数据也将带来重大利好。事实上,OpenAI在2023年7月和12月就分别与美联社和德国阿克塞尔·施普林格集团签署协议,允许以AI学习为目的使用上述机构旗下媒体的新闻报道。

 

  没有权利就不缔结合同,这种观点是误解,与实际情况恰好相反。内容持有者与其期待通过著作权限制AI学习,不如以签署合同提供数据等著作权之外的手段探索共存之道。

 

  生成式AI的“阴暗面”不在于学习,而在于生成。如果不能对二者做出清晰界定,有可能给生成式AI的光明一面蒙上阴影。作为信息分析条款诞生地的日本一方面要坚持维护信息分析的自由,同时也应当为防止非法有害输出贡献智慧。因为早晚有一天人们会习惯生成式AI,恐惧AI学习能力的声音也将成为历史的回响。(编译/刘林)