对话Ross Intelligence:世界首个AI律师如何练就

对话Ross Intelligence:世界首个AI律师如何练就


ROSS Intelligence现位于硅谷,是全球第一家致力于法律服务的人工智能创业公司。

2014年底,多伦多大学的几位学生在参与IBM认知计算机科学竞赛(IBM Cognitive Computing Competition)的过程中,将Watson 的 Q&A 技术运用到了有关破产法律研究中。他们基于法律的分类法和本体论,通过使用 Watson 的 Q&A API,让 Watson 学习了数千页的法律文件,并基于谷歌的 PageRank 算法,建立了用于法律搜索的机器学习层 LegalRank。这套系统能自行识别出法律信息的重要程度,例如它能分辨出最高法院的判决要比地区法院排名靠前。

虽然这个系统在比赛中错失了第一名,但是这几位学生的竞赛项目成功转化为创业公司 ROSS Intelligence,连续两年入选彭博人工智能图景法律应用板块,并得到众多媒体的报道(比如,福布斯,纽约时报,经济学人、连线、新科学家、卫报,大西洋月刊及众多顶尖法律期刊等)。

2015年夏天,ROSS 得到全球最大律师事务所 Dentons 旗下的 NextLaw Labs 的投资,并正式成为了 Dentons 的业务伙伴。之后的一年内,ROSS 不仅成功上线,并且在 Dentons 之外逐渐获得了更多的客户,包括大型律所 Baker and Hostetler 等。不久之前,机器之心对 ROSS Intelligence 的 CTO、联合创始人 Jimoh Ovbiagele 进行了专访,他向国内的读者介绍了 ROSS 的创业历程、ROSS 所采用的技术以及未来 ROSS Intelligence 的发展方向。

  

  一、创业历程

机器之心:能否给大家介绍一下 ROSS,以及讲述一下你们是如何开始的?

Jimoh Ovbiagele:ROSS 是世界上第一个人工智能律师,它可以帮助人类律师比以往更高效地进行案例检索。过去律师们在通过关键词进行搜索时会得到大量结果,这样律师们需要花费大量时间去检索答案才能找到真正有价值的案例或条款。

有了 ROSS,律师们便可以自然地对其提问,就像你我交谈一样。使用人工智能技术,ROSS 在接收到问题后,只需几秒钟就可以完成从阅读海量法律文档到帮助律师找到含有问题答案的精确段落的整个过程。

那么我们是怎么开始的呢?

法律与我们每个人的生活息息相关,不管我们懂不懂,它就是我们这个社会的游戏规则,影响着我们每个人的生活。我的父母在我小时候试图离婚,我亲眼目睹了法律账单是如何堆积成山的。在美国,百分之八十的法律需求方付不起法律服务的账单。世界上的其他地方也存在类似情况。

这个数字很惊人,如果历史性地回顾法律服务价格,它是在上升的,但这并不该发生,——新的技术和创新理应在降低成本。我和联合创始人意识到里面有需要解决的问题,我们看到人工智能在法律服务的机会,——通过人工智能,我们可以让法律服务更加富有成效,让更多的人和小商业主用得到法律服务。

IBM 打造的 Watson 赢得了 Jeopardy! 之后试图商业化 Watson,在这个过程中,他们意识到需要将技术交给试图找到通过技术改变产业的年轻创新者手中。于是,ROSS 参加了2015 年的 IBM 认知计算机科学竞赛(IBM Cognitive Computing Competition)。我们的对手都是来自世界上其他最好的计算机科学学校,比如卡耐基梅隆、UC 伯克利,以及斯坦福,等等。

比赛第一名会得到十万美元奖金用以继续创业。我们当时得了第二名(没有奖金),但我们一点没觉得低落,因为我们知道我们是有真产品的靠谱生意(real business),因此比赛后我们还是继续在做 ROSS。后来我们上了加拿大最大报纸(Global & Mail)的商业版面头版,吸引了许多律所前来,其中一个是世界上最大的律所 Denton。他们的顶级高管从华盛顿特区跑来到多伦多与我们见面,并表示想看看我们的产品。于是我们像展示水晶球一样向他们演示了 ROSS。他们非常激动,说道「这就是未来」。于是,Denton 成了我们的早期公测客户,并且随后也成为了我们的首批正式客户之一,并且投资了我们。

Denton 的兴趣是一个巨大市场信号:我们在做的东西真的有市场。于是我和一位联合创始人从大学退学了;另一位联合创始人 Andrew,也就是我们公司现在的 CEO 也辞去了他的律师工作,和我们一起用技术更加深远地改变这个行业。我们一开始一直在一个朋友寓所的地下室里写代码,并且给客户打电话。一开始还是比较艰苦的,我记得2014 年到 2015 年的那个冬天特别冷,而且我们在的那个地下室没暖气。

我们震撼了市场并且引起全世界的巨大兴趣,这些兴趣不止来自于北美,还包括丹麦、澳洲到巴西。这也让我们认识到我们解决的问题并非只是个地区性问题,而是一个全球性的问题。不久之后,我们决定离开多伦多去硅谷,毕竟如果要做成一个全球性的业务,我们需要去那里。当我们打好包,买好机票准备出发去硅谷的时候,我们的顾问说,「你们应该去一下 Y Combinator。」当时我们只是听过这个名字,其实并不太了解 Y Combinator 是做什么的,于是我们问「啥是 Y Combinator?」(笑)后来我们了解到 YC 会投一些钱(那时我们没钱),并提供导师指导,带你认识有价值的人,总体来说好像还是不错的。

于是我们提交了申请,并进入了 YC,——后来我们才知道这有多难!所有申请中,仅有大约 2% 的申请被接收。那段经历非常难以置信,我们和顶级创业者一起工作,学到了很多技巧和经验,并且改掉了很多坏习惯。这对 ROSS 产生了重大影响。在 YC 的那段时间,我们得到了许多律所合伙人的帮助,他们给予反馈帮助我们改善产品。

从 YC 出来之后,我们筹集到了第一轮投资。我们用这笔钱将 BETA 产品继续开发为真正的商业应用。2016 年三月,我们发布了这款产品,并且拿到不少 AM Law 200(编者注:类似法律界的财富 500 强)的客户,例如 Latham Walkins(全世界收入最多的律所),Denton(全世界职员最多的律所),著名律所 Baker Hostetler 和 Briesen & Roper 等。

最终这些客户的成功获得某种程度上是逐渐积累起来的。我们刚刚起步的时候法律行业对技术的态度是非常冷淡的,他们不明白为什么要做这些,我们的做的这些有何重要价值。我的合伙人 Andrew 可以说像传教士一样,他传播的不仅是 ROSS,而且还包括了人工智能对法律行业的重要影响。如今,法律行业的从业者们逐渐认识到可以如何使用技术扩大市场,增加为客户带来的价值;就像其他行业一样,法律行业也可以享受到技术革新的红利。

在过去几个月我们看到了行业许多喜人的变化。现在我们正在继续扩大我们的业务,并将主要精力放在销售和产品技术两个方面。

机器之心:听起来你们和 Kensho 似乎有很多相似处——他们致力于用人工智能改变金融行业,你们致力于用人工智能改变法律行业;他们去年获得了纽约时报的深度报道,而你们前一段时间获得了 American Lawyer 的深度报道。你怎么看?

Jimoh Ovbiagele: 哈哈,说起来是有那么一点!

二、ROSS 的技术

  

  机器之心:能否介绍一下公司产品所使用的一些技术,比如 NLP 或 Knowledge Representation?

:我们使用了很多不同的自然语言和机器学习技术。我们使用了深度神经网络、依存解析(dependency parsing)、命名实体识别等(name entity recognition),language model 等。我觉得 language model 超酷的,我们使用了 word embedding , 比如词嵌入(word2vec),以百万计的法律案例训练我们的 word embedding。同时,我们发现了一些有趣的东西,比如,总统减去权利,我们得到副总统;不幸的是,我们用律师减去金钱,得到遵守道德。(笑)

这里面存在一些问题,其中一个是在使用机器学习解决判刑问题或预测罪犯时,发现有很强的种族偏见。人们批判机器学习存在种族歧视,但现实是我们的社会存在种族歧视。机器学习像镜子一样反映出社会的歧视,它如同镜子反应出社会的看法。这些机器学习系统是从数据中进行学习,但是这些数据来自我们人类,所以最终其实还是是学习我们人类。

机器之心:那 ROSS 是如何搭建 knowledge base 以及如何做信息提取?

:这取决于具体的方法。比如使用 word embedding 这样的无监督学习技术,我们把判例法输进去,搞清楚单词的语境然后建立词的表征。我们也会进行大量人类互动,让系统更加完善。我们采用多种自然语言理解方法来决定推荐的文章是否回答了问题。虽然有很多种办法,但是我们得搞清楚如何给与每个特征或参数恰当的权重或得分。一种方法是我们使用机器学习来从历史问题和已知答案的训练数据组中学习,进行数以千计的迭代,为那些权重测试不同参数,看看哪些可以得出最理想的结果(基于训练数据集)。

此外我们拥有遍及全球教育 ROSS 如何回答问题的律师。「理解」这一点很重要:我们并非教授 ROSS 法律, 我们是在教授 ROSS 如何阅读法律。因此,即使律师教授的是具体问题,ROSS 也要从这些问题中发现模式,运用到回答从未见过的问题上。

最后,当用户使用我们的产品,我们会邀请用户给予反馈(比如点赞或吐槽),然后根据反馈强化问答或鼓励我们反思。

总体来说,第一是律师主动地训练系统,其次用户在使用中通过反馈训练系统给出更好的答案,此外就是基于大量的数据使用适当的算法学习出表征。

机器之心:技术方面到目前为止你们遇到的最大困难是什么?哪部分最难?

:最大的问题是自然语言理解。这方面我们花费了很多时间,比如词(words) 具有多义性,具体的意思取决于使用的语境。虽然 ROSS 在这方面已经甩开竞争对手不少,但毕竟机器理解语言的能力和人类理解语言的能力还存在很大距离,这还有很长的路要走,同时也是我们正在着力之处。

现在 ROSS 已经可以阅读法律文件然后找出相应段落并回答你的问题了。我们接下来几年的最大目标之一,是希望 ROSS 可以浏览多个案例和证据,然后生成备忘录,总结问题,并列出不同观点。这将会改变律师们研究案子的方式。我们大体上知道要如何做到这个,哪些地方我们知道怎么做,哪些部分我们还不太知道要怎么做,而那些不知道的就是最有挑战的地方。

机器之心:在加拿大有不少从事 NLP/NLU 研究的,你们和那些研究实验室有密切联系吗?

:那是必须的!多伦多大学邀请我们参与过一些研究生的项目,我们也从研究实验室雇佣机器学习工程师, 并且在各个不同的领域都有专门的科研顾问。对我们来说,和学校的合作非常重要。因为我们的重点做好在法律行业的应用产品,但我们需要使用最先进的人工智能技术。我们将自己视为应用的建筑师,这就像建设一座摩天大楼一样,我们需要使用最好的钢材,但我们并不一定需要自己去炼钢。在竞争中,速度是最重要的。

机器之心:IBM 研究所负责研究,全球的其他产品团队则用基于这些研究之上的 API 为客户量身打造产品。这样产品团队可以更好专注地做出客户满意的垂直应用,而研究人员可以专注于提高算法的性能。ROSS 的策略和 IBM 商业化 Watson 的策略似乎也很相似?

:是的。说起来我们和 IBM 真是有很多渊源。十一月我们还将和 IBM CEO Genni 一起宣布我们自己的法律自然语言理解框架 Legal Cognition。这个框架可以帮助律师回答复杂的问题。

机器之心:你提到在文本中有大量的信息,但我们也知道在图像或媒体中有大量的信息,你如何处理这里面的信息?

:是的,我们已经开始尝试处理图像和视频了,不过现在主要还是实验项目,因为我们没有发现有客户在这方面有明确的需求。现在的情况是,我们有这个技术和产品小样,但还没发现合适的使用场景。我相信在以后,这会是一个非常令人激动的技术。

机器之心:那具体的处理过程是如何的呢?是通过对图像添加注释,然后再分析文本吗?

:是的,这是一种方法。使用视觉识别来产生自然语言文本,然后接着使用自然语言处理系统来处理这些文本。此外还有其他的方式,比如直接处理图像。这是一个解决起来非常有趣的问题。

三、产品与公司布局

机器之心:对于客户来说,你们系统的体验是怎样的?

:对客户来说,一切是非常简单的。我们告诉律师们启用 ROSS 只需要网络连接。律师们一开始都很惊讶,因为他们都习惯了需要经过繁琐流程安装在本地的应用,而 ROSS 是完全基于云端的。现在,他们只需要输入用户名和密码,如果有需要的话还可以进行双因素认证(Two-factor authentication),接着在输入框输入你的问题就可以了。

举个例子,你可以输入「过去 5 年内,在纽约,破产后学生贷款债务可以被清偿吗?」

我们的系统首先就会明白你想知道你要的是纽约过去 5 年的法律。然后,它会将搜索范围限制到相关法院。接着我们的深度自然语言处理技术会对问题进行分解、搞清楚词与词之间的关系、扩展词的含义,并应用我们的语言模型等等。

所有的这些均发生在几秒之内,之后用户会得到 10 个可以回答所输入问题的相关文章段落。用户可以点击展开查看相关段落在原始案例文本中的前后文。此外,我们还会显示相关的预测结果,高亮标出我们认为用户可能会需要的看的一些部分。

这个过程就类似于你让一个助手帮你找一个问题的答案,他花费几个小时给你带回来一堆他认为很重要的文档,并且标出重点。一般来说,只有律所的高级合伙人才有可能雇得起这样的助手。而有了 ROSS,这一切就变得轻松多了,即使是律所中最年轻的律师,也不再需要花费好几个小时,几秒钟即可完成这项工作,ROSS 给他们带来了更多的发挥空间。

我们这一代人随着互联网长大,我自己从 Google 学会的编程,从 Youtube 学会的神经网络技术,我们这一代人比上一代人要拥有更多的信息。对过去的律师而言,如果碰上一点不了解的法律问题可能需要花费 9 到 16 个小时去图书馆钻研。但有了 ROSS,只需要几分钟就能成为该法律问题上的专家。配备了人工智能工具的律师将会成为前所未有的最聪明的律师,这也将是我们这一代法律工作者的工作方式。

机器之心:你刚才提到的是搜索纽约州的案例。但如果我想要了解其他州的呢?美国州与州之间的法律不同。该系统能分辨之间的不同吗?这会是一项挑战吗?

:嗯,我们已经做这件事了。你可以明确你想要获得答案的管辖权是哪里。你可以通过明确地区、时间范围来限定搜索范围。如果你在纽约,你肯定不想要爱达荷州的信息,你肯定也不想要 1914 年的法律,我们明白相关性的重要性,最近期的决策才更有意义。

机器之心:现在公司的团队大概是一个什么情况?你们在扩大销售/咨询团队和项目开发团队?

销售团队和开发团队现在人数差不多。我们团队总人数还是保密一下,因为我们想保持神秘感(笑)。一开始我们开发的人比较多,现在我们已经有了受到律师们认可的实用的产品,所以我们开始建立自己的销售团队扩张市场。此外,我们最初以美国破产法律为起点,但现在我们有了坚实的底层技术,接下来几个月我们也会发布对知识产权、劳工法、保险法等的支持。

机器之心:你提到 ROSS 要成为一个全球化公司,ROSS 现有的模型能够直接从英语迁移到汉语吗?

:那肯定不能直接就用到中文,我认为这是一个介于中等难度和高等难度之间的问题。现有的英汉互译技术还不是很完美。当我们正式进入中国市场时,肯定首先会建好中文模型。我们与大成律师事务所达成合作时我们是很激动的,在中国它是最大的法律公司,我们与它的合作势必也会涉及在各个不同国家的服务。我非常期盼我们很快就能这么做。中国不仅是个巨大的市场,也有很多非常棒的技术人员,在大学时我就认识很多非常棒的来自中国的计算机科学家与人工智能人才。

机器之心:让我们进一步讨论下国际市场,你认为扩展国际市场的最大困难时是什么?

:我们的技术能够延展,这一点我们很自信,但我们也需要延展我们的销售和市场。我们的扩展不只是适应当地的文化,因为我们知道之前的一些公司所犯的错误。当你观察 Uber 和亚马逊进入中国或日本市场时,他们认为只要翻译文本、跃过文化障碍就行。但其实这是一些很细节的问题,比如印刷格式。的确,一些中文印刷格式看起来很有趣、友好,但对美国人来说看起来却很愚蠢。这中间有一堆这样琐屑小事情很容易被忽略。而且就像你与客户交流的时候也需要遵循文化规则。因此如果我们要进入国际市场,不想只是复制我们的工作框架,我们更倾向于在中国「重新建立」ROSS。

机器之心:关于人工智能对法律行业带来的影响,你怎么看?

:我想很多人可能会认为人工智能增加了律师的效率之后我们就会需要更少的律师。但其实像我之前提到的那样,法律还有未开发的市场,80% 的美国人的市场。由于没有可以降低成本的科技,律师无法向这些市场提供有效的法律服务。

有了人工智能之后,大型法律公司就能扩展业务到这些市场。过去,毕业不久的年轻律师必须花很多年时间进入公司获取经验、经受训练、建立自己的社交网络等,而有了人工智能的帮助,他们也可以建立自己的业务。这很像 AWS 对开发者的帮助,不再需要大量人手管理服务器了。

我们在法律产业做的事情是让整个行业触碰之前没能开发的市场,这对整个产业是有利的。即使这 80% 的人不富有,但也代表了价值数十亿的法律需求。法律服务更加分散和平易近人对社会而言也是有好处的。

此外,人和机器之间的差距是很大的,你永远需要人来理解人类并处理人和人类之间的关系。我们的愿景是让律师和机器一起和谐工作。

机器之心:这种变化是否会影响到法律院校教授学生的方式?

我认为是的。有一些法学院已经决定在课程中教授学生们如何使用 ROSS。现在还不好透露太多,我们之后会对外公开相关信息。

机器之心:机器学习可以学习预测法官的判决,比如他的偏好(案例类型)。如果使用人工智能发现法官的偏好,是否会对法律公正产生不良影响?

jimoh Ovbiagele:这是一个很棒的问题,现实中一些律师其实会搜索法官的偏好,以便于找到更好的方式将客户的案例呈现给法官。不管有没有机器学习,我不认为这本身是一个问题。它是一种有效的交流方式。高效的交流者会在交流时搞清楚与我交流的人注重什么、有什么交流模式、我如何向他解释自己。

每个人多少都有偏见,这和你的成长过程有关,很难避免。有了人工智能,我们就能够通过了解法官过去的决策,从而帮助法官发现自己所存在的偏见,这样就可以防止偏见带来的问题。