AI应用落地,核心是工程问题,不是算法问题,更不是“哲学”问题。一定要特别特别“土”,踏踏实实从朴素的运维、数据库、数据清洗做起,从实际的工程中逐步演化。只有扎扎实实从工程出发,才能实事求是地发展出低成本的、有生命力的AI系统。

没有银弹,没有奇迹。都是扎扎实实的工程,多年细节的打磨才能解决一点小事。也从来没有一个所谓的伟大的想法,能跳过工程的考验就成功的。工程才是做好AI的钥匙。——鲍捷

鲍捷是谁?他是拥有近5.3W粉丝的微博博主“西瓜大丸子汤”,也是智能金融创业公司文因互联的创始人和CEO,还是知乎专栏“文因互联”的主要撰稿人。这几年鲍捷笔耕不辍,在微博、知乎、微信上撰文无数,其中不乏爆款和经典之作(比如《确保搞砸人工智能项目的十种方法》和《工程才是做好AI的钥匙》)。当被问及如何在繁忙的工作之余保持如此高频度的写作产出时,他只一句:“无他,唯压力尔。”正因为压力太大,天天不分昼夜地琢磨问题,自然就会想把正在思虑的问题都写下来。这些作品逐渐成为了文因互联的风格,吸引来一批志趣相投的工作伙伴,而“西瓜大丸子汤”也不再代表鲍捷个人,早已成为文因互联的重要公司资产。

鲍捷所写的文章主要有两类,一类是知识图谱技术的分析总结,另一类则是AI落地的经验之谈,这两类文章也代表了他的过去和现在:知识图谱是鲍捷进入人工智能领域学习、研究和工作几十年来最主要的研究方向,而AI应用落地则是当前他要带领文因互联去攻克的重要课题。

文章之外亦有玄机。文因互联是国内为数不多以知识图谱为核心技术的AI公司,它与其他人工智能企业有何不同?知识图谱到底能做些什么?在智能金融领域,知识图谱的商业化落地目前进展到哪了?带着这些问题,AI前线记者对鲍捷进行了专访,进一步了解文因互联在金融知识图谱的落地进展和经验,并探讨了知识图谱未来发展的可能性。

关于创业和文因互联

知识图谱其实一点都不新,如果从最早的知识工程开始算起,它几乎和人工智能这个领域的出现一样古老。2012年谷歌提出了一个叫“Knowledge Graph”的项目,知识图谱因此得名,而直到最近四、五年这一概念才被越来越多的人所知。

为什么选择创业做金融知识图谱?

鲍捷曾经表示:“不是为了一个技术而创业,而是为了解决一个问题而创业。”2011年,鲍捷选择离开学术界,2015年创办文因互联,就是为了解决知识图谱的落地问题。

为什么创业?因为只有创业、进入工业界才能解决知识图谱落地的核心问题。

鲍捷认为,这个领域核心的问题是工程问题,本质上就是成本问题,但学术界不关心成本。他在各个地方演讲,几乎每次都会讲到”成本”两字,几乎所有的演讲都是围绕如何降低成本展开,而“成本”也是这次采访中鲍捷提到次数最多的一个词。

“为什么我们这个领域落地不了呢?我后来发现,其实我们有很好的 “发动机”,比如各种规则引擎、推理机、各种查询引擎。但是如果我们想造一辆汽车,我们需要轮子、车厢、传动装置、刹车装置,这些全都要有。所以这个领域要落地,当前的发展瓶颈是解决人工智能的传动问题。我们有了问题,也有了引擎,要解决问题必须要把中间的这些环节全部做了,而且必须极大地降低成本。把成本降到现在的1%,才能work,这就是实验室和工程的区别。你要想商业化,核心问题不是需求问题在我看来,这是从VC到创业者犯的最大的一个错误,他们都盯着需求,但是核心问题其实不是需求问题。需求就摆在那里,问题是怎么解锁这个需求问题,而怎么解锁需求的核心问题主要是降低成本的问题。你把成本降低到原来的1%,需求自然就能解决了。我们要想能够做到这一点,就必须在工业、企业才能做到,这就是我一开始创业的初衷。”

至于为什么选择金融领域这个方向,首要原因是金融领域拥有大量数据,其次是金融的客户非常多,有不同规模大小的客户,金融内部又有各种各样的门类,便于进行各种探索,而且也比较方便冷启动。

文因互联是一家什么样的公司?

从技术层面上讲,文因互联是一家认知智能公司,主要利用自然语言处理和知识图谱技术来解决金融领域知识的产生、管理、查询、应用的全周期问题。当前主要做的事情是给金融机构赋能,提供认知智能各个环节能力的输出,包括文档自动化阅读,用机器去理解金融文档;也包括金融知识建模和流程自动化,比如监管自动化、审计自动化、信贷自动化等。具体来讲,第一个层面是解决用机器怎么理解文档的问题,用专业术语来说就是知识提取;第二个层面是知识提取之后,如何把业务系统的流程自动化,包括智能投研,科技监管3.0,银行要做数据治理、自动化信贷流程,自动化审计,财务机器人,这些都是有了知识图谱以后就可以去做的事情。

从产品层面上讲,文因互联的产品聚焦于不同金融场景,比如最早推出的智能搜索,金融搜索;后来的自动化写报告,包括银行领域的自动化信贷报告,金融企业的CRM等,表面上看是自动化报告,本质上是将企业的知识沉淀下来并实现智能化和流程的自动化。再进行场景细分,在监管上有面向监管的产品,包括整个公告的结构化和自动化,以及后面的企业画像、预警和监管规则的执行,在银行业会有信贷的流程自动化,包括非结构化数据的数据治理,PDF文件、财务报表自动化审计和复核,信贷流程知识的建模等等。

从市场定位层面上讲,鲍捷提到了他早前提出的场景跃迁理论。他认为市场定位是不断变化的,像文因互联这样的公司不可能一步到位,因为这是一个革命的新兴市场,因此文因互联的市场定位也会随着时间的发展不断发生变化。鲍捷将现在的文因互联定位为一个做能力输出的公司,即为金融机构赋能。“中国现在有上百万的客户经理,5年或者10年之后,至少一半以上的客户经理的重复性低创造力的工作都会被机器取代,而文因互联就是在帮助银行实现这个过程。”

鲍捷认为,现在人工智能在金融领域的落地只达成了前一半,就是所谓基于现有的结构化数据的,比如说像大数据、机器学习,已经有了一些成功的实践,但这些只能算作低枝上的桃子,而高枝上的桃子还很难摘得到。所谓高枝上的桃子主要围绕的是如何解决非结构化数据的问题,比如各种PDF文件、票据里的数据如何解锁,这块现在基本上还没有能做到的,这也是文因互联想帮助客户解决的核心问题。文因互联当前在监管上做了很多工作,鲍捷认为这可能是解锁这个场景早期最主要的一个推动力。

现在很多公司都在宣传各种名为“XX大脑”的行业人工智能解决方案,相比其他公司的“金融大脑”,文因互联正在做的“金融神经系统”又有什么不同之处?

鲍捷表示,文因互联要解决的不仅是一个机构的问题,而是机构和机构之间互通的问题。虽然从当前的产品来看,文因互联其实也在帮助不同的机构构建他们的“大脑”,但在鲍捷看来,智能金融真正最有价值的事情,在于把机构串起来,构造一个机构之间的金融数据高速公路,这才是一个能创造出万亿产值的方向。这是文因互联长期的努力方向。

“文因互联要构造的金融神经系统,是指把中国几千家金融机构连通起来,当然不是我们自己一家来做,可能到时候会有上百家不同的机构一起做,文因互联只是负责其中一部分。现在中国金融的脉搏跳动可能还是以天、以周,有时候甚至是以月为单位来计,十年之后中国金融的脉搏应该是以秒为单位来计算的。到那时候,上百万家金融机构和企业之间的数据交换、数据的互通、文档的互通,都可以达到几乎实时的状态,这是我们努力的目标。

知识图谱能为各行业做什么?

“知识图谱就像数据库,用户可能感知不到,但没人离得了它”

2016年大家开始谈AI技术,2017年话题变为应用场景,到了2018年,业界更关注的是技术到底能带来哪些可衡量的用户价值。当前知识图谱技术的落地应用多见于金融行业,而它所带来的最直观的价值是十倍甚至百倍的效率提升。

原来交易所做公告处理,即使团队没日没夜工作也只能处理一小部分,有了知识图谱的帮助之后,至少可以节约80%的重复性劳动;原来银行做一次小微贷款可能要花一个月时间,现在有的银行半天就可以做完,主要是因为有了企业画像,而企业画像又怎么做到的呢?背后靠的就是知识图谱的力量,通过知识图谱把各种担保链条、违规情况挖掘出来了。其次,知识图谱可以帮助金融机构扩大现在的业务。以银行为例,要从一万个企业客户扩张到五万个客户,通常靠的不是把客户经理扩大到五倍,而是通过提高效率来做到这一点,知识图谱技术就是这里面核心的一环。

知识图谱之所以在金融行业落地产品多,很大一部分是因为这个行业方便团队去做事情。首先,数据比较全,因为有强制性披露,而且场景相对比较明晰。像财务分析就很适合团队快速入手,财务分析不会涉及到太深入的常识知识或者领域知识,因为它是有国家标准的。接下来就可以从财务分析,到行业分析,到宏观分析一层一层往上做。鲍捷表示,金融还有个特别大的好处,就是它的数据有很强的渗透性,基本上能够把金融这个行业做好,就可以很自然地渗透到很多其他应用,这对公司下一步突破自己的天花板有好处。

当然,金融行业并非唯一适合知识图谱落地的行业。除了文因互联现在主攻的金融,鲍捷未来还看好知识图谱在医疗、法律、国防等行业的应用和商业化落地,而这些行业的知识图谱落地也是美国早就证明可行的方向。

鲍捷表示,知识图谱从本质上来说,在当前的语境下是指结构化数据的应用,特别是把网页数据转化成结构化数据这个过程,如果按照这个标准来看,那知识图谱应用的成功案例就太多了。现在每个人的手机上基本都有一个问答引擎,很多人家里会有智能音箱,我们会有各种听歌机器人、智能后视镜,所有这些全都是知识图谱在应用层面的实例,没有知识图谱就不会有这些东西。其实还有很多应用,用户自己不一定知道背后的技术是什么。“知识图谱很像数据库,很少有公司会在最终产品里面说他用了Oracle数据库,实际上现在很多产品背后都在用知识图谱,像搜索引擎是最典型的了,搜索引擎没有知识图谱根本不可能做到现在这样。”

反过来看,也不是每一个应用都适合知识图谱。知识图谱相对机器学习更适合需要快速冷启动的应用,而且它可解释性很好。对于很多像金融行业Mission Critical的应用,必须是可解释的,不能给出一个投资策略却不能告诉用户为什么,这种情况就非常适合使用知识图谱。还有很多应用像搜索、问答、客服,必须精确理解用户在说什么,这是机器学习本身解决不了的问题,只有知识图谱能解决。

知识图谱商业化落地进展到哪了?

“知识图谱应用,中国和美国相比既领先也落后”

提到AI,中国和美国在技术和应用的进展情况差异一直是备受关注的话题。当被问及现阶段知识图谱技术在行业应用上国内外的进展有何差异时,鲍捷给出了一个非常有哲理的回答。

“我们既领先也落后,是辩证的,这是一件事情的两面。首先,知识图谱早在十几年前就已经被应用了。知识图谱的第一波商业化是在2005-2006年就开始的,2005年到2008年是知识图谱的第一波应用,后来被金融危机打断了一段时间。到了2012年又开始了,现在属于第二波应用。从这个角度来说,中国是落后的。2012-2013年的时候,一些大厂开始了知识图谱的实践,这是国内第一波应用,比美国落后了差不多十年。后来那一波灭了,到2015-2016年的时候才陆陆续续又有一些新的公司出现。专门做知识图谱的公司非常少,当然我的信息可能不完备,但据我所知,国内正儿八经以知识图谱作为核心基础的公司也就三四家,这是认真做的。从这个角度来说,我们确实发展的比美国慢,但是我们比欧洲快。”

“从另一个角度来说,中国又不比美国慢。国内现在在人工智能上的很多应用真的比美国快,美国没有那么多应用。我在华尔街的同学和老同事很多,他们认为国内在智能金融上的发展,如无人银行、信贷自动化、智能搜索处于较为领先的地位。由于国内场景丰富,实业提出了很多鲜活落地需求,使国内的发展比美国更快,场景更丰富。

但是美国涉及的面非常广。经过这十几年的发展,美国几乎在所有行业都有了知识图谱的应用,而且每个行业都已经出现了有竞争力的公司,比如说石油、医药、政府、化工等,每一个行业都有有竞争力的知识图谱公司。中国现在还没有多少,到目前为止金融有一些,法律有一些,医疗有一些,但是真正以知识图谱作为核心技术(核心的标准是指公司有科班出身的知识图谱负责人,公司掌握知识图谱的核心技术),满足条件的企业数量非常少,有些行业完全是一片空白。我认为从行业广度的角度,中国大概要再发展十年左右才能赶上美国。”

“大厂关注头部问题,小厂关注垂直问题”

同样是做知识图谱,大公司和小公司之间有何差异?小公司的优势在哪里?

鲍捷表示,大厂关注的是头部问题,小厂关注的是专业度更高的问题,大家在投入上肯定是不一样的,专注度也不一样。“大厂也会关注我们的问题,比如金融,但我可以扎两百个人在金融,一般的大厂还下不了决心扎两百人进去,坚定不移地做。从这个角度来说,小公司只要能抓住一个点是可以做得比大厂更好的。但那些大型头部问题,比如大型问答系统、大型搜索引擎,我们肯定不会去做这方面的应用,在这些问题上大厂可能会做得比其他人更好。”

对于文因互联当前在金融知识图谱领域的落地进展,鲍捷认为是成功的:“我们已经获得了客户的认可,现在几乎不需要做任何商务拓展工作,都是客户主动来找我们。市场口碑已经建立起来了,现在整个工作是完全饱和的,制约我们发展的唯一因素就是团队不够大。头两年大家可能比较迷茫,但现在我们已经比较清楚客户的需求,包括整个行业的逻辑和大方向,接下来的问题是如何加速执行。我们的很多认识是早于同行一年甚至两年的。”

“投资现在就处于寒冬阶段,寒冬就是最好的状态”

鲍捷在之前的文章《确保搞砸人工智能项目的十种方法》中曾说,知识图谱大概率到2030年能够实现,但是在近期的另一个采访中又表示2018年第四季度就是智能金融的决战季。对于这两个看似自相矛盾的说法,鲍捷进一步做了解释。

“2030年实现知识图谱是指大的宏观愿景,就如我刚才说的,在中国光是做到行业渗透就要花十年时间,现在是2018年,到2030年也只有12年时间,12年的时间能够做到这一点就已经谢天谢地了。要把一个行业支撑起来至少得要一万名人才,现在中国这个领域的人才一千个都不到,光人才培养就得花10年时间。至于智能金融的竞争,现在已经到了决战的时候,我认为一个很重要的点就是,因为现在在寒冬状态,我觉得寒冬是最好的状态。”

鲍捷认为,今年是投资的寒冬年,新增的领域内公司很少,但正是在这个季节,领域内发生了非常多有利于下一步发展的变化,特别是金融宏观层面,从监管机构和金融机构内业务变革中能感受到有强有力的脉搏跳动。你亲身去做,就能真切感受到,这是你坐在书斋里或者读行业报告读不出来的。从认识到这些变化到建立有战斗力的组织去做,要几年时间。我们现在做的很多事情是2016年就预见到,在几乎所有人都不太明白的时候就开始做了。2019年,需求交付的时机和组织已经成熟了。但是如果之前狐疑、犹豫而不敢投入的,现在投入也要两年后才能形成战斗力,这可能就已经太晚了。

知识图谱商业化应用什么最难?

“知识图谱是发动机,但只有知识图谱远远不够”

只有好技术也可能赚不了钱。鲍捷表示,知识图谱本身并不能成为一个把客户服务好的原因,因为知识图谱从某种程度上来说是数据库技术的一个前进所有的行业都需要数据库,但是单纯用数据库是没有办法建立产品或者商业模式的,知识图谱也是一样。核心是场景的落地问题,这个问题就不仅仅是一个单纯的技术问题了,本质上是传动。“知识图谱是一个很好的发动机,但是想把这种发动机的力量传到轮子上去,还要加上一大堆各种其他的东西,目前文因互联主要的工作就是在做其他的那些东西。” 比如基础金融数据云、流程自动化技术、报告自动化技术、金融机器人问答、金融搜索引擎等。

而打造这些“传动装置”,需要投入大量的时间。通常一个领域差不多要花十年的时间才能落地,这其中需要经过很多轮迭代。第一步是要把现有的基础数据汇总在一起,这可能就要花两三年的时间。但这还只是低枝上的桃子,把这些桃子摘下来之后,剩下的就是苦活。苦活可能涉及到大量的文本分析;把文本分析解决掉之后就是规则,要把业务规则做进去又要花两三年时间;接下来是场景落地,一步一步走完整个过程正常都要花十年时间。” 每一步的中间结果要拿出来做商业化,一步步做场景跃迁,随着结果的日渐丰富就能逐渐解锁更大的场景。

这个过程中,团队、客户、投资人,绝大多数人一开始都是持怀疑态度,肯定要经历一个大浪淘沙的淘汰过程,最后留下来少数相信你的人跟你往前走。

“知识图谱落地,最核心的就是成本问题”

除了时间以外,鲍捷认为知识图谱落地最核心的问题是成本问题。

“知识图谱,你只要愿意砸足够多的钱,什么问题都能解决,没有什么理论上难的问题。什么都能做,但是你要在有限的资金内把问题给解决了,这是最难的。”

而鲍捷所指的成本不光是钱,他认为最大的成本来自于人的认知的冲突,包括客户和企业的认知、开发人员和领域内各种专家的认知。知识图谱落地当中最大的问题就是如何降低人的认知冲突的成本。

“知识图谱是为了人,不是为了机器。而且人是会犯错误的,知识会演化的。大多数人完全不具备面向知识图谱进行思考的能力,包括开发人员在内,这是成本的最大的来源。抓住这个最核心的问题就能够搞定知识图谱。但理解刚才我说的这句话呢,在没有足够的工程经验之前,你又听不懂,所以恐怕没有什么能够让你做得更快的途径。只能不断地去做,实践、实践、再实践,失败一百次之后你就懂了。”

知识图谱和人工智能的未来会怎样?

“基础理论不会有太大的变化,成本、工程、工具才是主要障碍”

肖仰华教授在他近期的一篇文章中提到,知识图谱技术与各行业的深度融合已经成为一个重要趋势。

鲍捷表示,不同行业、不同垂直领域的知识图谱从逻辑上来说是可以连通的,但目前还没有到那个节点。“不过这不是技术问题”,鲍捷又一次强调,“你只要有足够多的钱,这些问题都能做到,是成本和规模问题,等知识图谱领域全行业投入一百亿人民币的时候,这些事情就都能做好了。”

鲍捷始终认为,成本、工程、工具才是最主要的障碍,基础理论其实没什么太大的变化。“可能其他老师会有不同的观点,他们可能认为是表达力问题,或者我们不能够真正地去刻画知识、真正地产生智能。问题是什么叫 ‘真正的’?只要砸足够多的钱, ‘真正的’都会到。关键是钱从哪里来?你把成本降下来钱就来了。”

“人工智能的泡沫已经破裂了两次,我希望它再破裂第三次”

最近人工智能寒冬说又开始兴起,也有不少人唱衰说人工智能的泡沫马上就要破了。但从鲍捷一直以来在社交平台上的发言和所发表的文章来看,能感觉到他对于人工智能总体上信心很足。

鲍捷认同人工智能存在泡沫,但他觉得泡沫是好事。“人工智能永远是在泡沫和寒冬中振荡,这是我们的宿命,我们不可能打破这一点。人工智能是最美妙的东西,也是最邪恶的东西,所以人类永远都会像追求爱情一样去追求它,又会不断地失恋。我们人类就是这样一种生物,这是必然的。但泡沫破裂是好事,可以把劣质的竞争者都驱逐出去。我希望它破裂,我已经经历过两次破裂了,我希望再破裂第三次。”

对于文因互联、知识图谱和人工智能未来的发展,鲍捷满怀期待。

对于文因互联:“长期的目标太大,短期内我们要扎扎实实地把金融客户服务好,比如真正做好帮助银行实现流程自动化、极大地提高效率这件事,比如说帮客户一年扩张一万个中小企业的贷款客户,或者帮助客户减少一半的客户经理数量,这就是文因互联今后两三年内要做到的事情。”

对于知识图谱:“这个领域肯定还会和历史上一样,不停在泡沫和寒冬之间振荡,估计再振荡两三次都是正常的伟大的公司都是在振荡中始终坚持下来的那些公司。”

对于人工智能:“人工智能从来没有停滞过,不管它是高潮还是泡沫,人工智能一直在前进。所以对于真正相信这个技术的人,不存在冬天,一天都不存在。”

采访嘉宾介绍

鲍捷,文因互联 CEO,联合创始人。曾是三星美国研发中心研究员,伦斯勒理工学院(RPI)博士后。目前担任中国中文信息学会语言与知识计算专委会委员,W3C 顾问委员会委员,中国计算机协会会刊编委,中文开放知识图谱联盟(OpenKG)发起人之一。研究领域涉及人工智能诸多方向,如自然语言处理、语义网、机器学习、描述逻辑、信息论、神经网络、图像识别等,已发表 70 多篇论文。

Comments are closed.