说说人工智能、大数据、医疗和教育（二）

在昨天的文章中我们详细说明了什么是机器智能，用数据驱动获取机器智能的方法，谈了机器智能的一个必要因素就是大数据，并且讲了大数据对于人类生活的预测指导作用，今天我们在此基础之上，主要来谈谈医疗的内容，基于一篇文章的篇幅所限，明天我们再来谈教育。

当今医疗领域所面对的问题主要有三个方面：第一，看病贵；第二，医疗资源分配不均衡，好的医疗设备和技术精湛的名医大都集中在经济比较发达的地区，经济不发达地区的人面临的不仅仅是看不起病的问题，同时还有生了重病找不到好的医生的问题；第三，很多疾病，譬如癌症，人类仍然没有找到可靠的能够使其得到稳定治愈的方法。其实针对这三个方面的问题，大数据和机器智能的发展都能够提供一个理论上行得通的解决方案。下面我们一一来谈。

首先是看病贵的问题。那么为什么看病会如此昂贵呢？大致有以下三个方面的因素。

第一，医学人才培养的成本很高，对于怎样成为一个顶尖的医学技术人才来说，就中国而言，维基百科中是这么描述的：

从大学第一个本科开始的。一般有五年制，七年制和八年制，分别授予医学学士，医学硕士和医学博士的学位。七年制和八年制统称为长学制。获得医学学士学位的毕业生，可以参加执业医师考试。五年制毕业的医学学士，可以继续攻读医学硕士及博士，两者同样需时三年。七年制毕业的医学硕士，可以继续攻读医学博士，如果攻读本校的医学博士，可以只参加转博考试，通过考试及面试后，再读3年，可以获得医学博士学位。

也就是说，从高中毕业算起，到获得本科学士学位再到参加执业医师考试获得从业资格，至少需要 5 ~ 6 年的时间，而这种技术水平也仅仅只是从医资格的起步水平，大多数情况下，这种技术水平的医生是很难看好病治好病的。获取博士学位，达到高级医师的水平，高中毕业后最短需要接受 8 年、最长需要接受 11 年的医学知识技能教育，这还不包括毕业获得从业资格之后经过大量临床经验和病例积累增长技术水平所用的时间。这么来看，一个优秀医师培养起来不仅仅是耗费了大量青春年华的宝贵时间，还有大量的金钱投入。事实上在美国以及其他国家也与此类似，美国有个笑话是这么说的：一个人从最初接受医学教育到获得外科医生的行医执照的时候，他的中学同学已经结婚生孩子并且事业略有所成了，而他才找到第一份 50 万美元年薪的工作。当然在美国第一份工作就能获得 50 万美元年薪的外科医师是很少的，事实上有不少人在这个过程中要么读不下去中途放弃了，要么读了个半吊子什么都没学好。年薪 50 万美元什么概念呢？我们可以和美国总统的工资比一下就知道到了，这相当于美国总统年薪的 1.25 倍（2016年美国总统的年薪是 40 万美元）。这是相当可观的一笔收入，在中国估计也是不相上下的。从培养一个高级医师的艰难过程来看的话，一个医生的年薪值这么多钱也是可以理解的。

那么针对以上所说的医学人才培养成本高的问题，从机器智能和大数据的角度来看，有什么样的解决方法呢？事实上，我们在平时看病的时候，总喜欢找一些年长的医生，这背后的逻辑其实很简单，从业历史长，那么见的病例一定多，经验一定很丰富，最后做出诊断和治疗的精确性也会越高。也就是说，一个医生的医疗水平，是跟他见过的临床医疗病例的数量有正相关关系的。由此我们也可以想到，如果我们给定一个机器学习的模型，给它提供大量的病例数据以训练参数，那么它是不是也可以变得很聪明直至最后超过大部分医生的水平呢？答案当然是肯定的。事实上，在 2012 年的时候，当时有一个新闻不知道大家还记不记得，美国一个高中生，用 760 万例乳腺癌病例，训练出了一个可以精确定位乳腺癌癌细胞位置的算法，其判断准确率达到了 96% 以上，超过了外科医生的水平，这就是一个典型的例子。在 IBM，通过机器学习的方法训练出来了一个沃特森机器人，现在的语音识别技术赋予了这个机器人与人交流的能力，而这个机器人给人看病的水平，相当于一般中级医师，那么为什么这个机器人给人看病的水平还不能超过现在的大部分高级医师呢？因为人类积累的可供机器阅读的电子病例的数量还不够多，换句话说，机器比较笨，它需要大量大量的，比高级医师所见的多很多的数据，才能通过学习保证自己的水平超过高级医师。那么这些电子病例数据量的积累速度是怎样的呢？IBM 给出的数据是，每隔 73 天会翻一番，这种增长速度会保持到 2020 年。

因此，从这个方面来看的话，机器给人看病超过医师的水平，也只是时间早晚的问题，并且这个趋势一旦形成就基本上不可能逆转，没有任何一个医生可以与它相匹敌了，因为任何一个人的生命都是有限的，在有限的生命中，任何一个医生所见过的病例的数量都不可能比机器多，水平自然会没有机器高。这是未来的一个大趋势。既然在未来可以通过机器给人看病，并且诊断和治疗的精确度还很高，那么也许以后的哪一天，给人看病的话可以采用一种机器流水线的操作，机器 24 小时可以不停歇地运行，而且还不用花那么多的时间和金钱去培养职业的医学技术从业者，自然而然，看病的成本就降下来了。

导致看病昂贵的第二个方面的因素是医疗体制造成的。医疗服务的提供方主要有两个：医院和医生的医疗诊所，而这两个服务提供方提供服务的方式，基本上就是一揽子合同，将诊断和治疗融为一体，将经验医疗和精确医疗融为一体，全部包办。这是什么意思呢？下面我来简单解释一下。

医生给人看病的时候可以将病人症状的基本情况分为两类，第一类是一看就能够确诊是什么病，背后是什么机理引起的，这种类型我们称之为精确医疗；第二类是单单从表面症状上看，并不能确定背后的患病机理和患病类型，需要医生通过自己的临床经验，进行试探性地检查和探索，直到最后搞清楚所有的患病机理和患病类型，我们把这个过程称之为经验医疗。

在实际场景中，这两种形式的医疗都同时存在并且融合在同一个医疗服务的提供方之中的。然而我们回过头来看这两种类型的医疗时，他们虽然有着各自的不同特点，但是在最终的结合点上却有一点是共通的。对于精确医疗来说，一旦确诊之后，这种类型疾病大体可以按照流程划分为规范性的治疗步骤，只要按照这种规范性步骤操作，最后就一定能够得到理想的结果，这种规范性的步骤是通过大量有经验的权威性的医师总结出来的，对于这样的疾病类型，完全可以做到将其治疗的过程外包出去，一旦确诊之后，可以通过专门的医疗机构通过预先总结出来的权威性规范性的措施，一步步治疗达到最后的理想结果，这个过程完全可以不用夹杂在同一个医疗服务提供方之中。而对于经验医疗来说，医生通过一系列的试探性的措施和步骤，最后搞清楚各种状况之后，也就是一个各种精确医疗组合的问题了，对于这种情况而言，也可以通过之前说过的精确医疗的方式进行治疗。如果在实际场景中我们可以将疾病的诊断和治疗两个方面分开，对于其中的一些疾病，采用更低成本的人力配置，采用标准化和流水线化的操作，是完全可以很大程度上降低成本的。当然对于医疗体制方面的问题还有许多许多，譬如在疾病的治疗过程中完全是供决定需的关系，就是说，医生在具体的治疗过程按照项目收费，进行哪些项目完全是由医生决定的，不说决定，病人甚至都没法参与进去，这些都是医疗体制中存在的问题，这些体制问题能否找到行之有效的解决途径？讲一讲这些问题可能还需要好多篇文章的篇幅，对于这些问题，我们以后再说吧。

影响看病贵的最后一个因素，是药物研发的问题。实际上，对于很多药物而言，其研发大约需要 20 年的时间里投入 20 亿美元的资金，而对于这种药物的专利，在其研发过程的早期就申请了，因为不申请的话就被别人申请走了，从最早期的专利申请，到药物走过几期临床试验最终面世，大约需要十几年的时间，而专利的保护年限只有 20 年，所以等药物真正面世之后，可能只有几年的时间把早期的研发成本收回来，而到了专利到期的那天，一夜之间，药物的价格大约会下降 80% 以上。所以基于这些因素的考虑，一款新药上市之后价格是非常昂贵的。但是对于很多疾病来说，我们是可以通过早期的一些身体数据的异常，利用大数据分析的方法，推测患某种疾病的可能性，从而做到对很多疾病防患于未然的。在疾病的预防上，人们做的还远远不够，现在的医学的发展也更加重视得了病之后怎么治的问题，而对于很多疾病的早期跟踪和预防问题，显然做的还很不够。

上文我们针对医疗领域看病贵的问题，分别谈了三个方面的因素，并且针对每个不同的因素，聊了一下在大数据和机器智能时代有哪些可以优化的措施。现在我们接着来谈下一个问题，也就是医疗资源分配不均衡的问题。

我们经常说，互联网能够拉近人与人的距离，在地理位置上相隔几千公里的甚至无论多远的两个人，都可以通过互联网的方式将彼此联系起来，而在医疗资源之中，最重要的资源就是医生资源，我们是否可以通过互联网的手段将一些医术高超的医生和患者跨越地理位置的距离而将其联系起来呢？答案当然是肯定的。不过为了达到在线医疗的预期效果，我们需要建立一种标准格式的在线病历系统，患者保留对自己病历的所有权，并且通过患者自己的授权，这个病历能够被网上任何一个由他自己指定的医生查阅到，同时搭建一个患者与患者之间、医生与医生之间（会诊）、患者与医生之间的交流平台，并且能够根据患者借助于医疗设备做完检查之后，电子病历系统实时更新的变化，用大数据的方法，针对每个患者不同的病情，推荐与之最匹配的医生。这些是完全可以实现的，一旦这些工作落到实处了，那么医疗资源分配不均衡的情况，也可以在某种程度上得到有效的缓解。其实我们回过头来说，如果到了机器智能给人看病超过人类医生的那一天，医疗资源分配不均衡的情况就已经得到解决了，在那些医疗技术水平落后的地区，放一些机器就行了，机器能与人对话，并且随着将来可穿戴设备的普及，人体各项体征数据的采集基本上只要带一个可穿戴设备就行了。

对于最后一个方面，很多疾病难以治愈的问题，其实我们可以通过换一种思维，即大数据的思维来解决疾病治疗的问题。拿癌症来说，癌症之所以难以治愈，主要原因是它与诸如感冒之类的疾病致病机理完全不一样，主要体现在以下三个方面：

癌症是由于人类自身的细胞在细胞复制的过程中产生基因错误而导致的，它不比感冒这种由于细菌感染所引起的疾病，对于后者，我们可以用青霉素等药物，破坏病毒细胞的细胞壁，杀死病毒细胞，从而可以得到有效的治愈。但是对于癌细胞而言，它来源于人体自身，是没有细胞壁的，所以不能通过这种方式来把癌细胞杀死。实际上，同一种癌症其背后的致病机理可能是由不同的基因错误引起的，所以有些抗癌药物对于有些患者有效，而对于另外一些患者无效，就是因为虽然是同一种癌症，其背后的基因错误是不一样的。很多时候，医生在给癌症患者进行药物治疗之前，需要进行基因比对，以确定这类药物是否对该患者有效，就是这个道理。
癌症是由于自身细胞复制的过程中产生基因错误引起的，那么既然人体细胞在复制的过程中能够产生一次错误，自然更容易产生第二次错误（也就是说，坏了的东西其实更容易损坏），这就是我们可能听说过，以前有一位患者癌症治好了，但是突然在某一天复发之后，原来的药物不见效，很快就去世了。就是这个原因，第二次的基因错误和第一次不一样。
癌细胞既然是由于基因错误引起的，那么这种基因错误的癌细胞，它自身在复制的过程中，也更容易产生错误，也就是说，癌细胞变异进而引起其他癌症的风险很大。

基于以上三个方面的原因，所以癌症这种疾病变得极难治愈。目前我所了解到的针对癌症治疗的科学进展，主要有两个：其一是所谓的“饿死癌细胞”，这个观点是清华大学的颜宁教授提出来的，其背后的机理是，在提供其他营养物质维持正常细胞代谢的同时，阻断葡萄糖运输特异，饿死癌细胞。至于这种阻断的方式是什么？目前好像还不知道，科学家正在研究中。不过这是一个方向。其二是换一种思维，即采用大数据的思维来解决癌症治疗的问题。下面我具体来谈谈这种方法。

癌症是由于基因错误引起的，那么其实我们可以通过研制治疗这种基因错误的药物，来治疗癌症。但是，遗憾的是，目前已知的导致肿瘤的基因错误在万这个数量级上，已知的癌症在百这个数量级上，如果考虑所有可能的基因复制错误和各种癌症的组合，种类将是几百万到上千万种，对于人类来说，这个数字是非常庞大的，不过，与此相对应的，这个数字对于计算机而言，却是一个很小的数字，如果能够利用大数据技术，在这些几百万到上千万种组合中找到真正引起癌症的组合，并且针对这些组合研制相对应的治疗药物，那么治疗癌症的梦想就可以实现了。实际上，国际上有很多大公司都在做相应的努力，譬如 Google 旗下的 Calico，以及美国的 Grail 公司等。

以上就是我对于医疗领域了解到的一些知识和自己的一些想法，希望分享给大家能够有所帮助。明天，我们来聊一聊智能时代背景下的教育问题。