第757章 流形学习
姚梦娜提出的这个问题,对于常浩南来说,不难理解。只是很难解决。真要说起来的话,这涉及到文本挖掘、数据可视化、信息检索、数据挖掘、机器学习乃至人工智能等一系列问题。如果真做到姚梦娜所设想的那样全自动化生产,那就是工业4.0了。在1999年这个时间点上,显然不大现实。但不可能完全实现这一整套东西,并不意味着其中没有可以作为突破口的部分。比如数据挖掘和信息检索,就是千禧年附近很火热的研究方向。其核心目的是从海量数据库和大量繁杂信息中提取出有价值的知识,并进一步提高信息的利用率。实际上,在常浩南重生之前,飞机设计和制造领域已经开始应用这方面的技术,他本人也接触过不少。但当年的他作为一个工科出身的普通技术人员,并没有太多理论功底。而系统,则首先需要构建出一个完整且可行的思路出来。这就导致如今他脑子里空有一大堆名词,但却不知道哪個是破局的关键——实际上,他此时就面临着无法从大量繁杂信息中提取出有价值信息的困境。“信息……”常浩南从旁边扯过一张纸,在纸的最中间写下了两个字。在理想化的模型中,最好是一个数据就可以精确且唯一地描述一个含义。也就是一维数据。小学和中学时候做的应用题,大体上就是这样。实际生活中面临的,其实大多数也是这种问题。而对于稍复杂一些的情况来说,要完全描述一个含义,往往需要一组数据。但与此同时,这一组数据又往往不只能描述这一个含义。要想在数学上描述这种一组(多个)数据对应多个含义的现象,就需要将一组数据在不同的维度上进行展开。这是由数学理论推向现实的情况。而反过来,现实中收集到的信息,在多数情况下,本身就是已经展开过的高维数据。而如果想要让计算机处理这些高维数据……常浩南思索半晌,又在纸上写下了三个基本条件:1、对原始高维数据进行压缩,降低原始高维数据的维度,进而节省存储空间,同时也降低高维数据的计算复杂度。2、消除,或者至少降低隐藏在原始高维数据中的噪声。3、提取到高质量的数据特征,提升后续的数据表示和分类任务的效果。他在脑子里把这三条内容过了一下,然后试图让系统给出一个结果。没有反应。显然,这并不能被算作是“完整且可行”的思路。……不知不觉间,常浩南就在办公桌前枯坐到了快要吃午饭的时候。仍然没能想出一个很好的思路。直到一阵来自腹部的叫声把它从深思中吵醒。确实有点饿了。姚梦娜看了看纸上的一个名词和三句话,也知道常浩南大概是没什么思路,干脆站起身道:“要不先去吃个饭?”“也好。”常浩南不是那种死钻牛角尖的人。更何况数学这种东西,光靠俺寻思是寻思不出个一二三的。没有灵感,说啥都没用。不如先放松一下,换个思路。十五分钟后,三人(连同朱雅丹)已经围坐在了食堂二层的一个圆桌旁边。这里算是个点餐制的小灶,价格比下面的大食堂贵一些,加上还要多上一层楼,因此来这里吃饭的人并不算多。倒是旁边的小超市,来来往往的人流量不少。常浩南面前摆着一份热气腾腾的羊汤面,但却并没有急着动筷子,而是出神地看着不远处楼梯口上上下下的人群。90年代这会,方便面还属于非常流行的即食类食品。常浩南读本科那阵子,大家的条件普遍比较差,有闲钱吃得起的人不多。但到了99年这会,大学生在宿舍备上几袋甚至一箱,都不算什么稀罕事了。“你们说……”常浩南突然开口道:“生产方便面的企业,是怎么保证不漏装或者多装调料包的?”正在低头吃饭的姚梦娜一愣,旋即意识到常浩南这还是在思考刚才她提出来的问题。给方便面里面塞调料包和给飞机打铆钉,在数学模型上其实是差不多的。而生产方便面的企业,显然不太可能有多么高大上的设备和技术。“大概……称重?”姚梦娜猜测道:“调料包大概占整包方便面重量的10%左右,如果少放或者多放,那应该很容易检测出来。”“嗯……但面饼重量本身就有误差,而且调料包有好几种,称重只能证明总量没问题,但不能保证没放错……”常浩南摇摇头否定道。旁边的朱雅丹左看看常浩南,右看看姚梦娜,实在是不知道这两个人为什么突然讨论起这个问题了。“那个……”虽然她觉得在两位博士面前有点班门弄斧,但最后还是没忍住:“在封装步骤之前,专门找个人在流水线旁边看着不就行了么?”姚梦娜单手扶额:“我们就是在想,如何才能不用这个人,但实现一样的效果。”“这个么……”朱雅丹瞬间缩了缩头:“我只是随便一说……但有些时候人脑的作用或许还是没办法代替的……”餐桌周围又恢复了平静,只剩下偶尔发出的微弱咀嚼声。但常浩南仍然没有动筷子。“你说得对。”几分钟之后,当朱雅丹都快要吃完面前盘子里的炒面时,常浩南突然开口道:“人类的大脑能够通过某种办法解析高维数据,从而获取对外部世界的感知。”“?”朱雅丹满脑袋问号地抬起头,但看着常浩南思考的样子,很有自知之明地没有打扰。“换句话说,具有高维数的外部信息必定潜在于一个低维空间中的非线性流形结构上……”在近70年前,美国统计学家哈罗德·霍特林就已经提出过将高维数据进行降维的主成分分析法。他认为方差越大提供的信息越多反之提供的信息越少,于是通过原分量的线性组合构造方差大、含信息量多的若干主分量,再进行矩阵奇异值分解,实现数据维数的降低。但主成分分析法只相当于找到投影距离最小的意义下的最佳线性映射,而现实中却没有那么多简单的线性问题。不过,这个思路却是可以被借鉴的。常浩南放下只吃了一口的羊汤面,蹭地站起身,快步离开食堂。身负安保职责的朱雅丹赶紧跟上。姚梦娜的反应稍微慢了一点,刚想起身,又意识到还没结账,只好掏出钱包,无奈地走向收银台。回到办公室的常浩南重新找到了刚才那张纸。在三个基本条件下方又写下了几行字。给定一组高维数据X={x1,x2,…,xn}RD,n为数据样本个数,D为高维数据的维数。再假设X中的数据样本来自于或近似来自于低维嵌入空间中的数据Y={y1,y2,…,yn}Rd。寻找一个从高维观测空间到低维嵌入空间的映射关系,使得yi=(xi),以及一个一对一的重构映射关系^-1,使得xi=^-1(yi)。写到这里,常浩南的脸上露出了一个满意的微笑。尽管仍然没有给出完整的思路,但是,他至少已经把三个抽象的基本条件解析成为了一个具体的数学问题。而对于理论研究来说,明确地提出问题,几乎也就相当于走完了成功之路的一半。想到这里,他回到这张纸的最上面,重新写下六个字。流形学习方法。(本章完)