这11个观点可能会让你和深度学习擦肩而过
我大部分走路的时间还有睡梦中的潜意识里都会琢磨着Deep Learning 的问题。Peter Thiel 有一个很有名的说法——“最后一个公司的优势”。意思是你可能不需要具备“第一启动的优势”,但是你一定要成为你行业里最后一个站着的公司。就像Google有可能是最后一个搜索引擎公司,Amazon有可能是最后一个做电商的, Facebook希望不是最后一个社交网络公司等。但是让我夜里辗转反侧的是—— 深度学习 有可能会是“人类最后一个发明”(Last Invention of Man)。
但是,咱们先别想那么远。不管怎样,Kurzweil在他《奇点临近( Singularity)》一书中预计在2045年实现的设想也是30年之后的事情。我们现在要做的就是在这30年里弄清楚想生活在像电影《极乐(Elysium)》中那样,还是什么别的不知名的腐烂废水里。
因此,我提出“专家”团队可能会让你和 深度学习 带来的重要改革擦肩而过的11个理由,供大家参考。
这仅仅是机器学习(Machine Learning)
从业人员接触神经网络一般都是从线性回归的介绍然后再到逻辑回归。这是因为人工神经网络(ANN)用的数学公式是一样的。所以这里瞬间产生偏见,导致人们认为经典的机器学习方式在深度学习的世界里也可行。最后,对于DL最天真的解释就是它是多层的ANN。
当然,我们也有其他种类的机器学习方式,他们是用和DL不同的公式。但是,ML所有方法最基本的目标和一般概念都是曲线拟合。意思就是如果你能找到一个合数据吻合的模型,它就是个好答案。但在DL系统里,因为模型的参数太多,这些系统会默认过度拟合数据,这就足够证明DL和ML是完全不同的系统了。
这仅仅是优化
DL系统有一个损失函数(loss function),它会测量预测和输入的数据吻合有多好。经典的优化问题也有损失函数,也称为“目标函数”(objective functions)。这两个系统会使用不同的启发式方法(heuristics)去探索在很大的配置空间里的最优点。以前人们认为DL 系统的 solution surface 已经很复杂,并且是不可能找到答案的。但神奇的是,一个很简单的优化方法——随机梯度下降法(Stochastic Gradient Descent )就可以得到很好的结果。
这就告诉我们其实这里还有别的事情,和我们认识的优化完全不同的东西。
这是个黑盒子
很多数据科学家都不太喜欢DL,因为它的预测缺少很多可解释性——这不仅是DL也是ML都有的特征。数据科学家更喜欢使用概率方法,因为他们有更多模型的控制。这个导致他们的系统会用最少量的参数做预测。这一切的推动力量都是源于对“简单化或‘奥卡姆剃刀原理(Occam’s Razor)’是对所有事物最好的解释”的信念。
但概率方法在判断图形、语音甚至文字上其实是没有竞争力的,这是因为DL方法比人类还能更好的找到模型。只是我们的大脑更信任穷举法。其实没有任何数据科学家找到过可以很好判断图形的主要因素,也没有任何DL实验依据证明简约模型(parsimonious models)比交互模型(entangled models)效果更好。对于那些真的需要解析的案例,现在有些新的DL方法可以对其提供可解释性和不确定性提供帮助。如果一个DL系统可以提供图像说明,那它也很可能可以生成对预测的解释。
太早了,太快了
这是一个自然的偏见,一个只有5年历史并且急速进化且易变的科技太不可信。我们当时也是这么说微型处理器、互联网、网络和移动技术的。对于大部分人来说,先等等看是安全的方法。对于没有花很多时间分析细节的那些人来说,这的确是一个合理的方式。但这也是一个有风险的策略,不去关注有可能是暂时的安全,但是别的公司抢你的饭碗可能意味的你的灭绝。
太多泡沫
有很多现在DL能干的是在两年前都觉得是完全不可能的。没有人预见到电脑能在围棋上战胜人类;没有人预见到现在会有无人车;没有人预见到我们能有星际迷航那样的翻译能力。这些都那么不可思议并且肯定有夸张的成分在。不好意思,我在这里要戳破你回避的“泡泡”,DL真的存在,并且你每次用手机都在使用它。
AI 的冬季会回来的
我们经历过太多次因AI的前景所带来的失望结果。这个说法走得很远,因为这在以前经常发生,所以它早晚会再次发生。这个问题是,尽管那些失望存在,但AI的研究带来了很多软件功能的飞跃,而且这些功能我们现在都自然而然地使用着,并且从来都没有察觉到他们的存在。“优秀的老式人工智能”(Good Old-Fashioned AI)已经嵌入在很多今日的系统里。
现在对DL 的开发正在加速进行,而且我们也有很多大问题需要解决。需要大量数据和缺少无监督的训练是其中的两个问题。但这不代表我们今天的成果没有价值。DL已经可以开车了,如果现在再来一个冬季,就这一点就足够证明现有阶段已经十分有用了。
我们没有足够的理论解释它怎么工作
目前,研究团队还没有扎实的理论来解释为什么DL这么有效。我们想过为什么多层神经网络比少几层的更有效,但是我们还不能理解收敛性如何发生,或者好的泛化如何实现。DL现在就是一个实验品,我们还在学习这类系统的特征。同时,虽然没有扎实的理论理解,这些工程师一样在前进。
研究员们正在利用他们的直觉和受过教育的猜测建立更好的模型。换句话说,他们不会为了等待更好的理论而暂停他们的发展。这和生物科技领域的研究一样,他们测试很多种组合然后遇到他们不能解释的新发现。科学和科技的发展的确有些不确定的混乱,但是你不应该因为这而放弃它的优点。
这不来源于生物灵感
DL和我们大脑里的神经元差异很大。DL 的学习方式(比如SGD)是不能用我们大脑里的什么结构去类比的。但这里的论据是,如果它不和大脑类似,它就不能执行大脑能做到的推理和学习。这当然不是很有力的论据。可飞机虽然长得不想鸟,但是它一样会飞呀。
我不是这里的专家
自己没有专业知识不是逃避不去外面找专业知识的借口。并且,这也不应该成为阻止你的专家团队去学习这个新技术的理由。但是,如果你的专家是教条死板的那种,这就说明你应该去寻求第二个没有偏见的意见。
这在我的问题上不适用
一个企业有很多业务流程。如果你没有去检查哪些流程是可以被现有的DL自动化的,那你就没有权力去说DL对你不适用。其次,你可能会发现现在没有的、但是可以用DL实现的流程或商业机会。你真的不能回答这个问题,直到你在这方面做了尽职的调查工作。
我没有资源
Google、Facebook等很多大公司挖走了很多DL的 天才。 这些企业没有兴趣和小公司合作,去发现它们具体的需求和机会。但所幸这些大公司还允许它的研究员公开他们的研究成果。所以我们可以看到它们最新的发展成果,并且可以提取它们学到的知识,应用在你的场景里。还有些公司比如Intuition Machine,加入它们会让你取得在DL 技术上的竞争优势。