用计算机训练计算机,人工智能如何自我学习?
用计算机训练计算机,人工智能如何自我学习?
根新未来
· 2023.02.27 10:43
从数据到合成数据,当人工智能能够合成数据,并使用它来继续自我改变,这可能会使迫在眉睫的数据短缺变得无关紧要。
用计算机训练计算机,人工智能如何自我学习?
图片来源@视觉中国
文 | 陈根
人工智能的发展应用离不开数据。比如,训练当前大火的ChatGPT,就需要大量的数据——根据OpenAI披露,ChatGPT的训练使用了45TB的数据、近1万亿个单词,大概是1351万本牛津词典所包含的单词数量。
基于庞大数据集训练而成的ChatGPT获得了前所未有的成功,而ChatGPT想要向前迭代,就需要更多的数据进行训练。但真实世界的数据总归是有限的,并且面临着难以获取、质量差、标准不统一等诸多问题。在这样的情况下,计算机模拟技术或算法生成的合成数据受到了愈发广泛的关注。作为真实世界数据的廉价替代品,合成数据正日益被用于创造精准的AI模型。
为什么需要合成数据?
顾名思义,合成数据就是通过计算机模拟或人工智能算法合成的数据,这样的数据并不基于现实世界的现象和事件,但由于在数学上或统计学上,合成数据也能够反映真实世界数据的属性,因此,合成数据可以作为真实世界数据的替代品,来训练、测试、验证AI模型。
2022年以来,Forrester、埃森哲(Accenture)、Gartner、CB Insights等研究咨询公司都已经将合成数据列为人工智能未来发展的核心要素,认为合成数据对于人工智能的未来而言是“必选项”和“必需品”。
比如,Forrester将合成数据和强化学习、Transformer网络、联邦学习、因果推理视为实现人工智能2.0的五项关键技术进展,可以解决人工智能1.0所面临的一些限制和挑战,诸如数据、准确性、速度、安全性、可扩展性等。
Gartner预测称,到2024年,用于开发人工智能和分析项目的数据 60% 将是生成式合成数据,到2030年合成数据将彻底取代真实数据,成为AI模型所使用的数据的主要来源。MIT科技评论将AI合成数据列为2022年十大突破性技术之一,称其有望解决AI领域的数据鸿沟问题。
数据对于人工智能发展的意义不言自明——如果说以深度学习为代表的智能算法是人工智能应用和发展的“引擎”,那么数据就是用于驱动“引擎”的“燃料”。而合成数据之所以在今天会受到关注,正是因为目前现实世界的数据已经难以满足人工智能继续迭代,并向前发展的数据需求。
要知道,现实世界的数据收集和处理是一种昂贵且缓慢的过程,公司通常无法在短时间内获取大量的数据来训练准确的模型,就算是获取现实世界的数据也要符合隐私规定,然而,除去获取成本高昂以外,特定领域的数据集还受限于用户隐私,极难采集。可以说,现实世界数据的稀缺性已经成为人工智能发展的最大瓶颈——如何高效、廉价并在不侵犯隐私的情况下获取大量数据,成为当前人工智能领域的关键问题之一。
合成数据就是这个关键问题的解法。首先,合成数据能够实现数据增强和数据模拟,解决数据匮乏、数据质量等问题,包括通过合成数据来改善基准测试数据的质量等;其次,避免数据隐私问题,利用合成数据训练AI模型可以避免用户隐私问题,这对于金融、医疗等领域而言尤其具有意义;第三,合成数据还能最大限度地确保数据多样性,更多反映真实世界,提升AI的公平性,以及纠正历史数据中的偏见,消除算法歧视;第四,合成数据能够应对长尾、边缘案例,提高AI的准确性、可靠性,因为通过合成数据可以自动创建、生成现实世界中难以或者无法采集的数据场景,更好确保AI模型的准确性。
不仅如此,合成数据还具有低成本的特点。合成数据服务商AI.Reverie指出,人工标注一张图片可能需要6美元,但人工合成的话只需要6美分。总的来说,利用合成数据可以更廉价、更高效、更准确、更安全可靠地训练AI模型,进而极大扩展AI的应用可能性,将人工智能推向新的发展阶段。
用计算机训练计算机
2021年,尼日利亚数据科学公司的研究人员就注意到,旨在训练计算机视觉算法的工程师可以选用大量以西方服装为特色的数据集,但却没有非洲服装的数据集。于是,这个团队通过人工智能算法成功实现了人为生成由非洲时尚服装的图像组成的数据来解决这一不平衡问题。
可以说,合成数据真正实现了用计算机训练计算机,这也让机器智能向前更进一步。实际上,人类的学习正是遵循着这样的方式,一方面,我们可以从外部信息来源收集知识和观点,比如,通过阅读一本书。但我们也可以通过思考一个问题,自发产生想法和见解,换言之,我们能够通过内部反思和分析来加深对世界的理解,而不直接依赖于任何新的外部输入。
而人工智能通过合成数据来自我训练,就像是人工智能也无需任何新的外部输入,而是通过合成数据来有效地引导它们自己的智能。
试想一下,今天的人工智能大模型吸收了世界上存在的大量信息和数据,比如维基百科、书籍、新闻文章等。如果人工智能能够根据这些数据合成新的数据,然后再将这些合成数据进一步训练来改进自己,那人工智能就将不断迭代,且功能愈发强大。换言之,AI在合成数据构建的虚拟仿真世界中自我学习、进化,这将极大扩展AI的应用可能性。
实际上,用计算机训练计算机的想法并不新鲜,例如,无人驾驶汽车已经在虚拟街道上进行了许多训练。要知道,由于实际道路交通场景千变万化,因此,让自动驾驶汽车通过实际道路测试来穷尽其在道路上可能遇到的每一个场景是不现实的,必须借助于合成数据才能更好地训练、开发自动驾驶系统。
为此,许多自动驾驶企业都开发了复杂的仿真引擎来“虚拟地合成”自动驾驶系统训练所需的海量数据,并高效地应对驾驶场景中的“长尾”问题和“边缘案例”。比如,腾讯自动驾驶实验室开发的自动驾驶仿真系统TAD Sim 可以自动生成无需标注的各种交通场景数据,助力自动驾驶系统开发。
在安全的、合成的仿真环境中,计算机可以模拟任何人类想象得到的驾驶场景,诸如调节天气状况、添加或移除行人、改变其他车辆的位置等等。可以说,合成数据和仿真技术是自动驾驶的核心支撑技术。实际上,最早涌现的一批合成数据创业公司就瞄准的是自动驾驶汽车市场,帮助自动驾驶企业解决其在自动驾驶系统开发过程中所面临的数据和测试难题。
目前,合成数据还在向金融、医疗、零售、工业等诸多产业领域拓展应用,用计算机训练计算机正在成为人工智能发展的必经之路。
下一次飞跃
由于对人工智能未来发展的巨大价值,合成数据也加速成为AI领域的一个新产业赛道。
一方面,国外的主流科技公司纷纷瞄准合成数据领域加大投入与布局。微软的Azure云服务则推出了airSIM平台,可以创建高保真的(high fidelity)的3D虚拟环境来训练、测试AI驱动的自主飞行器,微软还开发了可以生成合成和聚合数据集的开源工具Synthetic Data Showcase,并创建了合成人脸数据库,和国际移民组织(IOM)合作打击人口贩卖。亚马逊则在多个场景探索合成数据的应用,例如使用合成数据来训练、调试其虚拟助手Alexa,以避免用户隐私问题;其合成数据技术Wordforge工具可以用来创建合成场景(synthetic scenes)。
另一方面,合成数据作为AI领域的新型产业,相关创新创业方兴未艾,合成数据创业公司不断涌现,合成数据领域的投资并购持续升温。据国外研究者统计,目前全球合成数据创业企业已达100家。在过去的18个月,公众视野中已知的合成数据公司融资总额达到3.28亿美元,比2020年高出2.75亿美元。
看起来,合成数据是对真实数据稀缺性的重要解法,但这并不代表合成数据毫无问题。首先,虽然高质量的合成数据集不仅可以作为真实数据集的补充,更可以作为训练人工智能模型的主要数据来源,但在全面应用合成数据集之前,需要充分研究合成数据集与真实数据集的差异,从而避免应用合成数据集带来的偏差。因此,如何评估合成数据集与真实数据集的差异仍是一个有待解决的问题。
其次,合成数据仍存在“非自然数据”的问题。目前大多合成数据技术是基于统计机器学习方法的,由于经典统计学只关注了数据中蕴含的相关性,而忽视了因果性,因此有可能会生成不合逻辑的数据。比如,合成图像中可能会出现具有异常背景的图像,这类数据被称为“非自然数据”。“非自然数据”对智能算法的影响目前仍然未知。刻画影响的边界并提早思考应对办法将会是合成数据能否进入风险敏感领域的关键。
最后,合成数据仍然涉及的隐式隐私泄露问题。虽然“合成数据”并不由某个用户产生,但是目前的合成数据仍然需要借用数据来训练用于合成数据的模型,比如生成对抗网络。由于生成对抗网络结构的复杂度较高,因此在模型训练的过程中,存在记忆原始训练样本分布的可能。已经有最新研究结果表明,可以通过合成的数据反向推断出原始训练样本。所以,数据合成技术存在上述“隐式隐私”泄露问题,如何更严密地保护隐私仍是有待探究的问题。
从数据到合成数据,当人工智能能够合成数据,并使用它来继续自我改变,这可能会使迫在眉睫的数据短缺变得无关紧要。对于人工智能来说,这将代表下一次的飞跃。
189篇资讯
45关注
根新未来
预见未来科技与商业,洞察前沿趋势新变化。
最近资讯
- 用计算机训练计算机,人工智能如何自我学习?
- ChatGPT加剧马太效应,让弱的人越弱?
- ChatGPT炒作兴起,暴露三件事情.
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里。
敬原创,有钛度,得赞赏
-
钛粉30456 赞赏了
不与雅迪、小牛抢饭吃,海归电动两轮车品牌「号外」卷...
约5天以前 -
钛粉79015 赞赏了
IQAir Atem X空气净化器评测:旗舰级家用...
2023-02-17 17:42 -
钛粉41049 赞赏了
负债高企,深陷亏损泥潭,科陆电子叒要募资补流
2023-02-14 18:37 -
钛粉82099 赞赏了
从卖火柴的小男孩到“宜家掌舵者”,商业天才的经营哲...
2023-02-11 18:47 -
正见Tru... 赞赏了
SaaS十词,“点火”2023
2023-02-03 17:40 -
小团子97... 赞赏了
一文速览【2022 中国经济年报】:人口首现历史性...
2023-01-18 02:02 -
钛好257... 赞赏了
国产电动车的沸腾2023:走向更残酷的牌桌
2023-01-16 07:45 -
钛粉61583 赞赏了
华宝新能:坚守长期主义,缔造商业之上的价值
2022-12-31 00:06 -
钛a66t... 赞赏了
跨界咖啡,是个好副业吗?
2022-12-30 17:11 -
赚赚 赞赏了
小红书给流量“削藩”
2022-12-30 00:36 -
钛粉81950 赞赏了
东北下岗往事轮回,一个家庭时隔20年的两次失业创伤
2022-12-20 10:24 -
钛富279... 赞赏了
蜜雪冰城「向下」的烦恼
2022-12-09 08:48 -
钛粉41450 赞赏了
遭阿里减持8000万股的商汤科技,何时盈利?
2022-11-24 22:45 -
钛粉81947 赞赏了
历史进程中的茅台与6次暴跌
2022-10-28 12:23 -
钛粉48375 赞赏了
7种傲慢与偏见,导致互联网人改造传统行业失败
2022-10-20 19:53 -
想暴富25... 赞赏了
7种傲慢与偏见,导致互联网人改造传统行业失败
2022-10-20 17:18 -
钛粉61006 赞赏了
7种傲慢与偏见,导致互联网人改造传统行业失败
2022-10-20 16:41 -
AIBEN 赞赏了
月费不到100块、1分钟出图,AI作画要打翻多少设...
2022-10-17 15:10 -
钛粉36011 赞赏了
身处风口却“一桩难求”,一文看懂充电桩产业全景|钛...
2022-10-14 14:27 -
钛粉36716 赞赏了
身处风口却“一桩难求”,一文看懂充电桩产业全景|钛...
2022-10-14 14:24 -
钛精378... 赞赏了
那些"上不了席面”的私房美味
2022-10-10 13:04 -
钛粉18902 赞赏了
中集李凌寒:数字化供应链的动因、要素及实践|202...
2022-10-01 11:40 -
有颜有钱5... 赞赏了
中集李凌寒:数字化供应链的动因、要素及实践|202...
2022-09-30 19:02 -
钛粉29232 赞赏了
割韭菜、白嫖、疯狂AMA……在30多个元宇宙Web...
2022-09-15 15:45 -
钛小773... 赞赏了
沈抖发布百度智能云新战略,回答了“木星”与“蜻蜓”...
2022-09-10 09:33 -
钛粉07914 赞赏了
钛媒体Pro创投日报:9月2日收录投融资项目25起
2022-09-03 03:20 -
钛粉65687 赞赏了
银泰百货“破产第一案”背后:苦涩退场,西安城改的挽...
2022-08-19 17:41 -
钛粉61539 赞赏了
对话蚂蚁集团副总裁何勇明:“支付宝不对标抖音”
2022-08-06 13:53 -
钛粉60785 赞赏了
近10亿募资闲置理财如今又推14亿定增,泽璟制药持...
2022-07-27 14:44 -
在天空中自... 赞赏了
钛媒体Pro创投日报:7月21日收录投融资项目32...
2022-07-22 16:40 -
钛粉14772 赞赏了
寻找下一个“玻色因”,国货抗衰盯上了蓝铜胜肽
2022-07-22 10:47 -
单晶冰糖啦... 赞赏了
宁德时代依靠钠电池可以维持万亿市值吗?
2022-07-22 10:37 -
钛友趣64... 赞赏了
女性专属时尚座驾,欧拉芭蕾猫上市19.3万元起售
2022-07-12 23:58 -
钛粉93105 赞赏了
TapTap塌房,“中国Steam”的故事结束了
2022-07-12 14:02 -
已注销用户 赞赏了
【医疗健康周报】第26周:“康诺亚生物”获得1.9...
2022-07-07 15:05 -
钛粉97884 赞赏了
零和游戏与非零和玩家:InterSystems的数...
2022-06-29 22:21 -
钛粉97003 赞赏了
零和游戏与非零和玩家:InterSystems的数...
2022-06-29 21:58 -
钛粉97388 赞赏了
零和游戏与非零和玩家:InterSystems的数...
2022-06-29 21:50 -
钛粉11323 赞赏了
丰谷酒业换帅!李寒松出任党委书记、董事长
2022-06-28 17:09 -
钛粉97508 赞赏了
海外港口货物积压,商家提前备货,今年外贸旺季来得有...
2022-06-24 18:44 -
钛粉36186 赞赏了
习酒划转茅台集团财务公司5%股权,上市仍在“激烈博...
2022-06-21 15:25 -
钛粉66633 赞赏了
重新定义“一体化”?HR SaaS产品PaaS化之...
2022-06-16 08:51 -
碧天黄地 赞赏了
未来汽车如何实现创新与融合?几位大佬有话说
2022-05-30 21:37 -
钛友趣76... 赞赏了
批量招聘难题何解?他们发现了HRSaaS的新机会 ...
2022-05-26 23:38 -
单晶冰糖啦... 赞赏了
钛媒体华南中心成立 全财经战略布局再进一步
2022-05-25 11:30 -
钛粉89798 赞赏了
郑大一附院,一家“超级医院”的双面特写
2022-05-21 06:19 -
钛粉00698 赞赏了
大厂深蹲,时代向前
2022-05-19 10:27 -
刘成军 赞赏了
中国信通院院长余晓晖:加快构建我国特色的工业互联网...
2022-05-18 14:09 -
已注销用户 赞赏了
Netflix真的会为「卖广告」掏出真心吗
2022-05-17 10:19 -
钛田097... 赞赏了
黑海粮仓“起火” ,全球粮食失衡
2022-05-09 19:50 - 查看精彩文章,打开钛媒体客户端
挺钛度,加点码!
- ¥ 5
- ¥ 10
- ¥ 20
- ¥ 50
- ¥ 100
支付方式
支付
支付金额:¥6
赞赏金额:¥ 6
赞赏时间:2020.02.11 17:32
账户【未登录】提示!
个人中心将无法记录并同步您的赞赏记录,
是否进行登录
分享文章
Oh! no
您是否确认要删除该条评论吗?
分享文章