为什么合成数据是人工智能的必备条件?
企业正在收集拍字节、艾字节甚至泽字节数量级的数据。
但数据是混乱的,往往是分散和孤立的。许多企业对于在某些环境中使用数据犹豫不决,因为其具有高度专有性。在电信等受监管行业中,由于其高度敏感的性质,许多数据甚至无法被触及。
由于这些原因和其他原因,包括缺乏人工智能所需的大规模可用数据、数据偏差或数据漂移,越来越多的企业正在转向合成数据。合成数据,顾名思义,这不是真实数据,但与真实数据非常相似。
(相关资料图)
合成数据在数学和统计上反映了现实世界的数据。但它不是从现实世界中收集和测量的,而是通过计算机模拟、算法、简单规则、统计建模、模拟和其他基于小型、匿名的现实世界样本的技术创建出来的。
虽然真实数据几乎总是从数据中获取洞察的最佳来源,但由于隐私法规,真实数据往往价格昂贵、不平衡、不可用或无法使用。合成数据可以成为真实数据的有效补充或替代。
人工数据可以帮助减轻真实数据的弱点,或者可以在不存在实时数据、数据高度敏感或存在偏见、或无法使用、共享或移动的情况下使用。但它并不总是需要接受真实数据的训练:它可以通过查看领域或机构知识或真实数据的痕迹来生成。
随着数据密集型生成人工智能模型的大量使用以及隐私和安全的必要性,各行业领域的企业正在认识到合成数据的潜力:2021年其全球市场价值仅为1.689亿美元,但预计将增长到2031年将达到35亿美元,复合年增长率接近36%。
Gartner甚至预测,到2030年,人工智能模型中的合成数据将完全盖过真实数据。
利用合成数据克服隐私障碍Vodafone作为一家跨国企业,在多个不同的司法管辖区运营,有着不同的规则和法规,自然会在数据使用方面受到阻碍。主要由于隐私问题,对数据的访问通常受到限制,当涉及到跨地理边界的数据流动时,也存在限制。
在这方面,Vodafone与总部位于伦敦的合成数据初创企业Hazy合作。该企业于3月份宣布获得900万美元的A轮种子融资,主要与Vodafone、Accenture、PwC、BMW Group和Wells Fargo等大型组织合作,因为他们都在数据方面面临最大的问题。
这些大型企业拥有“大量敏感数据”,以及分散在不同地区的“大量数据孤岛”。
这些企业的工具采用结构化数据集,并使用机器学习(ML)来进行扫描,以识别列之间的趋势、模式、相关性、差异和关系。无论数据落在哪里,都可以要求它生成一个真实的数据点。
该工具可以生成比源数据集中更多的数据,并且在保留数据特征但不包含敏感细节的安全环境中生成数据。
最全面的数据分析,加速机器学习Vodafone正在寻求进行更全面的数据分析,研究不同国家的不同广告活动是如何运作的,并从这些数据集中学习。
“宏伟计划”是在每个国家创建合成数据资产,并将其聚合到一个中心位置,以便进行更广泛、更大规模的分析。例如,客户流失分析。
其他感兴趣的领域包括负载预测和欺诈预测,以及网络中断的检测和预测。
人工数据的一大用例是机器学习:加快创建和改进模型,以及执行快速实验的内部开发流程。
通常没有足够的数据访问权限,虽然可以使用开源数据,但这通常不是需要的,不适合情况。需要创建反映网络现实的合成数据。
人工数据有助于改善和加速数据访问,并更快地启动项目,从而提高生产力和企业的敏捷性。
数据就像机器学习的燃料。没有数据,就无法进行监督学习。
促进协作,加强自动化Vodafone庞大的移动网络供应商生态系统也在进行机器学习创新,如果想要训练新的机器学习模型,就需要数据。
但要分发网络数据并不容易。相反,提供合成数据,可以消除这些障碍。
软件测试是另一个重要的用例。Vodafone正在内部开发更多软件,这需要进行测试。人工数据可以帮助确定何时可能发生故障、特定网络软件组件上的负载如何随时间变化、如何将计算资源最佳地分配给软件组件,以及如何将能耗降至最低。
测试每个大企业的基本业务可能需要数年时间,最大的障碍是获取代表性生产数据。
此外,合成数据对于网络自动化很重要。因此,希望尽可能实现自动化,以进行预测。
电信以外的合成数据考虑当然,合成数据不仅仅在电信领域有用例。它被一些企业用来微调大型语言模型(LLM),而不会泄露企业特定的数据,这些数据对ChatGPT等公共模型“超级敏感”。
与此同时,在银行业,人工数据已被用作沙盒系统的一部分,以帮助开发围绕欺诈检测和洗钱的新技术。与此同时,BMW利用合成数据,对潜在客户的信用状况做出了更快、更准确的决策。Accenture开发了一款应用,旨在根据客户的信用卡和借记卡交易记录,识别易受影响的客户,以便及早干预,防止出现不良财务状况。
同样,该技术可用于生成数据集的某些区域,以更能反映现实。例如,假设一个数据集只有20%是女性,组织可以再生成30%,以更好地服务其用户群。
人工数据提高了企业创新的强度,可以快速进行实验和创新。
获得认可,决定企业成熟度从文化的角度来看,使用合成数据可以帮助隐私官员放松心情,并消除其阻碍创新甚至是数据科学家敌人的看法。
我们可以将合成数据视为真正的匿名数据。但尽管如此,由于它改变了数据在组织中移动的方式,因此必须得到首席信息安全官、首席信息官、首席执行官、安全和法律团队以及其他高管和部门领导的支持。
从小事做起,建立证据点。为了支持这一点,Hazy创建了一个合成数据成熟度模型。成熟阶段包括探索、评估、操作化、扩展和嵌入。
不过,同样重要的是,要解决人工数据是“假的”或不准确的反弹。
有一些误解认为,使用合成材料会失去一些准确性。合成数据永远不会像真实数据那样100%准确。
的确。通过将数据保密,会在准确性上有所牺牲。但尽管略有下降,但还是有很多有用之处。
最终,合成数据将迎来它的时代:监管机构正在开始探索其可能性,随着越来越多的企业接受它,围绕数据使用和共享的行业标准将出现。
这对于合成数据来说,是一个有趣的时刻。合成数据是一个复杂的产品,企业不太容易采用。但未来几年将是一个相当重要的转折点。
关键词:
您可能也感兴趣:
为您推荐
生完孩子腰痛下肢乏力 传统医学联手为宝妈“撑腰”
预计投入2.4亿元用于科技
芜湖奥体中心青少年体育免费公益培训时间安排2023年
排行
最近更新
- 为什么合成数据是人工智能的必备条件?
- 中国联通披露5G行业专网用户数据:客户已增长到5816个
- 东方基金二季报:持续看好电动化和智能化投资方向
- 走济宁看项目煤机装备制造项目,也有一个“零碳”梦
- 焕发新活力 国风再“破圈”
- 夜游活动丰富多彩、红色旅游热持续升温 暑期旅游迎高峰
- 火药明明发明在中国,为啥欧洲用来掠夺,而中国却用来放鞭炮多?
- 全面赋能中国电竞产业链,京东方释放“头雁效应”
- 四平市中级人民法院:“八一”送关怀 拥军优属情意深
- 黑龙江南岔县一处三层楼房部分楼体坍塌 造成4人死亡
- 我锤子巨大什么时候出 公测上线时间预告
- 午评:午后大盘行情提示
- 时代电气(688187.SH)拟与浩夫尔国际等共同设立湖南中车电驱 ...
- 宣城泾县:抓土地节约集约利用 获省政府督查激励
- 墨碧玉和墨玉
- 和田白玉材质
- 和田玉中的墨玉
- 交口县公安局交警大队发布汛期交通安全出行提示
- (成都大运会)下水数百次 他的大运会在角落也在心中
- 武汉市洪山区一次性创业补贴人员公示名单出炉
- 旭光电子副总经理刘辉洁辞职
- 用青少年艺术作品“讲好”河南故事
- 宁波方正业绩分析:营业收入增长显著,净利润略有下滑
- 云南七甸产业园区揭牌
- 舒华体育(605299)8月1日主力资金净卖出272.47万元
- 双人益智冒险新游《不同的冬天》系统更新调价 8月10日发售
- 艾尔登法环阔剑武器图鉴
- 泰拉瑞亚绿黄绳怎么获得
- 挖掘社区“宝藏”,营商沙龙开到昆剧团
- 果汁浇灌让植物健康生长