合成数据能否成为人工智能隐私问题的解决方案?这家公司正在全力以赴

随着越来越多的公司投资于定制用例和产品的生成式人工智能(gen AI),专有数据对于训练大型语言模型(llm)变得越来越重要。与ChatGP...

随着越来越多的公司投资于定制用例和产品的生成式人工智能(gen AI),专有数据对于训练大型语言模型(llm)变得越来越重要。与ChatGPT不同的是,它是根据从互联网上抓取的数十亿公共数据点(电子邮件、脚本、社交媒体、论文)进行训练的,而企业世代人工智能通常需要指定用于该企业的客户数据。

但是,来自真实客户的数据可能包含个人可识别信息(PII),因此使用这些数据存在隐私风险。这就是结构化合成数据公司(主要是人工智能)发挥作用的地方。

周二,该公司推出了一项合成文本功能,可以自动生成合成数据,并保留用户原始数据集的模式。

通过使用合成数据来训练模型,大多数人工智能旨在帮助企业避免隐私风险,同时不牺牲客户数据(如电子邮件、支持记录和聊天机器人交流)可以揭示的见解。根据该公司的说法,合成数据也可以比原始数据代表更多的多样性。

除了隐私之外,其他用例包括重新平衡数据集以使其适合模型或消除偏见并生成用于软件测试的模拟数据。

它是如何工作的

公司将他们的专有数据集上传到大多数AI生成器,这些生成器是受隐私保护的可重用包,其中包括来自原始数据的元数据。用户可以从本地设备或其他外部来源上传数据,并在most AI的平台上微调他们的生成器。

一旦他们确认了正确的配置和编码类型,用户就可以从他们想要使用的大多数AI模型中进行选择,然后从几个语言模型中进行选择,包括HuggingFace的预训练选项。

由此产生的是一个受隐私保护的数据合成版本,它保留了原始的统计模式。

这种设置有助于培训企业的生成器。然后,用户可以使用模型的报告比较合成数据和实际数据,以确保准确性。

大多数情况下,人工智能表示其数据集看起来“与公司原始客户数据一样真实,具有同样多的细节,但没有原始的个人数据点——帮助公司遵守GDPR和CCPA等隐私保护法规。”该公司补充说,它的合成文本“与gpt - 40 -mini生成的文本相比,性能提高了35%,而gpt - 40 -mini生成的文本要么没有提供,要么只有几个真实世界的例子。”

那么,合成数据真的是人工智能的未来吗?

高德纳(Gartner) 4月份的一份报告发现,合成数据在软件工程中具有未实现的潜力,但建议必须谨慎部署。创建合成数据可能是资源密集型的,因为有效地使用它需要针对每个用例进行特定的测试阶段。

“如今,随着模型耗尽公共数据来源,人工智能培训正进入平台期,收益也在递减,”大多数人工智能公司的首席执行官托比亚斯·汉恩在新闻稿中表示。“为了利用高质量的专有数据,这些数据比目前正在使用的剩余公共数据提供更大的价值和潜力,全球企业必须迈出这一步,利用结构化和非结构化合成数据来安全培训和部署即将到来的生成式人工智能解决方案。”

一个普遍的担忧是,人工智能泡沫即将破裂,部分原因是模型正在耗尽可获取的公开数据。虽然这在技术上是不正确的——任何人类活动都可以是数据,它可能只是没有被编码、收集、结构化和免费——但对更多可用数据来训练模型的需求是真实的。毕竟,与将凌乱的手写笔记数字化相比,真正擅长生成合成数据要容易得多(也便宜得多)。甚至meta也使用了人类和合成数据来训练Llama 3.1 405B。

但是模型崩溃呢?模型一旦吸收了太多的合成数据就会恶化。

大多数人工智能公司在给ZDNET的一封电子邮件中表示,它避免了这种可能性,因为“合成数据只生成一次,直接应用于下游任务”,而不是用来反复训练模型。

各行各业越来越多地使用合成数据是否会造成模型崩溃的更大威胁,还有待观察。在那之前,对most AI工具感兴趣的企业可以访问其网站。

本文来自作者[admin]投稿,不代表岳掌门号立场,如若转载,请注明出处:https://zhangfs.com/keji/202508-6824.html

(6)

文章推荐

  • 格林威治村街道上,私人垃圾车司机倒车时致一男子遇难

      警方表示,周四,一辆私人环卫卡车的司机在格林威治村的一条街道上倒车,导致一名站在路上的男子不幸遇难。据警方介绍,这名35岁的司机当时正在进行巡逻,他从科妮莉亚街向西四街倒车,并在凌晨5点20分左右撞上了受害者。受害者在距离华盛顿广场公园一个街区

    2025年06月11日
    15
  • 提升消化系统健康的有效方法(附图)

        专家们一致认为,良好的消化系统健康对于从食物中吸收营养很重要,但如果你的系统运行不正常,就会出现消化问题。虽然消化问题可能会让人不舒服和尴尬,但它们也很常见。研究表明,简单的改变,如采用高纤维饮食,保持水分,在饮食中加入发酵食品,避免刺激性食物,对良好的消化系统健康至关重

    2025年06月22日
    12
  • 研究探讨了促进社区支持农业的关键因素

    东京工业大学的科学家们表示,社会文化动态和预期得失平衡影响着消费者参与、继续和退出社区支持农业(CSA)的决策过程。他们的研究结果强调了家庭、同伴和社区在塑造消费者态度和行为方面的关键作用,为CSA的推动者和生产者提供了重要的意义。随着工业化粮食市场

    2025年06月28日
    10
  • 尽管被称为英国“最差城市”,伦敦却拥有其他城市所不具备的独特魅力

    威尔士城市斯旺西最近荣登英国十大最不适宜居住城市榜首。普华永道咨询公司编制了这份榜单,并从健康、个人收入和工作与生活平衡等多个方面对英国城市进行了评比。排在榜首的是威尔士第二大城市:斯旺西。然而,住在斯旺西并在附近长大的斯蒂芬·里斯在威尔士

    2025年07月06日
    9
  • 玩家热议“wepoker开挂功能真假”原来真实可以装挂

    您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服微信【添加图中微信

    2025年07月18日
    14
  • 伍德兰公园动物园面临艰难抉择:对河马实施安乐死

    伍德兰公园动物园的一只河马被诊断出癌症,健康状况持续下降,计划对其实施安乐死。上个月,在一次牙科手术后,对她脸颊肿胀处的活组织检查显示,她被诊断为纤维肉瘤,这是一种癌症。自手术以来,兽医和她的护理团队监测了她的健康状况,发现她的生活质量下降,包括活动能力

    2025年08月02日
    10
  • 必看科普“新乐清麻将有没有开挂的”确实真的有挂

    您好:新乐清麻将有没有开挂的这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加

    2025年08月03日
    10
  • 卡玛拉·哈里斯反对将乌克兰领土拱手让给俄罗斯以换取和平的提议

    美国副总统卡玛拉·哈里斯在与乌克兰总统弗拉基米尔·泽伦斯基会晤时表示,要求乌克兰将领土割让给俄罗斯是“危险和不可接受的”。此前,共和党总统候选人、前总统唐纳德·特朗普建议乌克兰尽快达成协议结束战争。哈里斯说:“它们不是和平建议。“相反,它们是投降的建议。

    2025年08月04日
    9
  • 玩家必读“微乐西安麻将可以开挂吗”真的有挂

    网上科普有关“微乐西安麻将可以开挂吗”话题很是火热,小编也是针对微乐麻将的技术支持和安全性寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。  您好,微乐西安麻将可以开挂吗这款游戏

    2025年08月09日
    9
  • OpenAI转型为营利性公司的原因

    OpenAI计划重组为一家营利性企业,这标志着它与作为一家非营利性研究实验室的初衷发生了重大背离,该实验室的初衷是致力于开发人工智能(AI)以“造福人类”。然而,专家告诉《国会山》(theHill),最近的变化代表了这家ChatGPT制造商多年来从基金会向典型的营

    2025年08月12日
    5

发表回复

本站作者后才能评论

评论列表(4条)

  • admin
    admin 2025年08月11日

    我是岳掌门号的签约作者“admin”!

  • admin
    admin 2025年08月11日

    希望本篇文章《合成数据能否成为人工智能隐私问题的解决方案?这家公司正在全力以赴》能对你有所帮助!

  • admin
    admin 2025年08月11日

    本站[岳掌门号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • admin
    admin 2025年08月11日

    本文概览:随着越来越多的公司投资于定制用例和产品的生成式人工智能(gen AI),专有数据对于训练大型语言模型(llm)变得越来越重要。与ChatGP...

    联系我们

    邮件:岳掌门号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们