人工智能 频道

DTCC2023完美收官,向量数据库引关注

  第十四届中国数据库技术大会(DTCC2023)经历了8月16日-18日三天会期,圆满落幕。

  本次大会由盛拓传媒旗下IT168、ITPUB、ChinaUnix技术社区主办,大会以“数智赋能 共筑未来”为主题,紧跟时代步伐,引领前沿技术,设置2大主会场,18+技术专场,邀请超百位行业专家,重点围绕数据库内核、云原生数据库、图数据技术、时序数据库、向量数据库、大数据平台技术以及数据库在金融行业中的应用等内容展开分享和探讨,为广大数据领域从业人士提供一场年度的饕餮盛宴。

  8月18日,来到了专场最多、也让一线DBA十分期待的一天。当天有时序数据库与向量数据库、数据湖与实时数仓技术应用实践、大数据平台架构与应用案例、数据隐私与安全、异构环境下的数据管理工具创新、大数据平台架构与应用案例、数据库智能运维NoSQL数据库应用等8个重量级专场。

  向量数据库,向阳而生

  进入大模型AIGC时代,向量数据库被频繁地提及,其与大模型是什么关系?为什么在大模型AIGC时代需要向量数据库?大模型AIGC场景对向量数据库有哪些新需求与挑战?向量数据库的核心是什么?有什么评价标准?业界现状如何?

  这些众多数据领域从业人关注的焦点问题,在向量数据库专场得到了一一解答。  

  ▴北京阿哇科技有限公司开源向量数据库Vearch创始人 李洁

  北京阿哇科技有限公司开源向量数据库Vearch创始人李洁认为,向量数据库是伴随AI深度学习发展而产生的一种新型数据库,其主要通过深度神经网络产生的向量为纽带统一解决了图片、音视频和文本语义等非结构化数据内容的理解问题。

  在第一代向量数据库中,主要场景包括以图搜图、音视频检索、搜索、推荐、广告和安防等,开源向量数据库Vearch亦在此背景下产生,支持百亿量级向量存储,毫秒级查询返回,2019年9月开源至今,华为,Oppo,Vivo,京东等众多厂商已经在生产环境中使用。以Vearch的架构设计及相关实践为例,让我们真正了解了向量数据库,并介绍了ChatGPT时代一款新型AI Native向量数据库AwaDB与大模型结合应用在知识库场景的具体案例。

  华为云搜索与推荐领域首席架构师王高飞则站在研发人员的角度,让大家了解如何以较低成本,构造一个高性能、高可扩展性、高可用的向量数据库。

  对于现阶段向量数据库的创新和挑战,腾讯云数据库专家工程师伍旭飞表示,向量检索技术有接近7、8年的发展,在推荐、搜索、人脸识别等场景均有广泛的应用,但应用场景远不及其他主流数据库。随着以chatgpt为代表的大语言模型的火爆出圈,发现几乎所有的Al应用都需要用到向量数据库,那么此刻向量数据库面临着成本、性能以及算法多方面的挑战,与挑战相伴而生的也有腾讯在相关领域的一系列创新应用。

  针对观众期待的向量数据库实践,eBay资深软件工程师涂晓东分享了聚焦于智能营销部门中应用向量数据库Milvus的实践经验。主要内容包括不同的业务场景在亿贝内的落地,包括推荐系统、服装搭配等;在集群化部署milvus时遇到的挑战;在高并发场景下对于向量检索的查询性能和稳定性的优化,演讲最后还结合LLM分享了 eBay对于向量数据库在未来的展望。

  数据隐私和安全,技术人“永不过时”的话题

  数据隐私与安全一直是数据领域的热点话题,主要是因为人们对个人隐私和企业商业机密的保护意识不断增强,同时法律法规也对数据安全和隐私保护提出了更高的要求。此外,随着技术的发展,数据的处理、存储和传输变得更加便捷,但同时也增加了数据泄露和被恶意使用的风险,此次相关话题也在DTCC2023年大会第三天的《数据隐私与安全》的技术分论坛有深度解读。

  ▴哔哩哔哩大数据安全负责人 郭跃鹏

  大数据中包含了大量的个人信息和敏感信息如姓名、地址、电话号码、医疗记录,也包含非常重要的财务数据和商业机密数据等,如何采取合适的安全技术措施,如数据加密、访问控制和安全认证,来保护这些数据是一个非常重要的挑战。在人工智能发展的今天,哔哩哔哩大数据安全负责人郭跃鹏在论坛现场和观众共同探讨,哔哩哔哩是如何开发一站式大数据安全解决方案的,以确保大数据的合法性、安全性和合规性。

  MySQL作为最流行的开源数据库之一,广泛部署在各行各业。伴随着IT技术的发展,以及更为严格的法律法规要求,数据保护变得至关重要。数据损失除了为组织带来直接的经济损失和法律风险,更会带来间接的信用损失。甲骨文MySQL解决方案首席工程师徐轶韬介绍了MySQL的安全实践,帮助用户了解如何保护MySQL数据库。

  此外,目前国内有很多数据库基于MySQL进行开发,相信这些数据库同样需要借鉴MySQL的产品经验,这些厂商参加此次分享会获得更大的收获。

  探路,智能化运维

  随着图数据库、矢量技术、大语言模型等技术的高速发展,智能化运维技术也出现了一些新的可能。不过数据库智能化运维依然依托于数据库运维的数字化转型。

  ▴南京基石数据技术有限责任公司 CTO徐戟(白鳝)

  南京基石数据技术有限责任公司 CTO徐戟(白鳝)根据多年在数据库智能化运维领域的实践经验,向大家分享关于数据库运维数字化建模、知识自动化等方面的实践经验。并根据团队近期在大语言模型支持下的智能化运维方面的实践,探讨大语言模型在智能化运维领域的应用模式。

  分布式数据库在近年来得到了越来越多用户的认可,它可以通过灵活的水平伸缩能力,得到优秀的性能、可用性与成本表现。但是,随着数据库计算与存储节点数量的增多,分布式数据库对系统优化、隐患预警、故障排查等运维工作带来了新的挑战。为应对这一挑战,腾讯云数据库高级产品经理何威介绍DBbrain在分布式数据库智能运维的研发成果:通过对分布式数据库各节点运行信息的实时分析,探究SQL执行情况,为用户提供详实的SQL与事务明细,DB问题预警与优化建议,并能与用户业务建立关联。从SQL发起到最终DB结果执行返回,为用户提供全链路的洞悉能力。

  作业帮DBA高级研发工程师杨奕聪作为智能运维的实践者,分享了关于数据库智能运维的一些见解,例如数据库智能运维的概念、更好的方式智能运维方式是DBA运维经验 + 优秀的算法模型设计 + 完善的数据支撑 + 自动化运维实现、数据库智能运维的意义与价值,这些观点对于与会观众都有非常重要的参考价值。

  第十四届中国数据库技术大会(DTCC2023)完美落幕,历经十多年的积累与沉淀,如今的DTCC已然成为国内数据库领域的技术风向标,见证了整个行业的发展与演变。

  至此,让我们相约明年2024中国数据库技术大会!

0
相关文章