随着人工智能技术的飞速发展,生成式AI涌入了我们的日常生活,例如常见的虚拟数字人、虚拟偶像初音未来等。生成式人工智能作为一种新型的人工智能技术,在自然语言处理、图像生成、音频合成等领域取得了显著的进展,引起了广泛关注。
近日,记者来到一家聚焦智能数字资产和智能生成领域的跨模态人工智能技术的公司——迈吉客科技,探索数智虚拟人的企业是怎样实现人机交互的。
智能生成的领域非常广泛,技术类别也很多。迈吉客科技创始人伏英娜介绍说:“世界范围内的智能生成领域开源创新都非常热烈,我国的智能生成技术情况主要还是在应用层面。在跨模态领域,我们长期的积累是AI+CG,这是个最难的方向,CG本身是三维的,我们还有时间维度,实时互动的多模态跨模态的内容,以及一对一的、个性化的、千人千面智能互动的内容,这是迈吉客一直以来聚焦的五维的AIGC,它既是跨模态的又是跨维度的。”
“模态”一词,是指生物凭借感知器官与经验来接收信息的通道,如人类有视觉、听觉、触觉、味觉和嗅觉模态。而多模态是指将多种感官进行融合,而多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流,充分模拟人与人之间的交互方式。一直以来,迈吉客专注的就是多模态人机交互技术。
伏英娜认为OpenAI的ChatGPT是语言智能和数理逻辑智能,但人类的多元智能不止这两个部分,还有人际关系智能、情商、情感等人类更感性的层面的,以及身体运动、身体控制的智能,还有空间感知智能、音乐韵律的智能等,也就是人类的多元智能,这些都是目前AI做不到的。迈吉客从最初就在考虑如何构建多元智能,及企业级的多元智能,为每家企业构建自己的商业大脑。
利用多元智能构建商业大脑,这样的思路已经应用在了诸多场景中。目前产品线和应用场景覆盖智能内容生产(Smart Content)、智能虚拟直播(Smart Live)、千人千面个性化智能互动(Smart 1v1)、数智空间站(Smart Space),已为众多品牌提供零代码一站式智能软件服务,实现了数十万小时智能直播和数百万次智能互动,为合作伙伴构建了自主学习、持续进化的立体可视数字智能。
近年来,多模态人工智能在场景泛化性、对数据的依赖性等方面都取得了巨大的技术突破。例如,在聊天机器人或者智能助手中,多模态技术将帮助智能机器人综合处理图像、声音和文字信息,同时可以进行综合模态,甚至包括情感等特征信息的输出与表达。迈吉客正是运用多模态技术,同时基于三维、实时和智能,来构建核心技术。
“三维、实时和智能,基于这样三个关键词,我们在构建核心技术,对应在三维层面是WEB3D的、实时渲染的三维引擎、图形引擎。在AI层面,我们构建的是多元的、跨模态的、高维度的、AI和CG结合的智能算法平台,这个智能算法平台,不是用超大规模语言模型的方式构建的,而是拆解的智能算法和预训练的小模型的组合来构建的。”伏英娜介绍说。
“我们也在跟东升科技园一起探索,如何把技术用在园区的数字化升级中,我们的技术积累怎样持续挖掘和产生价值,怎么能结合千行百业,面向第三代互联网的数字化升级的需要,来提供解决方案、提供产品、提供智能软件服务。”伏英娜补充道。
迈吉客科技合伙人、首席运营官梁守星表示:“我们现在看可以为哪些行业提升一些效率,首先会从数字人跟AIGC这一方面,去做深入开拓跟发展,希望慢慢呈现出为未来的元宇宙,提出更多的解决方案。”
未来,人工智能能够更加弥合物理世界和数字领域之间的差距,让我们的生活充满无限可能。
海淀企业加油!
《科创中心“核”动力》挺你!
《科创中心“核”动力》
指导单位:北京市海淀区人民政府
出品单位:北京市海淀区融媒体中心
本期视频《迈吉客科技:专注于跨模态人工智能技术》
出品人:佟志伟
总策划:张庆洁
总编导:卫东
总监制:张东旭
监制:范杰 杨凯博
统筹:韩娟娟
编导:谢春阳
文案:谢春阳
主持人:龚可涵
摄像:高子旗
配音:龚可涵
本期推文
记者:谢春阳 编辑:陈乃禾