“我们的大模型能把‘天书’翻译成白话文”
2025-07-11 13:12 来源:  北京号
关注

深夜办公室里,程序员小李被嵌入式项目的复杂代码困住,老旧工具处理长文本卡壳,解析还总重复。正当他一筹莫展时,他打开了更新后的华清未央软件分析平台,尝试使用MLM2.0模型。输入一段复杂的的二进制或汇编代码,无需手动切换解析器,模型秒速响应,精准解析出对应的源代码等语义信息、结构信息。切换到ByteWise平台,点击生成函数调用图,彩色图谱即刻展开。查找变量引用,一点即高亮;自动生成的函数摘要,让模块功能一目了然。小李看着清晰的代码图感慨:“这更新简直就是给程序员配了个智能助手啊!”

这就是经过6个月的潜心研发与技术突破,华清未央在机器语言大模型和软件分析领域再次取得的重大进展。这一次,华清未央带来两大重磅更新——MLM2.0和超实用升级版软件分析平台ByteWise——智析·译码矩阵。这家成立仅一年半的科技公司,不仅打造出国际领先的机器语言大模型,更在信创生态迁移、代码智能管理等领域推出颠覆性产品。

从不足十人的小团队到行业新势力

2023年12月,来自清华大学的核心团队成员在海淀注册成立华清未央公司。“最初公司成立团队不到十人,现在已发展为拥有四五十人规模的年轻团队。”年轻的CEO朱文宇回忆起创业初期的场景。朱文宇介绍,得益于海淀区“创新合伙人”政策,这个不到十人的团队迅速迎来“成长礼包”:算力补贴直接缓解AI企业高研发成本痛点;人才配租公租房保障核心团队安居乐业;政府主动对接适配办公空间满足发展需求;高效搭建资本桥梁对接专业投资机构;区域内清华、北大等顶尖高校及科研院所构成持续输送前沿人才与创新灵感的生态源泉。这种覆盖研发成本、人才保障、物理空间、资本对接及创新生态的全方位支持体系,构成了公司实现核心技术突破与产品快速落地的关键外部助力。“我们期待根植海淀沃土,在AI+数据工程及信创领域持续释放新质生产力。”朱文宇表示。

政策东风催生技术硕果。2024年,公司推出两大核心产品:信创生态自动化迁移解决方案如同“软件翻译官”,让传统软件无缝“搬家”到国产操作系统和指令集架构,迁移周期缩短60%以上;CodeFusion代码数据仓则是研发人员的“智能助手”,通过自然语言就能一键检索跨项目代码,让跨项目复用效率提升,研发检索效率大幅提高。

攻克现有大模型机器语言解析瓶颈

“现有大模型无法理解二进制代码,长期存在用户学习门槛高、人工分析开发效率低下、传统技术遇瓶颈等核心难题,而我们的MLM大模型能把‘天书’翻译成白话文。”朱文宇形象地介绍。作为全球首个深度理解二进制机器语言的大模型,已迭代至2.0版的“超级大脑”,MLM核心能力是将人类不可读的二进制语言精准恢复为可理解的高级代码语言,攻克现有大模型无法解析机器语言的本质瓶颈。突破了美国DARPA发起的“AI×CC挑战赛”都未能解决的技术瓶颈,构建起三重技术护城河:其一依托100TB+业界独有的大规模机器语言-自然语言-源代码多模态对齐数据集(规模远超行业水平);其二通过全自动化数据生成、标注、对齐流程驱动模型深度理解机器语言语义,实现与人类专家的认知对齐;其三基于自研机器语言模型训练方法及完善的基础设施保障技术自主可控。中国软件行业协会评价委员会权威认证指出:“MLM技术先进、创新性强、具备自主知识产权,整体达到国际领先水平,可在较长期保持唯一性,具有重大推广应用价值。”

朱文宇介绍,MLM技术已在五个关键领域开花结果:帮助国产工业软件逆向解析国外技术“黑箱”,大幅缩短国产替代研发周期;在关键基础设施防护领域,实现对能源电力、交运、通信等关键软件功能、性能和安全的深度检测,强化供应链风险防控,相当于为关键软件系统做“安全CT”;在信创软件生态迁移领域,能够自动化完成软件应用向国产平台的适配迁移;在软件著作权侵权检测中成为“数字侦探”;让企业代码资产实现“智能管家”式管理。

对于公司未来发展,朱文宇充满信心,公司将聚焦三大战略方向:核心能力突破——攻克超大规模二进制程序(如操作系统内核)的精准逆向恢复瓶颈,研发跨硬件架构的通用机器语言理解框架以实现对x86/ARM/PPC/MIPS/RISC-V等异构平台的统一解析;认知智能跃迁——构建机器语言知识图谱,通过因果推理预判软件行为链与潜在漏洞传导路径,并集成自适应代码修复与生成式智能推荐功能形成“分析-诊断-修复”闭环;生态体系构建——联合产学研主导二进制分析评估基准、机器语言向量化规范等国际标准制定,同时探索MLM与国产芯片指令集和操作系统的深度协同优化,构建自主可控的“芯片-操作系统-模型-开发生态”技术体系。 

致力于构建自主创新体系

“当我们遇到困难时,海淀区的高效响应令我们印象深刻。”朱文宇说,2024年9月公司举办新产品发布会,前期急需满足科技感强、规模适中、交通便利等条件但预算有限的场地。抱着试一试的心态向中关村科学城管委会反馈后,相关部门迅速协调中关村国家自主创新示范区展示中心场地供使用,该场地在专业性、空间配置及地理位置完全契合需求。“为支持科创企业提供免费使用政策,极大缓解了我们的压力。发布会最终成功举办,有力助推了公司产品的市场拓展。”

朱文宇说,如今的华清未央正与国内芯片厂商、操作系统厂商和头部软件开发、测试分析机构等展开深度协同,致力于构建“芯片-操作系统-模型-生态”的自主创新体系。

当技术突破与政策东风共振,当青年才俊与创新沃土相遇,华清未央的成长传奇,正在中关村这片科创热土构建更加宏大的中国科技突围图景。(记者 赵磊)

记者手记

科技突围的故事正在续写

华清未央MLM2.0模型将二进制机器语言译为可理解的高级代码语言,突破美国DARPA挑战赛未竟的技术瓶颈。100TB多模态对齐数据集、全自动化标注流程、自研训练方法,三重护城河不仅筑牢技术壁垒,更改写了全球机器语言理解领域的竞争格局。当这项技术在信创迁移、工业软件逆向解析、系统安全检测等领域落地时,我们看到的不仅是商业价值,更是中国科技在“卡脖子”领域的破局魄力。

如今,华清未央年轻的工程师们正与国产信创软件领域头部企业深度协同,编织着“芯片-操作系统-模型-生态”的自主创新网络。从政策护航到技术攻坚,从市场痛点到产业生态,华清未央的成长轨迹,恰似中关村科创热潮的微缩样本——当技术理想遇见制度红利,当青年智慧注入产业升级,中国科技突围的故事正在续写新的篇章。

华清未央成长的真正密码,不只是单纯的技术突破,而是将个人志向升维为产业升级命题,把政策温暖转化为创新动能,让技术理想扎根于国产替代的时代土壤。这或许就是科创企业最动人的成长逻辑。


作者:

北京海淀官方发布


打开APP阅读全文
特别声明:本文为北京日报新媒体平台“北京号”作者上传并发布,仅代表作者观点,北京日报仅提供信息发布平台。未经许可,不得转载。