免费发布消息

谷歌推出Magika 1.0文件类型检测系统,核心引擎重写并扩展文件格式支持

   2025-11-08 240
核心提示:当地时间周四,谷歌宣布推出基于人工智能的文件类型检测系统Magika的首个稳定版本Magika 1.0。此版本在性能、文件类型支持等方面

当地时间周四,谷歌宣布推出基于人工智能的文件类型检测系统Magika的首个稳定版本Magika 1.0。此版本在性能、文件类型支持等方面有重大升级,还解决了训练数据相关难题,并简化开发者集成过程,未来发展聚焦性能优化与文件类型扩展。


Magika 1.0的发布与核心升级

当地时间周四,谷歌宣布推出Magika 1.0,这是该公司基于人工智能的文件类型检测系统的首个稳定版本。自去年初开放源代码以来,Magika已被广泛应用于开源社区,每月下载量超过100万次。Magika 1.0最大的变化在于其核心引擎已完全采用Rust重写,以实现更高的性能和内存安全性。新版还提供原生的Rust命令行工具,可在单核下每秒识别数百个文件,并能在多核CPU上扩展至每秒数千个。该系统使用onNX Runtime进行模型推理,并借助Tokio框架实现异步并行处理。谷歌公布的测试数据显示,在 MacBook Pro(M4)上,Magika每秒可处理约1,000个文件。


文件类型支持的扩展

在文件类型支持方面,Magika 1.0的检测能力扩展至200多种文件格式,是初始版本的两倍。新增类别丰富,包括数据科学与机器学习领域的Jupyter Notebooks(ipynb)、Numpy(npy, npz)等文件;现代编程与网页开发的Swift、Kotlin等;DevOps与配置文件的Dockerfile、TOML等;数据库与图形格式的SQLite、AutoCAD(dwg, dxf)等。此外,它还提升了区分相似格式的能力,例如可分别识别JSONL与JSON、TSV与CSV等。


应对训练数据挑战的策略

在技术实现上,团队面临训练数据规模庞大与部分文件类型样本稀缺两大挑战。未压缩的数据集超过3TB,为此谷歌采用自研的SedPack数据集库,通过流式加载与解压技术实现高效训练。同时,针对样本不足的文件类型,研究团队使用生成式AI工具Gemini创建高质量的合成训练数据,将现有代码和结构化文件转换为其他格式,以增强模型的泛化能力。


对开发者的支持与未来展望

新版Magika同步更新了Python与Typescript模块,简化了开发者在各语言中的集成过程。用户可通过简单命令在Linux、macOS或Windows上安装原生客户端,也可通过pipx install magika安装Python包使用Rust版命令行工具。谷歌表示,Magika的未来发展将持续聚焦于性能优化与文件类型扩展,鼓励开发者社区参与贡献,包括测试、功能请求及代码提交。


以上文章由 AI 总结生成

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行