视觉理解机 V0.3.0:7 个图像分类和物体检测示例


视觉理解机V0.3.0是基于理解机框架的计算机视觉解决方案。

视觉理解机提供了面向图像的UDF和UDT,可以很方便的处理大规模的图像数据。视觉理解机本身是一个框架,具体的机器学习能力由理解机的PyTorch插件实现。

本次发布提供的PyPI包

  • ligavision==0.3.0
  • liga-pytorch==0.3.0
  • liga-tv==0.3.0

本次发布提供的七个可执行的Notebook

可以直接在Gitee预览这七个Notebook。 https://gitee.com/komprenilo/liga-pytorch

主要分为两类,由于Gitee无法渲染Google Colab的链接,这里直接给出链接:

  • 图像分类(convnext为例):点我在Gitee预览 / 点我前往Google Colab执行
  • 物体检测(ssd为例):点我在Gitee预览 / 点我前往Google Colab执行

图像分类:使用SQL识别波斯猫

创建一个用于图像分类的模型

直接用SQL就可以知道该图像里面的猫是波斯猫


相關推薦

2023-03-16

图像分类:  图像分类是指给定一张图像,通过计算机视觉技术来判断它属于哪一类别。图像分类是一种有监督学习任务,需要通过训练样本和标签来建立分类模型。在图像分类中,算法需要提取图像的特征,然后将其分类为

2022-09-08

谦言、临在 一 导读 近年来,自监督学习和Transformer在视觉领域大放异彩。图像自监督预训练极大降低了图像任务繁重的标注工作,节省大量人力成本,而transormer技术在NLP领域的巨大成功也为CV模型效果进一步提升提供了非常

2023-03-30

; 本次发布涉及以下PyPI包 liga==0.3.0 liga-sklearn==0.3.0: 理解机插件示例实现 liga-mlflow==0.3.0: 理解机模型注册系统示例集成 理解机是一个框架,如果想使用理解机,可以参考使用理解机Sklearn插件的Jupyter笔记本: https://gitee.c

2025-05-23

创新型引入多级动作条件注入机制,实现 “物理动作 - 视觉动态” 的端到端生成,其核心能力体现在以下几个方面: 机器人动作与像素的高精度对齐:将机械臂 6D 位姿(x,y,z,roll,pitch,yaw)与末端执行器行程投影为action map

2025-06-10

优。 此外,研究还揭示了人类在做决策时更倾向于结合视觉特征和语义信息进行判断,而大模型则倾向于依赖语义标签和抽象概念。本研究表明大语言模型并非“随机鹦鹉”,其内部存在着类似人类对现实世界概念的理解。

2025-06-11

存大小,并在长上下文推理中保持模型质量。 为了启用视觉能力,我们开发了一个在大规模图像数据上训练的视觉编码器。它由一个用于提取丰富特征的视觉主干网络和一个将特征与LLM的标记表示对齐的视觉-语言适配器组成。

2024-07-02

别FastYolo效果展示 使用EasyAi实现图像结算自动贩卖机视觉内核 sayOrder人工智能客服 sayOrder是依赖EasyAi进行封装的人工智能客服系统。 它可以分析用户输入的语义,来识别用户的行为,并通过typeID来区分用户意图ID。

2025-05-21

创新型引入多级动作条件注入机制,实现 “物理动作 - 视觉动态” 的端到端生成,其核心能力体现在以下几个方面: 机器人动作与像素的高精度对齐:将机械臂 6D 位姿(x,y,z,roll,pitch,yaw)与末端执行器行程投影为action map

2023-10-26

最佳性能。在通用人工智能的研究领域,教导计算机深度理解三维世界是当前重要研究目标之一,并将为各种AI实际应用奠定坚实基础。PonderV2代码同时开源。 PonderV2具有深度理解和感知三维真实世界的能力,并为广泛的三维应

2023-06-29

el (SAM) 进行个性化定制,以在照片相册中自动分割特定的视觉概念,例如你的宠物狗狗。 论文页面: https://hf.co/papers/2305.03048 Space 应用: https://hf.co/spaces/justin-zk/Personalize-SAM Notebooks 链接: https://github.com/NielsRogge/Transformers-Tutorials/tre

2023-08-26

京站,聊聊 AI 大模型与底层技术 >>> 阿里云推出大规模视觉语言模型Qwen-VL,并宣布直接开源。 开源地址 ModelScope魔搭社区: Qwen-VL:https://modelscope.cn/models/qwen/Qwen-VL/summary Qwen-VL-Chat:https://modelscope.cn/models/qwen/Qwen-VL-Chat/s

2023-12-30

OpenCV 是 Intel 开源计算机视觉库,它实现了图像处理和计算机视觉方面的很多通用算法。OpenCV 4.9.0 版本的主要更新内容如下: Core Module: #23965 添加cv::broadcast DNN module patches: Experimental transformers 支持 #24476 

2025-05-24

该模型拥有70亿个活跃参数,总参数量达140亿。 BAGEL集视觉理解、文生图、图像编辑于一体,在标准多模态理解基准测试中表现出色,优于现有顶级开源视觉语言模型如Qwen2.5-VL和InternVL-2.5。 在文本到图像生成质量上,BAGEL的

2023-11-03

供预训练模型和熟悉的 API,支持自然语言处理、计算机视觉、音频和多模态领域的任务。 借助 Transformers.js,开发者可以直接在浏览器中运行文本分类、图像分类、语音识别等任务,这使其成为 ML 从业者和研究人员的强大工具