本地部署OmniParser微软最强开源屏幕解析模型!最强开源屏幕解析工具,面向纯视觉的GUI代理!实现用户界面截图解析为结构化!结合pyautogui实现自动点击指定元素!#OmniParser

微软的 OmniParser 是一款屏幕解析工具,专为增强用户界面(UI)自动化而设计。它将UI截图转换为结构化数据,使人工智能代理能够通过视觉分析独立理解和操作图形界面。OmniParser主要用于提升大型视觉语言模型(VLM),如GPT-4V的功能,赋予这些模型在操作系统环境中仅凭视觉交互执行任务的能力。

OmniParser的核心由两个模型组成:检测模型描述模型。检测模型识别截图中可点击或可操作的图标区域,而描述模型提供这些元素的功能说明。通过将UI图像转化为可操作的结构化数据,OmniParser帮助VLMs生成更精准的操作指令。测试中,它在ScreenSpot和Windows Agent Arena等基准测试上表现出色,显著提升了VLM的准确性和任务执行能力。

安装命令

conda create -n a_i python=3.12 -y && conda activate a_i

pip install einops timm pillow openai

conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

pip install -U "huggingface_hub[cli]"

git clone https://github.com/microsoft/OmniParser.git && cd OmniParser

pip install -r requirements.txt

huggingface-cli download --repo-type model microsoft/OmniParser --local-dir weights --include "icon_detect/*" "icon_caption_blip2/*" "icon_caption_florence/*"

python /home/Ubuntu/OmniParser/weights/convert_safetensor_to_pt.py

python gradio_demo.py


###jupyter notebook

conda install -c conda-forge --override-channels notebook ipywidgets jupyter notebook -y


nohup jupyter notebook --ip 0.0.0.0 --port 8888 --no-browser > jupyter.log 2>&1 &

#结束任务:
pkill -f jupyter-notebook

# 安装 notebook
conda install -c conda-forge --override-channels notebook -y

# 安装 ipywidgets
conda install -c conda-forge --override-channels ipywidgets -y

# 安装 jupyter notebook
conda install -c conda-forge --override-channels jupyter notebook -y

pyautogui

python3 -m pip install pyautogui

sudo apt-get install scrot

sudo apt-get install python3-tk

sudo apt-get install python3-dev

👉👉👉如有问题或请联系我的徽信 stoeng

🔥🔥🔥本项目代码由AI超元域频道制作,观看更多大模型微调视频请访问我的频道⬇

👉👉👉我的哔哩哔哩频道

👉👉👉我的YouTube频道

👉👉👉我的开源项目 https://github.com/win4r/AISuperDomain

充值openai/claude api key可以使用wildcard虚拟卡充值。wildcard官方链接:

https://bewildcard.com/i/VLM

wildcard注册教程和充值API教程(国内打开速度快):

https://mp.weixin.qq.com/s?__biz=MzU0NDc2MzQ3MA==&mid=2247484020&idx=1&sn=fee448a207cbf3b4ccda8a775f4fe946&chksm=fb767955cc01f043b9e4a5ae926c2e68cefc0ee12af9df715eb632a90003784c45e2108470f1#rd

wildcard注册教程和充值API教程(海外打开速度快):

https://stoeng.medium.com/保姆级教程-通过wildcard虚拟信用卡订阅chatgpt-claude会员和api-百分百可用-a2865a18df01