开源的MiniGPT-4可以让你提前体验一下GPT-4的魅力_环球今日报
多模态GPT-4大模型的发布,让很多人看到了AI人工智能的魅力,特别是ChatGPT的流行,让很多人开始关注人工智能。虽然ChatGPT可以通过一些魔法进行使用,但是GPT-4多模态大模型,openai却没有完全免费开放给个人,要想使用GPT-4,要么通过官方的邀请,要么是升级到付费账号。但就算付费,一些地区也无法进行相关服务的购买。
(资料图片仅供参考)
OpenAI GPT
GPT-4发布时,工程师一个手绘网页,传递给GPT-4时,模型会自动进行图片的识别,然后输出搭建整个网页的代码,强大的多模型模型吊足了大家的胃口。开源的MiniGPT-4多模态模型,让我们提前可以尝试一下GPT-4的魅力。
MiniGPT-4的架构由带有预训练 ViT模型编码器和Q-Former,一个单一的线性投影层,一个高级的 Vicuna 大语言模型
MiniGPT-4 旨在将来自预训练视觉编码器的视觉信息与先进的大语言模型(LLM)结合。具体来说,利用 Vicuna作为语言解码器,它是基于 LLaMA 构建,可以执行各种复杂的语言任务。对于视觉感知,使用与BLIP-2中相同的视觉编码器,一个ViT主干与他们预训练的 Q-Former。语言和视觉模型都是开源的,目标是使用线性投影层弥合视觉编码器和 LLM 之间的差距 。
https://github.com/Vision-CAIR/MiniGPT-4 #开源链接
MiniGPT-4
MiniGPT-4代码实现
!git clone https://github.com/Vision-CAIR/MiniGPT-4.git%cd MiniGPT-4/!pip install -qr requirements.txt# requirements.txt 地址 https://github.com/WangRongsheng/Use-LLMs-in-Colab/blob/main/MiniGPT-4/requirements.txt!pip install -q salesforce-lavis!pip install -q bitsandbytes!pip install -q accelerate!pip install -q gradio==3.27.0!pip install -q h5py!pip install -q typing-extensions!pip install -q wheel!pip install -q git+https://github.com/huggingface/transformers.git -U
首先,我们需要clone整个项目工程,并安装相应的第三方库,这里的requirements.txt文件需要到相应的链接自行下载,放置到MiniGPT-4根目录中。
# 13B模型 , 下载 Checkpoint Aligned with Vicuna 13B!wget https://huggingface.co/wangrongsheng/MiniGPT4/blob/main/pretrained_minigpt4.pth# 7B模型 , 下载 Checkpoint Aligned with Vicuna 7B#!wget https://huggingface.co/wangrongsheng/MiniGPT4-7B/resolve/main/prerained_minigpt4_7b.pth
然后下载相关的checkpoint模型,这里官方提供了2个模型,一个13B参数模型,一个
7B参数模型。若运行13B模型,需要进行如下设置:
llama_model: "wangrongsheng/MiniGPT-4-LLaMA" : minigpt4/configs/models/minigpt4.yamlckpt: "pretrained_minigpt4.pth" : eval_configs/minigpt4_eval.yaml
若运行7B参数模型,需要进行如下设置:
llama_model: "wangrongsheng/MiniGPT-4-LLaMA-7B" : minigpt4/configs/models/minigpt4.yaml ckpt: "prerained_minigpt4_7b.pth" : eval_configs/minigpt4_eval.yaml
设置完成后,我们就可以运行代码了
!python demo.py --cfg-path eval_configs/minigpt4_eval.yaml --gpu-id 0
上图是官方运行的一个图片,并转换成的HTML网页,可以看到模型完全识别了手绘图片上的文字,并按照要求编写了一个html网页,且网页可以正常打开,且模型生成的代码除了HTML还有JS/CSS相关代码。
小编使用了同样的照片,同样的文字,来复现官方的HTML网页,模型生成的HTML网页只有js,没有css的部分,生成的网页有相关的文字,但是没有css的渲染,估计还需要各种调参。
当然,除了写代码外,MiniGPT-4还有很多计算机视觉的功能,给定一个图片,就可以跟模型进行互动了。
当然模型同样支持多轮对话讨论,虽然模型已经开源,但是运行此模型需要的电脑资源还是要求比较高的,怪不得ChatGPT类似的大模型,这么费经费。模型支持在线试玩,可以在线玩一下。
https://minigpt-4.github.io/ # 在线试玩网站
扩展阅读:
OpenAI官方发布ChatGPT API接口gpt-3.5-turbo,python可直接调用
OpenAI开发的ChatGPT用来论文翻译与润色,效果强大
使用python调用ChatGPT的API,打造属于自己的桌面智能助手
ChatGPT又又又更新了,多模态GPT-4大模型发布
关键词:
推荐阅读
DART小行星任务已开始 有6次自我毁灭航天器介绍
DART小行星任务已开始斯科特·博尔顿曾与两艘飞船合作,这两艘飞船以确保陆地微生物永远无法在太阳系外站稳脚跟的名义自我毁灭。冒着最恶劣 【详细】
十大日系车排名 日系车有怎样的优缺点?
十大日系车排名雷克萨斯UX雷克萨斯UX,官方宣称为紧凑型SUV,但实际上它只是一款小型SUV。UX和C-HR都采用TNGA架构,因此具有很好的可操作性 【详细】
非晶硅薄膜电池的起源 非晶硅薄膜电池优点有哪些?
非晶硅薄膜电池的起源非晶硅薄膜太阳能电池由Carlson和Wronski于20世纪70年代中期成功开发,80年代生产达到高潮,约占全球太阳能电池总量的 【详细】
苹果官网回收旧手机 苹果手机回收注意事项
苹果官网回收旧手机现在很多地方都能回收手机,再生资源回收利用是可以的。苹果是一家非常强大的公司,苹果的手机在国内用户中非常受欢迎。 【详细】
世界十大数码相机排名 世界十大数码相机品牌汇总
世界十大数码相机排名 世界十大数码相机品牌汇总1、佳能Canon佳能在光学领域处于领先地位,自1937年开业至今已有70多年的历史。佳能以积极 【详细】
相关新闻
- 开源的MiniGPT-4可以让你提前体验一下GPT-4的魅力_环球今日报
- 技术|铜颗粒在锂电正极引发电池内短路的机理研究_天天讯息
- 消失的8小时工作制:底线一次次打破,996成为常态_全球今热点
- 信息技术在现代企业经济管理中发挥着怎样的作用? 天天热头条
- 焦点消息!从教授到CEO,科研人才如何华丽转身?
- 3款很冷门但性价比拉满,配置巨高的百元游戏神机!#iphone 天天日报
- 东方雨虹:跑出绿色低碳高质量发展“加速度”
- 世界快资讯:智能制造业用人需求持续上涨,这些岗位最缺人→
- Vivo全系列最值得买的6款神机,个个都是经典中的经典!#iphone
- 科技赋能“中国建造”-焦点精选
- 每日热点:真快!iOS 15.4.1 Dopamine 又更新,内置新功能
- 每日热闻!锂硫催化剂结构调控与设计方面获进展
- 手机的天线去哪了?- No.350_环球动态
- 每秒360公里,地球正在高速穿越宇宙空间,而我们却毫无感觉
- 全球动态:人类真的没有天敌吗?科学家提到一种动物,差点将人类祖先吃光
- 天天新资讯:索尼Xperia 10 V发布 配备骁龙695芯片 仅重159克
- 国家卫健委:到2025年,各级各类医疗机构责任制整体护理覆盖率要达到全院100%
- 桂林理工:分级双碳层多孔VMC@C/石墨烯复合材料,用于钠储存-世界新资讯
- 1英寸不是终点,M43已经在路上,这个方向对了吗?
- 实锤!研究发现:走路降低死亡风险,让人更长寿,最佳步数多少? 世界观天下