文本轉(zhuǎn)圖像模型的發(fā)展周期

2023-03-08 14:33 更新
文本轉(zhuǎn)圖像模型的發(fā)展周期歷時(shí)數(shù)年:
  • 2020年7月:OpenAI發(fā)文介紹Image GPT模型,將語言模型應(yīng)用到圖像領(lǐng)域。
  • 2022年3月:AI圖像生成平臺(tái)Midjourney啟動(dòng)Beta版本測(cè)試。
  • 2022年4月:OpenAI宣布允許一定數(shù)量的用戶對(duì)其AI圖像生成工具DALL-E 2 進(jìn)行“研究性試用”。
  • 2022年5月:Google以論文形式公布其文本-圖像生成模型Imagen,Imagen由PyTorch實(shí)現(xiàn)。
  • 2022年7月:OpenAI 通過UI/API開放DALL-E 2進(jìn)行公開測(cè)試,參與公測(cè)的用戶須先進(jìn)入等待名單。
  • 2022年7月:Midjourney通過Discord通訊平臺(tái)發(fā)布消息表示即將進(jìn)行公開測(cè)試。
  • 2022年8月:文本-圖像生成模型Stable Diffusion發(fā)布,這是一款基于OpenRAIL-M許可的開源模型。
  • 2022年9月:OpenAI取消DALL-E 2的等待名單。
GPT-3從公布到被復(fù)制歷時(shí)10個(gè)月:
  • 2020年5月:OpenAI以論文形式公開GPT-3,并在隨后的6月發(fā)布了未公開的Beta版API。
  • 2020年7月:非營(yíng)利開源研究組織EleutherAI成立,成為OpenAI的替代者。
  • 2020年9月:Microsoft獲得GPT-3的獨(dú)家授權(quán)。
  • 2021年1月:EleutherAI公布其800G數(shù)據(jù)集The Pile。
  • 2021年3月:EleutherAI公布了分別含13億和27億參數(shù)的兩版開源GPT-Neo模型(GPT-Neo是對(duì)GPT-3的克隆版)。
  • 2021年11月:OpenAI取消GPT-3的等待名單,開發(fā)人員可以直接報(bào)名使用其API。
  • 2022年5月:Meta公布大型語言模型OPT-175B,供研究人員使用,還公布了模型日志和開源許可證明。
  • 2022年6月:俄羅斯互聯(lián)網(wǎng)巨頭Yandex公布了YaLM-100B,這是一個(gè)基于Apache-2許可的類GPT開源模型。
  • 2022年7月:HuggingFace公開了BLOOM-176B,一個(gè)基于RAIL許可證明的大型語言模型。
GPT-2從公布到被復(fù)制歷時(shí)6個(gè)月:
  • 2019年2月,OpenAI宣布GPT-2誕生,為了避免模型遭到不良利用(如被用于制造虛假新聞等),當(dāng)時(shí)決定不將模型完全開源;3月,OpenAI放棄“非營(yíng)利機(jī)構(gòu)”的定位,成立OpenAI LP(有限合伙公司),聲稱進(jìn)入“有限營(yíng)利”經(jīng)營(yíng)模式。
  • 8月,兩名計(jì)算機(jī)碩士復(fù)制出GPT-2并將其對(duì)外公開,稱為OpenGPT-2。
  • 11月,經(jīng)過謹(jǐn)慎的分階段逐步公布,OpenAI終于完全開源了含15億參數(shù)的GPT-2模型。

上述時(shí)間線已經(jīng)過高度精簡(jiǎn),實(shí)際發(fā)展史還可追溯到2015年提出的擴(kuò)散模型(Diffusion Model)、2017年提出的Transformer模型,以及更早之前對(duì)生成對(duì)抗網(wǎng)絡(luò)(GANs)的研究。

有趣的是,2022年9月,OpenAI基于MIT許可公開了其Whisper語音轉(zhuǎn)文本模型,并且不設(shè)置付費(fèi)API。當(dāng)然,語音轉(zhuǎn)文本功能遭到不良利用的可能性較低,所以此類模型的開源風(fēng)險(xiǎn)也更低,但也有觀點(diǎn)認(rèn)為,OpenAI此次的開源決定是受到Stable Diffusion開源后爆紅的影響。


以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)