文本轉圖像模型的發(fā)展周期歷時數(shù)年:
- 2020年7月:OpenAI發(fā)文介紹Image GPT模型,將語言模型應用到圖像領域。
- 2022年3月:AI圖像生成平臺Midjourney啟動Beta版本測試。
- 2022年4月:OpenAI宣布允許一定數(shù)量的用戶對其AI圖像生成工具DALL-E 2 進行“研究性試用”。
- 2022年5月:Google以論文形式公布其文本-圖像生成模型Imagen,Imagen由PyTorch實現(xiàn)。
- 2022年7月:OpenAI 通過UI/API開放DALL-E 2進行公開測試,參與公測的用戶須先進入等待名單。
- 2022年7月:Midjourney通過Discord通訊平臺發(fā)布消息表示即將進行公開測試。
- 2022年8月:文本-圖像生成模型Stable Diffusion發(fā)布,這是一款基于OpenRAIL-M許可的開源模型。
- 2022年9月:OpenAI取消DALL-E 2的等待名單。
- 2020年5月:OpenAI以論文形式公開GPT-3,并在隨后的6月發(fā)布了未公開的Beta版API。
- 2020年7月:非營利開源研究組織EleutherAI成立,成為OpenAI的替代者。
- 2020年9月:Microsoft獲得GPT-3的獨家授權。
- 2021年1月:EleutherAI公布其800G數(shù)據(jù)集The Pile。
- 2021年3月:EleutherAI公布了分別含13億和27億參數(shù)的兩版開源GPT-Neo模型(GPT-Neo是對GPT-3的克隆版)。
- 2021年11月:OpenAI取消GPT-3的等待名單,開發(fā)人員可以直接報名使用其API。
- 2022年5月:Meta公布大型語言模型OPT-175B,供研究人員使用,還公布了模型日志和開源許可證明。
- 2022年6月:俄羅斯互聯(lián)網(wǎng)巨頭Yandex公布了YaLM-100B,這是一個基于Apache-2許可的類GPT開源模型。
- 2022年7月:HuggingFace公開了BLOOM-176B,一個基于RAIL許可證明的大型語言模型。
- 2019年2月,OpenAI宣布GPT-2誕生,為了避免模型遭到不良利用(如被用于制造虛假新聞等),當時決定不將模型完全開源;3月,OpenAI放棄“非營利機構”的定位,成立OpenAI LP(有限合伙公司),聲稱進入“有限營利”經(jīng)營模式。
- 8月,兩名計算機碩士復制出GPT-2并將其對外公開,稱為OpenGPT-2。
- 11月,經(jīng)過謹慎的分階段逐步公布,OpenAI終于完全開源了含15億參數(shù)的GPT-2模型。
上述時間線已經(jīng)過高度精簡,實際發(fā)展史還可追溯到2015年提出的擴散模型(Diffusion Model)、2017年提出的Transformer模型,以及更早之前對生成對抗網(wǎng)絡(GANs)的研究。有趣的是,2022年9月,OpenAI基于MIT許可公開了其Whisper語音轉文本模型,并且不設置付費API。當然,語音轉文本功能遭到不良利用的可能性較低,所以此類模型的開源風險也更低,但也有觀點認為,OpenAI此次的開源決定是受到Stable Diffusion開源后爆紅的影響。
更多建議: