1. 程式人生 > 資訊 >聲稱程式碼已開源卻遲遲沒更新,網友等了好幾個月,最終一怒之下把作者掛網上

聲稱程式碼已開源卻遲遲沒更新,網友等了好幾個月,最終一怒之下把作者掛網上

“程式碼拖更”的經歷,不知你遇到過沒?

就是你看上了一篇論文或者專案,作者聲稱程式碼會開源或者已開源,但你左等右等,每天查查 GitHub,程式碼就是一直沒釋出……

reddit 上一位網友就遭遇了這種經歷,還是在他三番五次聯絡原作者的情況下

一怒之下,他就把作者和論文掛網上了。

結果這一現象引起了網友們熱烈的討論,還把“涉事”作者給“炸”出來了!

聲稱程式碼開源卻遲遲不更新

據發帖網友陳述,“涉事”論文是 NeurIPS 2020 的一篇有關自動駕駛的論文

當時他覺得很有意思,順著文中給出的程式碼地址點進去,發現倉庫居然是個“空殼子”。

“好吧,應該是還沒來得及更新”,他心想:那就 fork 一下,過幾天再來看。

然而他等啊等啊,程式碼一直都沒有釋出。

他看到有其他人也在評論區“催更”,他自己也嘗試電郵聯絡作者們(包括學生和 PI),但都沒收到回覆。

終於,去年 11 月份就提交到 arXiv 的論文,在今年 4 月更新程式碼倉庫了!

—— 但,更新的只是自述檔案,只說程式碼即將釋出。

然後幾個月過去了,那已成了該倉庫最後一次更新。

而這位網友也終於聯絡上了作者,卻得到了這樣的迴應:

論文實際上是基於經驗的改進,沒有有效程式碼來複現結果。

這下這位網友可是真的炸了:“我等了你們這麼久,付出了巨大的努力聯絡你們。不釋出就不釋出,一開始就別承諾啊,也更不該‘玩失蹤’啊。”

他表示,他知道這種“聲稱開源卻實際並未釋出程式碼”的事情在機器學習論文中越來越多。

當他實驗室的本科生問他“為什麼我應該如此費力地整理程式碼併發布,而別的人早已開展下一個有趣的專案去了”時,他也沒法兒解釋。

但事情不應該是這樣:

我強烈地認為這種事情必須被改變,而且只有我們說出來,這種現象才能被改變。

於是,也就有了前文我們看到的這篇論文被掛在網上“社死”的事情。

誰之過?應該怎麼辦?

看到這個帖子,許多網友的第一反應確實是:這不新鮮啊。

“CVPR 2019 都還有篇論文的程式碼現在還沒釋出。原作者還親口告訴我有程式碼且已上線呢……”

不過,這不排除有人是在論文被接收後又偷偷刪除連結的……

畢竟,有網友指出,有人不發就是因為擔心自己“透露”的太多,被別人反超成果……

emmmm……

當然,更普遍的也可能是自己的程式碼遇到問題了,不過:

Paper+BadCode>>>>Paper+NoCode

許多人表示,論文能公開程式碼還是要公開,即使有錯誤、別人跑不起來,但也儘量發出來,大家還可以做逆向工程 —— 畢竟總比啥都沒有強。

而關於不釋出程式碼的原因,這裡面還出現了“對於你來說開原始碼可能就是 30 分鐘的事兒,但有人真的很忙需要耗費數週才能完成,所以你不該責怪他們”的論調,但顯然他沒有抓住本次事件真正的問題所在:

不能開原始碼的情況會有,可以原諒,但你不應該把“程式碼已在 X 釋出”寫在論文中。不誠實才是最大的問題。

而另一邊,網友也把矛頭指向了評審。

“我已經說過很多次了,會議/期刊/審稿人應該確保論文中提到的程式碼是真正釋出了的。”

許多人一致認為先不提有沒有驗證程式碼是否能復現,沒有復現程式碼能過審就讓人費解,所以給復現程式碼掛了個空倉庫的論文一開始就應該被拒稿,審稿人應該好好把關。

不過說是這麼說,有人算了算:

ICLR 今年收到了大約 3400 篇提交,每篇論文應該有 4 條評論,所以總共需要 13000 + 條評論。而一個好的評審總共需要 4-5 個小時在一篇論文上。

這需要耗費的時間不敢想象,但審稿又是“義務勞動”,你“審的好”不會給你帶來什麼附加收益,對你找工作、升職加薪什麼的也不會有幫助,所以……

那你可能會說,付費評審吧。

且不提每小時約 100 美元的市場價格帶來高得離譜的成本,有的人給錢他都不一定有那麼多時間呢。

再扯遠點,最不缺的是審稿人,而是真正有水平的審稿人。

所以也就發生了太多空程式碼論文“鑽空子”的情況。

“涉事”論文作者被“炸”出來了

令人沒想到的是,原帖網友私下三番五次聯絡不上“涉事”論文作者,發了這個帖子後,倒是一下子把他“炸”出來了。

他首先道歉,表示自己剛剛進入一家公司工作很忙,沒有及時跟蹤到這篇論文的郵件。

並承諾在最近的 NeurIPS 之前會發布程式碼,到時大家有啥問題就可以問他了。

還給出了程式碼用到的資料集來自哪篇論文以及根程式碼庫的連結。

以上,你怎麼看?