2016/12/31

開源得以節流

  學術界是個很封閉的環境,它會讓聊天的主題縮限於那幾項事物上,學術圈外的普羅大眾又往往不對這些事物感興趣,於是博士讀到後來,總覺得交談內容似乎單調了起來。

  儘管如此,遇到不同領域的研究生時往往會有有趣的交流。儘管專業不同,苦水是一樣的:一直做壞掉的實驗、有問題可是就是找不到的程式碼、準備論文焦頭爛額、導生關係、各種學術社交、口試壓力、前途的不確定性等等。不過讓我學到最多的可能是:平平是學術研究,不同領域(也就是不同社群)會演變出不同文化,而這深深左右著大家對「做研究」這件事情的詮釋方法。

  最淺顯的例子莫過於每篇論文的共同作者數。像哲學、文學這種可能不太容易超過兩個人;數學不太會超過五人,單一作者則是相當常見;凝態物理和化學可能就是二至五人之小組為主;生醫相關可能就會比較常出現兩位數,單一作者之論文極為稀有;天文物理目前差距很大,從孤鳥、小組、中型團隊(10到50人)到大型團隊(50人以上)都有;最後,實驗高能物理論文往往都是由一兩千人的超大型團隊共同簽署。由此可見一斑。

  第二個例子是理論與實驗的差別。理論學家的思維模式難免較理想化,講難聽一點就是不切實際;實驗學家則有時拘泥於細節,太過頭就是見樹不見林。理論工作比較符合刻板印象:拿著紙筆,整天計算玄想;實驗則是不斷重複枯燥的準備工作,恨不得自己是機器人。但共同點是,兩邊都常遇到做一整天白工的時候,而且現在隨著電腦模擬技術提升,無論是實驗或理論多多少少都要具備寫程式的技能,以模擬為工具,事半功倍。

  但令我感到學術文化差異最大的其實是「影響係數」(impact factor)這東西。影響係數指的是論文、作者或期刊被引用的程度,嘗試用量化指標來評斷什麼是好論文、誰是厲害的學者、以及哪些是「高等級」的期刊。這數字在許多領域裡非常重要,以至於同一篇論文發在高影響力期刊和普通期刊會產生不同價值。而且,由於大家都希望刊登於高影響期刊,所以這些刊物的稿件會增加,如果出版社不願增加篇幅,就會挑論文:把沒有瑕疵但科學成果不夠精彩的研究退回,因此就出現所謂的「錄取率」。此現象最常發生於研討會會刊(proceeding),研討會中可上台報告的名額有限,而僧多粥少,故「被很競爭的研討會錄取」相當具有指標性意義,而刊登在會刊上往往比刊在普通期刊上更重要。

  可是在某些領域──比方說天文界──就完全不是這麼回事。絕大多數的天文研討會都不會出版會刊──幹嘛浪費人力和時間在沒內容(因為限制篇幅)的東西上?另外,天文物理界也無視影響係數,因為期刊也就那幾本:A&A、ApJ、MNRAS,如果是宇宙學可能多看個PRD和JCAP (註一),大家都差不多,沒有排序必要。更何況這些期刊都不挑論文,只要沒有邏輯瑕疵、有學術貢獻就會幫它發表,當然就沒有錄取率的問題。

  其實不只天文物理,在高能物理和數學界也是如此,很多人甚至對影響係數嗤之以鼻。沒錯,影響係數和論文的品質或影響力多少成正相關,但很多學術圈已經做到「崇拜影響係數」的地步。影響係數只跟引用有關,而引用這件事本身的複雜度非常高:講細節或講表面,都只算引用數加一;提一次或提十幾次,引用數也都只加一;不只一篇文章講到同一個概念時,引這篇也可以、那篇也可以、兩篇都用也可以,如何選?選這篇而不選那篇,就代表這篇比較有價值嗎?最後,論文形式百百種,怎麼可能只用一個分數──更何況是簡陋到不行的分數──去評論好壞呢?更別提訂閱期刊的談判桌上,本來就予取予求的無良出版社可以拿影響係數增加談判籌碼,崇拜的行為只會讓情況雪上加霜。

  談到對抗學術出版壟斷,就不得不提「arXiv文化」。所謂arXiv,是一個獨立作業的論文歸檔平台,由康乃爾大學所經營。原則上,「所有人」都可以上傳「任何東西」,因為它的網管不負責編輯,只簡單確認你不是上傳惡意內容。實際上的使用方式如下:學者每投稿一篇新論文到期刊時,可以順便上傳一份到arXiv,讓有需要的人查閱。arXiv沒有科學審查的流程,因為它本來就不是期刊,無此義務;又每天上傳的資料太多,人力不足以顧及細節,因此品質維護靠的是使用者的紀律;於是,愚人節時會出現幾篇別出心裁、符合科學家笑點的偽論文來博君一笑,而我也看過有人上傳認真檢討教職供需不均衡情況的文章。簡言之,arXiv就像一間超大圖書館,每發一篇論文,作者就自己拿一份副本放到架上。

  為什麼要有這樣的資料庫?一方面因為出版程序往往冗長,可讓已通過審查卻枯等排版或拼音校正的論文快快公諸於世;二來資訊透明化對學術界相當重要,如此平台可使資訊匯集更便利,想找文獻不用去圖書館翻,也不用去不同期刊的網站一個一個檢查,每天滑鼠一點就拈來熱騰騰的新論文,然後一連串的討論及腦力激盪旋即開始。

  很方便,對吧?更方便的是還在後頭。如果今天整個圈子內,「所有人」都養成投稿後上傳到arXiv建檔的習慣,那從今天起「所有論文」都可以在arXiv上找到。換言之,就算實驗室沒訂某本期刊,或是你人在家裡沒有權限從官網讀取,這裡永遠有個避風港讓你讀任何一篇論文,因為所有人都有獲取科學知識的權利,謂之「學術開源」(open access,或「開放獲取」)。這種「視上傳到arXiv為標準動作」的文化存在於高能物理、天文物理和數學界(統計和資工可能亦是如此),
咦真巧,有用arXiv的領域好像就是不崇拜影響係數的那些耶!

  儘管小小博士生無法解析百年來的學術出版史,但我相信arXiv文化和不重視影響係數這兩件事多少有關,因為arXiv會降低對官方期刊的依賴度,降低期刊對論文能見度的影響。這時假如高影響期刊收費太貴,不想當冤大頭的人就會選擇其它刊物,長遠來看便有機會平衡各期刊之間的差異,讓影響係數式微。

  在此強調一點:並不是說有了arXiv研究機構就可以不訂期刊。因為期刊上的文稿是有人審查過的,而arXiv是榮譽制,準確度有些許差異。況且很多人可能先上傳了第一版,之後被期刊審稿員要求大修,修完卻沒有更新arXiv上的檔案,因此檢閱arXiv文稿時還是要多加留心。這跟維基百科是一樣的:儘管不能全然信之,但整體準確率仍超乎想像地高。

  當今輿論似乎已視SciHub為打擊學術出版壟斷的代名詞,但我認為不為人知的arXiv才是最有效的殺手鐧。SciHub是衝撞體制的黑臉,違反著作權法,幾乎等同於學術界的「公民不服從」(註二);而arXiv可能會成為體制內最可行的解決方案,在「合法」(註三)的框架下讓出版社繼續有點錢賺(註四)、讓學術界看得到想看的論文。arXiv同時也是訂閱談判的籌碼,如果期刊價格水漲船高,學界可隨時抵制、不續訂,繼續靠arXiv維持日常工作需求。因此,只要圈內每一員盡一點舉手之勞,我們其實就可以朝學術開源邁近一大步(註五)。

  不同學術圈會帶來不同文化薰陶,左右不同學者對做研究的詮釋。我很慶幸自己的學術文化為天文界所賦予,對影響係數嗤之以鼻,對使用arXiv習以為常。


註一:這幾個縮寫代表的分別是Astronomy and Astrophysics、The Astrophysical Journal、Monthly Notices of the Royal Astronomical Society、Physical Review D和Journal of Cosmology and Astroparticle Physics。

註二:基本上,SciHub做的事情就是用各種方式把論文弄到手下來然後丟到一個地方給大家下載。雖然明顯違法,但因出版社索錢行為太鴨霸,所以支持者眾。

註三:其實並不是所有論文都可合法上傳至arXiv,必須要出版社同意「可發表預印版」才行,也就是同意作者自行發表沒有經出版社處理過的圖文。要求出版社開放預印版之版權應該比要求降訂閱費容易得多,因此我認為這是最務實的方法。

註四:比較有良心的出版社往往會在「投稿收費、閱讀免費」和「投稿免費、閱讀收費」間擇其一。另外還有像美國的研究機構投稿美國天文學會發行的ApJ不用錢,歐洲的研究機構投稿法德的A&A不用錢等規定。

註五:學術開源的終極目標是讓有同儕審查機制但內容完全免費開放的期刊普及化。


2016.12.31 台中楓樹


沒有留言: