目前,數據已成為與自然資源和人力資源同等重要的戰略資源[1]。為了有效地組織,使用和發現數據中蘊含的巨大價值,您必須擁有數據科學和工程領域的專業人員。接下來小編簡單介紹一篇優秀電子網絡論文。
摘要:針對數據人才培養的時代需求,以培養數據科學與工程特色的計算機科學與技術人才為目標,提出優化傳統的計算機科學與技術專業課程體系,以特色研究型課程為抓手,建設“數據分析與挖掘課程群”,具體闡述改革思路目標,并結合山西大學的學科平臺建設說明實施辦法。
關鍵詞:數據科學;工程特色;數據分析與挖掘;人才培養模式
引言
但由于國內外高校開展數據科學與工程人才培養的時間不長,技術市場上掌握大數據處理和應用開發技術的人才十分短缺。因此,高校需要與時俱進,面向新時代新挑戰,為國家和社會培養出足夠的優秀的數據人才。數據科學通常指利用科學的方法、過程和系統從結構化或非結構化數據中抽象出有效知識并加以應用的學科;數據工程是指利用工程的觀點進行數據管理和分析以及開展系統的研發和應用[2]。國際上認可的數據科學過程為:首先提出與數據相關的問題,即基于數據想要預測、估計或發現什么;然后獲取數據,即數據采集與清洗、存儲與管理;然后分析挖掘數據,即探究數據中是否存在規律性或反常的東西;最后對數據建模,并進行模型驗證,驗證從數據中學到的東西是否正確或有意義。這個過程與計算機科學緊密相關,每個環節相互作用相互影響,如圖1所示[3]。隨著數據的規模增大、結構混亂等復雜因素的出現,過去能解、易解的問題變成了不可解或不可表示的問題;數據的存儲、軟件系統與計算模型的設計與實現也遇到了各種困難和挑戰。傳統的計算機科學要從關注科學計算、商業計算轉變為關注利用數據科學與工程理論與方法進行的大數據計算,這就要求高校必須要培養具有數據科學與工程相關能力的計算機專業人才,以契合新時代下國家重大行業和地方產業的需求。但傳統的計算機科學專業人才培養方案缺乏數據人才所需具備的數據思維與數據采集、存儲與管理、分析與挖掘、可視化與應用的覆蓋數據科學完整過程的一系列理論知識和實踐能力的培養與訓練。因此,現行的計算機專業教學體系在完成數據科學與工程相關能力的培養上,無論基金項目:2015年山西省高等學校教學改革項目(J2015003);2016年山西省高等學校優勢專教學內容還是教學方式均有待優化和改革。
1改革思路和目標定位
構建數據科學與工程特色鮮明的計算機科學與技術人才培養方案的改革思路為:圍繞數據科學與工程獨特的學科基礎和內涵,優化計算機科學與技術課程體系;結合學院高水平學科平臺,系統構建“數據科學與工程課程群”;依托協同創新中心與創新團隊,探索多種人才培養模式。從思維與意識、知識、能力、技能等方面確定具有優良數據科學與工程素養的計算機科學與技術人才的培養目標:①思維與意識:培養學生的數據思維,樹立學生從抽象的數據中提取價值和解釋數據的意識。②知識:培養學生掌握能支持在數據科學領域與計算機科學領域進行探索創新所需的算法設計與實現、數據分析與挖掘等的專業基礎知識。③能力:培養學生能夠從數據工程師的角度分析問題,并具備采用一定策略進行數據收集、存儲與管理、分析與挖掘、呈現與應用的能力;具備從程序員的角度分析問題及采用一定策略進行算法設計與實現解決問題的能力,并具有計算機軟硬件系統的全局認識和基本的計算機系統設計能力;具備自我探索學習與凝練問題的能力。④技能:培養學生能熟練使用Java等語言及其開發環境實現可以正確運行的程序;較為熟練地掌握和使用通用數據科學工具與平臺。
2具體實施辦法
高水平學科平臺不僅是科研創新的引擎,同時也是教學創新的輸出源頭。近年來,山西大學計算機科學與技術學院努力構建了以下學科平臺。(1)攀升計劃與學位點。山西大學有計算機科學與技術一級學科博士學位點及博士后科研流動站,其計算機學科被評為“山西省高等學校優勢學科攀升計劃項目”,而且,該學科還是山西省2012年設立的首批特色重點學科。(2)重點實驗室。學院擁有“計算智能與中文信息處理實驗室”教育部重點實驗室、“智能信息處理實驗室”山西省重點實驗室、智能信息處理山西省院士工作站。(3)創新基地。2013年,山西大學計算機學科牽頭的“面向信息化的大數據分析與處理協同創新基地”通過山西省教育廳評審,列入首批培育建設項目;2015年該基地被山西省教育廳評審認定為“大數據挖掘與智能技術山西省協同創新中心”。(4)實驗平臺。圍繞科學研究與教學的實驗環境,本學科在教育部重點實驗室、山西省重點實驗室著力建設了兩個大型實驗儀器平臺:①教育部重點實驗室高性能計算平臺,該實驗平臺可提供Windows2008HPC(1個管理節點,25個計算節點,1個文件服務器,全千兆網絡互聯)、LinuxHPC(1個管理結點,18個計算節點,1個1T存儲,全千兆網絡互聯)和遠程虛擬計算機(4顆6核CPU/2.0G,256G內存)3種系統環境的計算資源,為用戶提供單機多CPU和多核計算資源服務。②山西省重點實驗室大數據管理與計算平臺,該實驗平臺可提供RedhatLinux系統環境的計算資源(1個管理節點,43個普通計算節點(2顆6核CPU/2.1G,48G內存),2個大內存計算節點(2顆6核CPU/2.1G,512G內存),全千兆網絡互聯),為用戶提供集群式大數據計算服務。(5)創新團隊。學院建成了山西省教育廳“智能信息處理”科技創新團隊、山西省科技廳“智能信息處理”首批科技創新重點團隊、山西省高等學校“復雜系統”優秀創新團隊、山西省“傳染病傳播及防控”科技創新培育團隊4個創新團隊。學校依托這些學科平臺,主動應對新挑戰,以培養數據科學與工程特色的計算機科學與技術人才為目標,優化傳統的計算機科學與技術專業課程體系,以特色研究型課程為抓手,系統建設了“數據分析與挖掘課程群”,拓展了多種培養模式,把人才培養融入到學科建設、科學研究、協同創新、社會服務中。
2.1圍繞數據科學過程,優化計算機科學與技術專業課程體系
2.1.1課程優化的原則參照文獻[4-7],圍繞數據科學過程,基于以下原則對計算機專業的課程體系進行了優化。原則1:突出數據科學基礎理論教學。在加強概率論、數理統計教學的同時,將數據科學導論、機器學習、數據挖掘、信息檢索、自然語言處理等課程作為重要的專業必修課或選修課進行講授。原則2:裁剪傳統的計算機類課程,強化數據科學相關部分。在高級語言程序設計、操作系統、數字邏輯、計算機組成原理、計算機系統結構等課程中弱化傳統材料的講授,引入計算機科學在數據分析領域的最新應用與進展,如引入數據科學領域流行的Python與R語言,引導學生掌握泛型編程語言,彌補教材與時代脫節的不足。原則3:強調覆蓋數據科學完整過程。開設數據采集技術、多源數據融合、大數據開源架構與平臺、數據可視化等課程,力求覆蓋數據采集與處理、存儲與管理、分析與挖掘、呈現與應用等數據科學的核心環節。2.1.2課程體系設計課程體系如圖2所示,主要包括以下幾個論域。論域1:概率與數理統計,該論域主要引導學生理解概率與數理統計的核心概念和理論,掌握處理隨機現象與數理統計的基本思想和方法,培養學生運用概率與數理統計方法分析和解決實際問題的能力。論域2:數據準備,該論域主要引導學生理解和掌握如何根據數據分析目標并在保證用戶體驗的情況下對數據進行采集與處理、存儲與管理的基本理論與方法。論域3:計算機基礎與數據科學平臺,該論域主要引導學生掌握數據分析所需要的算法設計、程序實現、數據庫等理論和方法,能夠根據具體應用搭建計算環境和平臺,并進行有效的算法實現。論域4:數據挖掘與可視化,該論域主要引導學生理解數據分析挖掘的基本理論和方法,利用相應算法、模型及工具進行數據分析,并可以設計合適的圖表來正確傳達數據內涵。論域5:數據的行業應用,該論域主要引導學生結合特定領域業務問題和現狀,通過數據模型的建立、分析與驗證獲得可行的行業數據解決方案。上述論域涵蓋了用計算機進行數據分析所需的數學基礎和計算機基礎,分析數據需要構建的數據科學平臺,獲得滿足數據分析目標的數據的方法,進行數據分析的建模方法,包含場景、關系、交互、模式等方式的解釋數據的設計與實現,建模進行預測等數據科學與工程專業人員所關注的核心問題。具體教學進一步將人才培養落實到“算法設計與實現能力”與“數據分析與挖掘能力”的培養上,因此,學生完成該課程體系的4年學習之后,可以達到具有優良數據科學與工程素養的計算機科學與技術人才的培養目標。
2.2依托學院特色優勢建設數據分析與挖掘課程群
山西大學借助“計算機科學與技術一級學科博士點”及“計算智能與中文信息處理教育部重點實驗室”,以優勢學科和科研創新為特色,為高年級本科生設立數據挖掘、機器學習、文本信息處理、人工智能、信息檢索等特色研究型課程。在這些課程中,教師將最新的科研成果、方法與理念轉化為教學內容,突出一系列數據分析、知識獲取的理論、方法與模型的講授與訓練,以學生為主體,采用靈活的教學方式,使學生通過這些課程的學習提升探索研究的興趣。這些課程都是數據科學與工程學科體系中重要的理論基礎課程,是數據人才培養的關鍵。學院通過開設這些課程,積累了數據科學與方向課程的授課經驗,打造了一支高素質的智能信息處理教學團隊,為系統實施數據科學與工程課程體系奠定了基礎。
2.3依托協同創新中心,結合科研訓練項目與學科競賽,探索多種培養模式
1)與國內企業合作,創建校企協同培養模式。山西大學依托“大數據挖掘與智能技術山西省協同創新中心”,與山西省多家煤基產業大型國企和骨干軟件企業組成核心協同單位。學校積極構建校企協同培養新模式,邀請企業研發工程師為學生講授相關高級課程,突出行業背景、問題分析與建模、技術創新等環節的教學,將學生所學基礎理論和方法與應用聯系起來,為學生提供與企業合作解決技術難題的機會。同時,與合作單位推出企業實習項目、畢業設計項目,讓學生嘗試為企業提供技術支持,提升自己解決行業問題的能力與未來實際工作的能力。2)與國際知名學者聯手,探索國內外協同培養模式。學校的協同創新中心還與在數據挖掘領域處于國際領先地位的加拿大Regina大學組成核心協同單位,這為開展國際學術交流與合作提供了渠道。學校探索了暑期學校、暑期課程等協同培養新模式,邀請國外有影響力的教授(如Regina大學的姚一豫教授每年暑假定期來學校授課、團隊研討、項目咨詢)為學生講授相關高級課程,同時,推出國際交換學習項目,開闊學生的學術視野,培養學生的學術研究與創新意識。3)結合科研訓練與學科競賽,深化問題驅動式培養模式。除了傳統的專業課程實驗、綜合課程設計、系統畢業設計之外,教學團隊還引入大學生創新性實驗、科研訓練項目與學科競賽活動,學生根據自己的特點與興趣選擇合適的項目。在項目實現過程中,老師重點培養學生發現問題、解決問題的能力,學生通過與老師定期互動、系統學習相關領域知識、閱讀重要文獻、小組研討等方式,完成問題提出、模型設計、技術實現和論文撰寫等一系列科研工作,得到一整套發現問題、解決問題的能力訓練和提升,增強實踐動手能力,強化批判性和創造性思維與意識。
3結語
在數據成為重要戰略資源的年代,專業的數據人才培養具有重大意義。目前提出的具有數據科學與工程特色的計算機科學與技術專業人才培養模式的相應改革還在進行中,取得的效果還需進一步驗證和分析,相信這種思路和方法對其他大學實施數據人才培養的改革能夠產生積極影響,同時也能夠為我國高等教育面向大數據時代的轉向提供新思路。
參考文獻:
[1]李國杰.大數據(BigData)科學問題研究[EB/OL].(2015-10-03)[2017-08-09].
[2]周傲英,錢衛寧,王長波.數據科學與工程:大數據時代的新興交叉學科[J].大數據,2015(2):90-99.
[3]VenturiD.如何自學數據科學?這21個課程能幫你入門數據科學過程[EB/OL].(2017-01-30)[2017-08-09].
[4]陳振沖,賀田田.數據科學人才的需求與培養[J].大數據,2016(5):95-106.
閱讀期刊:信息方略
《信息方略》(半月刊)創刊于2003年,是由國家信息中心主辦的數字時代雜志。雜志特點:時尚、生活、休閑、娛樂、實用,引領都市數字新文化,倡導時尚數字生活方式,推動數字產品消費與應用。一路走來,為廣大熱愛數字時尚消費的讀者提供最新鮮的資訊,最實用的指導,最前沿的體驗,以及最炫最IN的消費觀念。
相關論文