所屬欄目:科技期刊 熱度: 時間:
數(shù)據(jù)分析與知識發(fā)現(xiàn)
關(guān)注()《數(shù)據(jù)分析與知識發(fā)現(xiàn)》雜志簡介
《數(shù)據(jù)分析與知識發(fā)現(xiàn)》(月刊)創(chuàng)刊于1985年,是中國科學院主管、中國科學院文獻情報中心主辦的計算機信息管理技術(shù)方面的學術(shù)性刊物,是國內(nèi)唯一一份被中國圖書館學會和中國科技情報學會共同推薦的專業(yè)技術(shù)類核心期刊。刊物設(shè)有“數(shù)字圖書館”、“知識組織與知識管理”、“情報分析與研究技術(shù)”、“應(yīng)用實踐”、“動態(tài)”等一系列固定類欄目以及“特邀專欄”、“企業(yè)技術(shù)之窗”等不定期欄目。
《數(shù)據(jù)分析與知識發(fā)現(xiàn)》內(nèi)容定位于廣泛吸納計算機科學、數(shù)據(jù)科學、情報科學以及數(shù)字科研、數(shù)字教育和數(shù)字文化等領(lǐng)域的技術(shù)與方法,研究數(shù)據(jù)驅(qū)動的語義計算、內(nèi)容分析、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、智能管理和決策支持等方面的技術(shù)、方法、系統(tǒng)以及支撐設(shè)施、政策與機制等,尤其是聚焦從海量、異構(gòu)、分布、動態(tài)、甚至富媒體數(shù)據(jù)中挖掘和發(fā)現(xiàn)知識以支持研究、管理和決策的理論、方法和技術(shù)。
《數(shù)據(jù)分析與知識發(fā)現(xiàn)》辦刊宗旨是聚焦各行各業(yè)中以大數(shù)據(jù)為基礎(chǔ),依靠復雜挖掘分析方法,進行知識發(fā)現(xiàn)與預測、支持決策分析和政策制定的研究與應(yīng)用,致力于提供理論指導、技術(shù)支持和最佳實踐。
《數(shù)據(jù)分析與知識發(fā)現(xiàn)》欄目設(shè)置
數(shù)學圖書館、知識組織與知識管理、情報分析與研究、應(yīng)用實踐、動態(tài)、特邀專欄、金融證券管理、企業(yè)信息管理技術(shù)
《數(shù)據(jù)分析與知識發(fā)現(xiàn)》雜志榮譽
CSSCI 南大核心期刊(中文社會科學引文索引)(含擴展版)萬方收錄(中)上海圖書館館藏國家圖書館館藏知網(wǎng)收錄(中)維普收錄(中)中國期刊全文數(shù)據(jù)庫(CJFD)中國核心期刊遴選數(shù)據(jù)庫
2018年《數(shù)據(jù)分析與知識發(fā)現(xiàn)》雜志08期投稿論文目錄:
基于t-SNE降維的科學基金資助項目可視化方法研究陳挺;李國鵬;王小梅;
基于BRFSS數(shù)據(jù)庫應(yīng)用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建兒童哮喘預測模型馬曉宇;張晗;趙玉虹;
新一代知識問答平臺中提問者付費意愿的影響因素探究趙宇翔;劉周穎;宋士杰;
基于預警平臺大數(shù)據(jù)的事件旅游客流時空分布研究王玲;代前進;吳曉雋;
面向微博短文本分類的文本向量化方法比較研究李心蕾;王昊;劉小敏;鄧三鴻;
基于LDA和AdaBoost多特征組合的微博情感分析曾子明;楊倩雯;
基于領(lǐng)域本體的產(chǎn)品網(wǎng)絡(luò)口碑信息多層次細粒度情感挖掘何有世;何述芳;
跨設(shè)備搜索中設(shè)備轉(zhuǎn)移前后查詢式語義變化研究吳丹;陸柳杏;
等待感知對于移動信息產(chǎn)品用戶滿意度的影響研究——以數(shù)字小說書架為例馬艷陽;劉玉磊;徐伯初;支錦亦;
收錄論文:面向微博短文本分類的文本向量化方法比較研究
【摘要】:【目的】利用Word2Vec和Sent2Vec算法生成新浪微博的文本的向量化表示形式,以期在文本分類時獲得較低的計算成本和較高的分類效果。【方法】使用文本中詞的0-1矩陣進行分類,將分類效果作為基準線;采用Word2Vec算法生成詞向量并用不同方式合成句子的向量表示,進行文本分類,并與基準線進行對比;利用Sent2Vec算法直接生成句子向量進行分類,綜合評價3種方法的優(yōu)缺點。【結(jié)果】研究顯示使用Word2Vec算法和Sent2Vec算法能夠極大程度上壓縮文本特征,對比于使用所有3萬多個詞作為特征,Word2Vec算法和Sent2Vec算法將特征數(shù)壓縮在1 000以內(nèi)。在分類準確率方面,Word2Vec算法的分類準確率比基準線低約3%,準確率為75.14%。Sent2Vec算法的分類效果遠不如其他兩種方法,準確率只有63.08%。【局限】由于語料有限,Word2Vec算法在計算詞向量時可能缺少足夠的語義信息,導致詞向量的準確性不高,而Sent2Vec算法在中文文本語境下生成句向量的分類結(jié)果較差。【結(jié)論】Word2Vec算法更適用大規(guī)模語料文本分類,在文本量較少時應(yīng)使用詞為特征分類。
數(shù)據(jù)分析與知識發(fā)現(xiàn)最新期刊目錄
基于實體關(guān)系協(xié)同推理的零樣本關(guān)系抽取模型————作者:謝威;夏鴻斌;劉淵;
摘要:[目的]運用深度學習與對比學習方法解決目前零樣本關(guān)系抽取任務(wù)中完整實體信息與關(guān)系信息交互不夠充分的問題。[方法]提出了一種基于對比學習的聯(lián)合實體關(guān)系信息的零樣本關(guān)系抽取模型(JCL)。首先,使用數(shù)據(jù)增強技術(shù)對原始的輸入文本進行處理,增加模型得到的有效信息。其次,通過增強交叉注意力模塊將實體對深度融合與關(guān)系聯(lián)合處理,提取實體與實體間的交互信息和實體與關(guān)系語義間的交互信息,放大不同關(guān)系在嵌入空間內(nèi)的細...
跨學科術(shù)語語義差異現(xiàn)象研究————作者:姚元璋;徐健;
摘要:[目的]分析跨學科領(lǐng)域的術(shù)語詞在不同學科間存在的語義差異現(xiàn)象,挖掘語義差異現(xiàn)象的原因。[方法]使用預訓練深度學習模型實現(xiàn)自動化地識別和量化術(shù)語的語義差異,設(shè)計構(gòu)建語義差異程度指標定量衡量語義差異程度,并對術(shù)語所涉及學科進行共現(xiàn)分析。[結(jié)果]基于預訓練模型的語義差異現(xiàn)象識別準確率達到0.8193,所構(gòu)建度量指標能夠?qū)φZ義差異進行有效量化。[局限]研究局限于中文術(shù)語的語義差異,選取術(shù)語學科跨度范圍有限...
基于交互式語義增強的中文文檔級事件抽取模型研究————作者:張雙寶;成全;曾艷;
摘要:[目的]為充分挖掘中文文檔之間的語義關(guān)聯(lián)信息,實現(xiàn)基于交互式語義增強的文檔級事件抽取效果的提升。[方法]本研究提出了一種交互式語義增強的中文文檔級事件抽取模型CSDEE,利用注意力機制構(gòu)建跨文檔的交互式語義網(wǎng)絡(luò),增強實體識別性能,再經(jīng)由文檔編碼與事件抽取信息解碼完成事件抽取任務(wù)。[結(jié)果]實驗結(jié)果表明,CSDEE模型在事件抽取的精確率、召回率和F1值上分別達到80.7%、84.1%和82.3%,優(yōu)于...
面向美國國會聽證會的中國科技安全風險智能化識別——基于大語言模型等技術(shù)————作者:鄧航宇;唐川;蒲云強;敖麗娟;王婉婧;
摘要:[目的]針對美國國會聽證會文本數(shù)量大、涉及范圍廣、口語化表達多等特點,本文提出一個智能化識別中國科技安全風險的方法流程。[方法]本研究從聽證會數(shù)據(jù)特征與情報分析人員實際需求出發(fā),利用大語言模型等技術(shù)實現(xiàn)文本過濾、摘要生成以及智能問答等模塊并將其有機結(jié)合在一起,從而達成高質(zhì)量的智能化識別。[結(jié)果]本研究以第118屆國會聽證會文本為對象驗證關(guān)鍵模塊的有效性。文本過濾的F1值、摘要生成的ROUGE-Ls...
基于大語言模型的政策知識庫構(gòu)建與政策比較研究——以惠企政策為例————作者:段永康;趙廣宇;耿騫;曹涵維;靳健;
摘要:[目的]現(xiàn)有政策分析方法依賴大量人工標注和對齊比較,導致效率低下且易出錯。本研究旨在通過構(gòu)建結(jié)構(gòu)化政策知識庫,提升政策信息檢索效率,實現(xiàn)政策智能分析與對比,為政策制定提供精準決策支持。[方法]本研究以惠企政策為例,提出了一種基于大語言模型的框架,用于高效比較相關(guān)政策。該框架包括以下步驟:1)知識庫構(gòu)建;2)檢索與存儲;3)答案生成。[結(jié)果]通過對國家、北京、上海、深圳四地惠企政策數(shù)據(jù)集驗證,本文提...
基于重疊社區(qū)的謠言抑制最大化研究————作者:徐夢瑤;孫斌;江濤;崔家豪;
摘要:[目的]針對謠言抑制中對節(jié)點位置與社區(qū)重疊特性考慮不足的問題,提出一種謠言抑制框架RSM-OC。[方法]該框架創(chuàng)新地提出使用信任中心值來精準識別關(guān)鍵節(jié)點,結(jié)合重疊節(jié)點構(gòu)成候選種子集,最后利用遺傳算法優(yōu)化正種子節(jié)點集,并采用單向狀態(tài)轉(zhuǎn)換的線性閾值模型模擬謠言與真相的博弈。[結(jié)果]在四個真實數(shù)據(jù)集上的實驗顯示,RSM-OC方法相較于基線算法的謠言抑制率平均提升23.3%,真相傳播范圍平均擴大兩倍,特別...
考慮樣本語義特征與類簇結(jié)構(gòu)特征的IDCCM文本深度聚類方法研究————作者:李婕;張智雄;
摘要:[目的]深度綜合關(guān)聯(lián)挖掘圖像聚類方法DCCM局限于基于樣本語義特征進行聚類,無法充分利用類簇結(jié)構(gòu)特征中蘊含的具有高判別性的類間結(jié)構(gòu)關(guān)系,制約了DCCM聚類性能的進一步提升。 [方法]本文提出融合類簇結(jié)構(gòu)特征的改進模型Improved-DCCM。首先,以DCCM作為基礎(chǔ)聚類模型,引入基于高斯分布的文本數(shù)據(jù)增強策略,繼承DCCM的樣本語義特征挖掘能力。在此基礎(chǔ)上,通過樣本變量與類簇變量之間的互信息損...
生成式AI對話中的提示詞策略有效性探究————作者:周潔;王東毅;代沁泉;夏蘇迪;
摘要:[目的]本研究旨在探索普適的生成式AI有效提示詞策略,以提升用戶的交互技能和優(yōu)化使用體驗。[方法]采用Q方法,邀請用戶根據(jù)其在通用場景、跨任務(wù)及跨模型的生成式AI使用經(jīng)驗,對不同提示詞策略的有效性進行排序,從而識別出具有普適性的有效提示詞策略類型。[結(jié)果]研究發(fā)現(xiàn),最有效的提示詞策略包括明確問題、明確目標和提供背景信息。普適性有效提示詞策略可分為三類:明確需求與精確指引型、清晰解釋與邏輯排序型、拆...
基于可解釋自適應(yīng)加權(quán)Stacking集成學習的電影IP衍生品開發(fā)效果預測————作者:倪淵;李翔宇;張健;董飛星;
摘要:[目的]構(gòu)建可解釋集成學習模型,為預測電影IP衍生品的開發(fā)效果提供新的決策方式。 [方法]基于價值鏈理論解析電影IP衍生品開發(fā)過程,構(gòu)建預測指標體系。基于KLLB模型對影響因素進行提取篩選、構(gòu)建預測標簽。提出基于AWStacking的開發(fā)效果預測模型。 [結(jié)果]以XGBoost、CatBoost、RF為基學習器,LR為元學習器的AWStacking算法預測效果最好,宏平均精確率為0.8699,...
基于多源數(shù)據(jù)間主題時序擴散網(wǎng)絡(luò)的研究前沿探測方法研究————作者:李廣;吳新年;寧寶英;
摘要:[目的] 設(shè)計基于多源數(shù)據(jù)間主題時序擴散網(wǎng)絡(luò)模型,進行動態(tài)計量數(shù)據(jù)源權(quán)重的研究前沿探測。 [方法] 通過分析前沿主題的時間、擴散和網(wǎng)絡(luò)特征,提出基于主題時序擴散網(wǎng)絡(luò)的研究前沿探測方法體系、指標體系和立體判別坐標圖,最后在人工智能領(lǐng)域進行實證分析。 [結(jié)果] 動態(tài)計量出多源數(shù)據(jù)權(quán)重(戰(zhàn)略規(guī)劃0.301、科技報告0.234、基金項目0.124、專利文獻0.122、會議論文0.113、期刊論文0.105...
基于時空圖結(jié)構(gòu)學習與路線特征增強的行程時間預測研究————作者:潘曉;董慧;陳曉;
摘要:[目的]針對目前多任務(wù)行程時間預測研究中,存在的刻畫路段波及效應(yīng)影響范圍的靈活性不足,以及在標注數(shù)據(jù)受限情況下模型學習能力較差的問題,提出一種基于時空圖結(jié)構(gòu)學習與路線特征增強的行程時間預測方法。[方法]該方法首先利用自適應(yīng)機制初始化基礎(chǔ)的時空圖結(jié)構(gòu),并構(gòu)建基于Encoder-only的學習組件,靈活且深入地捕捉全域路網(wǎng)范圍內(nèi)路段間的時空交互依賴關(guān)系,從而生成高質(zhì)量的波及效應(yīng)時空圖及相應(yīng)的時空特征表...
基于Rank一致性與假設(shè)檢驗方法的專利語義相似度測度效果評價方法及其應(yīng)用————作者:周健;呂璐成;李佳政;趙亞娟;
摘要:【目的】構(gòu)建專利語義相似度測度效果量化評價方法,實現(xiàn)多種專利語義相似度測度方法的客觀評價。【方法】基于同一分類層級下專利語義相似度更高的思想,兼顧時間與技術(shù)領(lǐng)域因素自動構(gòu)造測度效果評價數(shù)據(jù)集,設(shè)計Rank一致性指標指標和假設(shè)檢驗方法來構(gòu)建針對不同向量化模型的專利語義相似度測度效果評價方法,并構(gòu)建中文和英文專利數(shù)據(jù)集進行評價方法的實證。【結(jié)果】本文選擇基于L1距離的Rank一致性指標與U檢驗進行了實...
基于RF-ISSA-SVM和SHAP的疾病誘因可解釋性模型—以肥胖癥為例————作者:馬捷;孫文晶;郝志遠;
摘要:[目的]本研究旨在構(gòu)建具有可解釋性的高質(zhì)量疾病預測模型,通過識別影響疾病形成的關(guān)鍵誘因,并進一步分析誘因?qū)τ诩膊〉淖饔梅绞剑瑥亩鵀檩o助診斷和精準醫(yī)療賦能助力。 [方法]以肥胖癥為研究對象,首先,利用隨機森林模型在疾病數(shù)據(jù)的多維特征中篩選出最具代表性的特征子集;其次,通過構(gòu)建增強型麻雀搜索算法實現(xiàn)支持向量機核參數(shù)與懲罰系數(shù)的自適應(yīng)獲取;然后,同步應(yīng)用優(yōu)化后的支持向量機模型對數(shù)據(jù)樣本進行預測分析,并...
科學數(shù)據(jù)推薦研究綜述————作者:張博睿;楊寧;張鑫;文奕;
摘要:[目的]總結(jié)國內(nèi)外科學數(shù)據(jù)推薦的研究現(xiàn)狀,為促進科學數(shù)據(jù)共享研究提供理論基礎(chǔ)。 [文獻范圍]在CNKI、WOS、Google Scholar中使用“科學數(shù)據(jù)推薦”、“科學數(shù)據(jù)集推薦”、“Scientific data recommendation”、“Scientific dataset recommendation”等關(guān)鍵詞進行檢索,并結(jié)合主題篩選和追溯法,篩選出71篇代表性文獻。 [方法]基于...
專利策略視角下基于深度學習的專利商業(yè)化潛力預測方法研究————作者:向姝璇;毛進;李綱;
摘要:[目的]就現(xiàn)有方法替代指標選取、特征體系構(gòu)建、模型結(jié)構(gòu)設(shè)計上對專利商業(yè)化潛力與專利策略關(guān)聯(lián)利用不足的問題提出一個新的專利商業(yè)化潛力預測方法。[方法]將專利實際維持時間是否超過設(shè)定閾值作為判斷商業(yè)化潛力的標準,提出由特征處理模塊與多任務(wù)并行預測模塊構(gòu)成的LSTM+MTNN模型。特征處理模塊拼接數(shù)值特征與Bert+SimCSE及LSTM模型生成的文本連續(xù)特征形成多任務(wù)并行預測模塊的輸入。多任務(wù)并行(M...
多維細粒度政策知識圖譜構(gòu)建方法————作者:趙雅潔;馮凌子;袁軍鵬;王立學;
摘要:[目的]政策蘊含豐富的信息資源,加強政策知識圖譜頂層設(shè)計,構(gòu)建適配領(lǐng)域特性的通用政策知識圖譜,可將碎片化政策信息進行高效融合、共享和利用。[方法]運用解構(gòu)主義觀點,融合對齊多理論與政策要素定位,實現(xiàn)多維度政策知識表示,形成模式層;結(jié)合網(wǎng)絡(luò)獲取、索引匹配、全文解析、實體識別與文本分類模型,設(shè)計細粒度知識要素抽取方法,獲取數(shù)據(jù)層;利用Neo4j圖數(shù)據(jù)庫實現(xiàn)知識存儲,可視化形成知識圖譜。[結(jié)果]最終構(gòu)建...
關(guān)鍵核心技術(shù)識別的研究進展————作者:仵軒;李廣建;潘佳立;
摘要:【目的】對關(guān)鍵核心技術(shù)識別相關(guān)成果進行系統(tǒng)綜述,厘清其研究重點與發(fā)展脈絡(luò),以期為后續(xù)研究提供參考。【文獻范圍】基于關(guān)鍵核心技術(shù)的系統(tǒng)分析制定檢索式,在Web of Science和CNKI數(shù)據(jù)庫中進行文獻檢索,獲取661篇論文進行定量分析,經(jīng)人工篩選得到60篇代表性文獻進行綜述。【方法】首先,歸納關(guān)鍵核心技術(shù)的概念特點及檢索策略以明晰綜述范圍;其次,分析關(guān)鍵核心技術(shù)的特征體系及識別標準以厘清研究思...
用于隱私政策合規(guī)性分析的知識融入提示學習方法————作者:李非燕;曹詩權(quán);蘇宇;
摘要:【目的】在數(shù)字化轉(zhuǎn)型和移動互聯(lián)網(wǎng)快速發(fā)展的背景下,隱私政策合規(guī)性分析已成為關(guān)鍵議題。以往的自動化分析方法主要關(guān)注隱私政策的完整性,忽略了分析隱私政策的一致性。同時,這些方法需要大量的標注樣本,限制了其使用場景。本文致力于提出一種兼顧完整性和一致性、且不需要標注樣本的自動化隱私政策合規(guī)性分析方法。【方法】首先,根據(jù)《個人信息保護法》等相關(guān)法規(guī)標準,從完整性和一致性兩個角度構(gòu)建了隱私政策合規(guī)性評價體系...
融合時態(tài)信息和圖結(jié)構(gòu)動態(tài)演化的知識圖譜補全模型研究————作者:張強;高穎;任豆豆;馬志遠;周洪;陶皖;
摘要:[目的]知識圖譜內(nèi)蘊含海量的元組數(shù)據(jù),且蘊含時態(tài)信息的知識圖譜可將隨時間變化的事實進行有效保留及使用。探究時態(tài)知識圖譜補全任務(wù)對圖譜內(nèi)動態(tài)數(shù)據(jù)的完備性及其下游應(yīng)用的發(fā)展有著重要意義。[方法]針對當前多數(shù)方法將時態(tài)知識圖譜視為離散數(shù)據(jù),無法準確反應(yīng)事物與時間信息的關(guān)系,忽略了局部圖結(jié)構(gòu)演化與形成過程,以及全局圖結(jié)構(gòu)演化所代表的圖譜連續(xù)形成模式。本文設(shè)計了如下流程:針對局部結(jié)構(gòu)捕獲,提出基于表示強化的...
基于集成學習與半監(jiān)督學習的突發(fā)事件識別研究————作者:田甜俊子;朱學芳;
摘要:[目的]緩解應(yīng)急管理中高領(lǐng)域適配性標注數(shù)據(jù)稀缺的現(xiàn)狀,提高事件識別效果。[方法]研究基于集成學習與半監(jiān)督學習提出一個持續(xù)自動標注學習機制,并結(jié)合實體識別、共現(xiàn)網(wǎng)絡(luò)分析、情感分析等技術(shù)實現(xiàn)一個突發(fā)事件識別系統(tǒng)。[結(jié)果]持續(xù)自動標注學習機制能夠使用全量數(shù)據(jù)的20%~35%達到與全量數(shù)據(jù)相當甚至更好的識別效果。[局限]當前研究收集的數(shù)據(jù)來源于中國新聞網(wǎng)單一網(wǎng)站,且注重對已有情報的挖掘,在豐富數(shù)據(jù)來源、應(yīng)...
相關(guān)科技期刊推薦
核心期刊推薦
copyright © m.anghan.cn, All Rights Reserved
搜論文知識網(wǎng) 冀ICP備15021333號-3