三、數(shù)據分析名詞解釋A聚合(Aggregation):搜索、合并、顯示數(shù)據的過程。算法(Algorithms):可以完成某種數(shù)據分析的數(shù)學公式。分析法(Analy
A
聚合(Aggregation):搜索、合并、顯示數(shù)據的過程。
算法(Algorithms):可以完成某種數(shù)據分析的數(shù)學公式。
分析法(Analytics):用于發(fā)現(xiàn)數(shù)據的內在涵義。
異常檢測(Anomaly detection):在數(shù)據集中搜索與預期模式或行為不匹配的數(shù)據項。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers,exceptions,surprises,contaminants.他們通??商峁╆P鍵的可執(zhí)行信息。
匿名化(Anonymization):使數(shù)據匿名,即移除所有與個人隱私相關的數(shù)據。
分析型客戶關系管理(Analytical CRM/aCRM):用于支持決策,改善公司跟顧客的互動或提高互動的價值。針對有關顧客的知識,和如何與顧客有效接觸的知識,進行收集、分析、應用。
B
行為分析法(Behavioural Analytics):這種分析法是根據用戶的行為如“怎么做”,“為什么這么做”,以及“做了什么”來得出結論,而不是僅僅針對人物和時間的一門分析學科,它著眼于數(shù)據中的人性化模式。
批量處理(Batch processing):盡管從大型計算機時代開始,批量處理就已經出現(xiàn)了。由于處理大型數(shù)據集,批量處理對大數(shù)據具有額外的意義。批量數(shù)據處理是處理一段時間內收集的大量數(shù)據的有效方式。
商業(yè)智能(Business Intelligence): 分析數(shù)據、展示信息以幫助企業(yè)的執(zhí)行者、管理層、其他人員進行更有根據的商業(yè)決策的應用、設施、工具、過程。
C
分類分析(Classification analysis):從數(shù)據中獲得重要的相關性信息的系統(tǒng)化過程;這類數(shù)據也被稱為元數(shù)據(meta data),是描述數(shù)據的數(shù)據。
云計算(Cloud computing):構建在網絡上的分布式計算系統(tǒng),數(shù)據是存儲于機房外的(即云端)。
集群計算(Cluster computing):這是一個使用多個服務器集合資源的“集群”的計算術語。要想更技術性的話,就會涉及到節(jié)點,集群管理層,負載平衡和并行處理等概念。
聚類分析(Clustering analysis):它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在于分析數(shù)據間的差異和相似性。
冷數(shù)據存儲(Cold data storage):在低功耗服務器上存儲那些幾乎不被使用的舊數(shù)據。但這些數(shù)據檢索起來將會很耗時。
對比分析(Comparative analysis):在非常大的數(shù)據集中進行模式匹配時,進行一步步的對比和計算過程得到分析結果。
相關性分析(Correlation analysis):是一種數(shù)據分析方法,用于分析變量之間是否存在正相關,或者負相關。
D
儀表板(Dashboard):使用算法分析數(shù)據,并將結果用圖表方式顯示于儀表板中。
數(shù)據聚合工具(Data aggregation tools):將分散于眾多數(shù)據源的數(shù)據轉化成一個全新數(shù)據源的過程。
數(shù)據分析師(Data analyst):從事數(shù)據分析、建模、清理、處理的專業(yè)人員。
數(shù)據庫(Database):一個以某種特定的技術來存儲數(shù)據集合的倉庫。
數(shù)據湖(Data lake):數(shù)據湖是原始格式的企業(yè)級數(shù)據的大型存儲庫。與此同時我們可以涉及數(shù)據倉庫,它在概念上是相似的,也是企業(yè)級數(shù)據的存儲庫,但在清理、與其他來源集成之后是以結構化格式。數(shù)據倉庫通常用于常規(guī)數(shù)據(但不是專有的)。數(shù)據湖使得訪問企業(yè)級數(shù)據更加容易,你需要明確你要尋找什么,以及如何處理它并明智地試用它。
暗數(shù)據(Dark Data):基本上指的是,由企業(yè)收集和處理的,但并不用于任何意義性目的的數(shù)據,因此它是“暗”的,可能永遠不會被分析。它可以是社交網絡反饋,呼叫中心日志,會議筆記等等。有很多人估計,所有企業(yè)數(shù)據中的 60-90% 可能是“暗數(shù)據”,但誰又真正知道呢?
數(shù)據挖掘(Data mining):數(shù)據挖掘是通過使用復雜的模式識別技術,從而找到有意義的模式,并得出大量數(shù)據的見解。
數(shù)據中心(Data centre):一個實體地點,放置了用來存儲數(shù)據的服務器。
數(shù)據清洗(Data cleansing):對數(shù)據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數(shù)據一致性。
數(shù)據質量(Data Quality):有關確保數(shù)據可靠性和實用價值的過程和技術。高質量的數(shù)據應該忠實體現(xiàn)其背后的事務進程,并能滿足在運營、決策、規(guī)劃中的預期用途。
數(shù)據訂閱(Data feed):一種數(shù)據流,例如Twitter訂閱和RSS。
數(shù)據集市(Data Mart):進行數(shù)據集買賣的在線交易場所。
數(shù)據建模(Data modelling):使用數(shù)據建模技術來分析數(shù)據對象,以此洞悉數(shù)據的內在涵義。
數(shù)據集(Data set):大量數(shù)據的集合。
數(shù)據虛擬化(Data virtualization):數(shù)據整合的過程,以此獲得更多的數(shù)據信息,這個過程通常會引入其他技術,例如數(shù)據庫,應用程序,文件系統(tǒng),網頁技術,大數(shù)據技術等等。
判別分析(Discriminant analysis):將數(shù)據分類,按不同的分類方式,可將數(shù)據分配到不同的群組,類別或者目錄。是一種統(tǒng)計分析法,可以對數(shù)據中某些群組或集群的已知信息進行分析,并從中獲取分類規(guī)則。
分布式文件系統(tǒng)(Distributed File System):提供簡化的,高可用的方式來存儲、分析、處理數(shù)據的系統(tǒng)。
文件存貯數(shù)據庫(Document Store Databases):又稱為文檔數(shù)據庫,為存儲、管理、恢復文檔數(shù)據而專門設計的數(shù)據庫,這類文檔數(shù)據也稱為半結構化數(shù)據。
E
探索性分析(Exploratory analysis):在沒有標準的流程或方法的情況下從數(shù)據中發(fā)掘模式。是一種發(fā)掘數(shù)據和數(shù)據集主要特性的一種方法。
提取-轉換-加載(ETL:Extract,Transform and Load):是一種用于數(shù)據庫或者數(shù)據倉庫的處理過程,天善學院有國內唯一的最全的ETL學習課程。即從各種不同的數(shù)據源提取(E)數(shù)據,并轉換(T)成能滿足業(yè)務需要的數(shù)據,最后將其加載(L)到數(shù)據庫。
G
游戲化(Gamification):在其他非游戲領域中運用游戲的思維和機制,這種方法可以以一種十分友好的方式進行數(shù)據的創(chuàng)建和偵測,非常有效。
圖形數(shù)據庫(Graph Databases):運用圖形結構(例如,一組有限的有序對,或者某種實體)來存儲數(shù)據,這種圖形存儲結構包括邊緣、屬性和節(jié)點。它提供了相鄰節(jié)點間的自由索引功能,也就是說,數(shù)據庫中每個元素間都與其他相鄰元素直接關聯(lián)。
網格計算(Grid computing):將許多分布在不同地點的計算機連接在一起,用以處理某個特定問題,通常是通過云將計算機相連在一起。
H
Hadoop:一個開源的分布式系統(tǒng)基礎框架,可用于開發(fā)分布式程序,進行大數(shù)據的運算與存儲。
Hadoop數(shù)據庫(HBase):一個開源的、非關系型、分布式數(shù)據庫,與Hadoop框架共同使用。
HDFS:Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System);是一個被設計成適合運行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。
高性能計算(HPC:High-Performance-Computing):使用超級計算機來解決極其復雜的計算問題。
I
內存數(shù)據庫(IMDB:In-memory):一種數(shù)據庫管理系統(tǒng),與普通數(shù)據庫管理系統(tǒng)不同之處在于,它用主存來存儲數(shù)據,而非硬盤。其特點在于能高速地進行數(shù)據的處理和存取。
物聯(lián)網(IoT):最新的流行語是物聯(lián)網(IOT)。IOT通過互聯(lián)網將嵌入式對象(傳感器,可穿戴設備,汽車,冰箱等)中的計算設備進行互連,并且能夠發(fā)送以及接收數(shù)據。IOT生成大量數(shù)據,提供了大量大數(shù)據分析的機會。
K
鍵值數(shù)據庫(Key-Value Databases):數(shù)據的存儲方式是使用一個特定的鍵,指向一個特定的數(shù)據記錄,這種方式使得數(shù)據的查找更加方便快捷。鍵值數(shù)據庫中所存的數(shù)據通常為編程語言中基本數(shù)據類型的數(shù)據。
L
負載均衡(Load balancing):將工作量分配到多臺電腦或服務器上,以獲得最優(yōu)結果和最大的系統(tǒng)利用率。
位置信息(Location data):GPS信息,即地理位置信息。
日志文件(Log file):由計算機系統(tǒng)自動生成的文件,記錄系統(tǒng)的運行過程。
M
M2M數(shù)據(Machine 2 Machine data):兩臺或多臺機器間交流與傳輸?shù)膬热荨?/p>
機器數(shù)據(Machine data):由傳感器或算法在機器上產生的數(shù)據。
機器學習(Machine learning):人工智能的一部分,指的是機器能夠從它們所完成的任務中進行自我學習,通過長期的累積實現(xiàn)自我改進。
Map Reduce:是處理大規(guī)模數(shù)據的一種軟件框架(Map:映射,Reduce:歸納)。
大規(guī)模并行處理(MPP:Massivel yParallel Processing):同時使用多個處理器(或多臺計算機)處理同一個計算任務。
元數(shù)據(Meta data):被稱為描述數(shù)據的數(shù)據,即描述數(shù)據數(shù)據屬性(數(shù)據是什么)的信息。
多維數(shù)據庫(Multi-Dimensional Databases):用于優(yōu)化數(shù)據聯(lián)機分析處理(OLAP)程序,優(yōu)化數(shù)據倉庫的一種數(shù)據庫。
多值數(shù)據庫(MultiValue Databases):是一種非關系型數(shù)據庫(NoSQL),一種特殊的多維數(shù)據庫:能處理3個維度的數(shù)據。主要針對非常長的字符串,能夠完美地處理HTML和XML中的字串。
N
自然語言處理(Natural Language Processing):是計算機科學的一個分支領域,它研究如何實現(xiàn)計算機與人類語言之間的交互。
網絡分析(Network analysis):分析網絡或圖論中節(jié)點間的關系,即分析網絡中節(jié)點間的連接和強度關系。
NewSQL:一個優(yōu)雅的、定義良好的數(shù)據庫系統(tǒng),比SQL更易學習和使用,比NoSQL更晚提出的新型數(shù)據庫。
NoSQL:顧名思義,就是“不使用SQL”的數(shù)據庫。這類數(shù)據庫泛指傳統(tǒng)關系型數(shù)據庫以外的其他類型的數(shù)據庫。這類數(shù)據庫有更強的一致性,能處理超大規(guī)模和高并發(fā)的數(shù)據。
O
對象數(shù)據庫(Object Databases):(也稱為面象對象數(shù)據庫)以對象的形式存儲數(shù)據,用于面向對象編程。它不同于關系型數(shù)據庫和圖形數(shù)據庫,大部分對象數(shù)據庫都提供一種查詢語言,允許使用聲明式編程(declarative programming)訪問對象。
基于對象圖像分析(Object-based Image Analysis):數(shù)字圖像分析方法是對每一個像素的數(shù)據進行分析,而基于對象的圖像分析方法則只分析相關像素的數(shù)據,這些相關像素被稱為對象或圖像對象。
操作型數(shù)據庫(Operational Databases):這類數(shù)據庫可以完成一個組織機構的常規(guī)操作,對商業(yè)運營非常重要,一般使用在線事務處理,允許用戶訪問、收集、檢索公司內部的具體信息。
優(yōu)化分析(Optimization analysis):在產品設計周期依靠算法來實現(xiàn)的優(yōu)化過程,在這一過程中,公司可以設計各種各樣的產品并測試這些產品是否滿足預設值。
本體論(Ontology):表示知識本體,用于定義一個領域中的概念集及概念之間的關系的一種哲學思想。(譯者注:數(shù)據被提高到哲學的高度,被賦予了世界本體的意義,成為一個獨立的客觀數(shù)據世界)
異常值檢測(Outlier detection):異常值是指嚴重偏離一個數(shù)據集或一個數(shù)據組合總平均值的對象,該對象與數(shù)據集中的其他它相去甚遠,因此,異常值的出現(xiàn)意味著系統(tǒng)發(fā)生問題,需要對此另加分析。
聯(lián)機分析處理(On-Line Analytical Processing,OLAP):能讓用戶輕松制作、瀏覽報告的工具,這些報告總結相關數(shù)據,并從多角度分析。
P
模式識別(Pattern Recognition):通過算法來識別數(shù)據中的模式,并對同一數(shù)據源中的新數(shù)據作出預測
平臺即服務(PaaS:Platform-as-a-Service):為云計算解決方案提供所有必需的基礎平臺的一種服務。
預測分析(Predictive analysis):大數(shù)據分析方法中最有價值的一種分析方法,這種方法有助于預測個人未來(近期)的行為,例如某人很可能會買某些商品,可能會訪問某些網站,做某些事情或者產生某種行為。通過使用各種不同的數(shù)據集,例如歷史數(shù)據,事務數(shù)據,社交數(shù)據,或者客戶的個人信息數(shù)據,來識別風險和機遇。
公共數(shù)據(Public data):由公共基金創(chuàng)建的公共信息或公共數(shù)據集。
Q
數(shù)字化自我(Quantified Self):使用應用程序跟蹤用戶一天的一舉一動,從而更好地理解其相關的行為。
R
R:是一種編程語言,在統(tǒng)計計算方面很出色。如果你不知道 R,你就稱不上是數(shù)據科學家。R 是數(shù)據科學中最受歡迎的語言之一。
再識別(Re-identification):將多個數(shù)據集合并在一起,從匿名化的數(shù)據中識別出個人信息。
回歸分析(Regression analysis):確定兩個變量間的依賴關系。這種方法假設兩個變量之間存在單向的因果關系(譯者注:自變量,因變量,二者不可互換)。
實時數(shù)據(Real-time data):指在幾毫秒內被創(chuàng)建、處理、存儲、分析并顯示的數(shù)據。
推薦引擎(Recommendation engine):推薦引擎算法根據用戶之前的購買行為或其他購買行為向用戶推薦某種產品。
路徑分析(Routing analysis):–針對某種運輸方法通過使用多種不同的變量分析從而找到一條最優(yōu)路徑,以達到降低燃料費用,提高效率的目的。
S
半結構化數(shù)據(Semi-structured data):半結構化數(shù)據并不具有結構化數(shù)據嚴格的存儲結構,但它可以使用標簽或其他形式的標記方式以保證數(shù)據的層次結構。
結構化數(shù)據(Structured data):可以組織成行列結構,可識別的數(shù)據。這類數(shù)據通常是一條記錄,或者一個文件,或者是被正確標記過的數(shù)據中的某一個字段,并且可以被精確地定位到。
情感分析(Sentiment Analysis):通過算法分析出人們是如何看待某些話題。
信號分析(Signal analysis):指通過度量隨時間或空間變化的物理量來分析產品的性能。特別是使用傳感器數(shù)據。
相似性搜索(Similarity searches):在數(shù)據庫中查詢最相似的對象,這里所說的數(shù)據對象可以是任意類型的數(shù)據。
仿真分析(Simulation analysis):仿真是指模擬真實環(huán)境中進程或系統(tǒng)的操作。仿真分析可以在仿真時考慮多種不同的變量,確保產品性能達到最優(yōu)。
軟件即服務(SaaS:Software-as-a-Service):基于Web的通過瀏覽器使用的一種應用軟件。
空間分析(Spatial analysis):空間分析法分析地理信息或拓撲信息這類空間數(shù)據,從中得出分布在地理空間中的數(shù)據的模式和規(guī)律。
SQL:在關系型數(shù)據庫中,用于檢索數(shù)據的一種編程語言。
流處理(Stream processing):流處理旨在對有“連續(xù)”要求的實時和流數(shù)據進行處理。結合流分析,即在流內不間斷地計算數(shù)學或統(tǒng)計分析的能力。流處理解決方案旨在對高流量進行實時處理。
T
時序分析(Time series analysis):分析在重復測量時間里獲得的定義良好的數(shù)據。分析的數(shù)據必須是良好定義的,并且要取自相同時間間隔的連續(xù)時間點。
拓撲數(shù)據分析(Topological Data Analysis):拓撲數(shù)據分析主要關注三點:復合數(shù)據模型、集群的識別、以及數(shù)據的統(tǒng)計學意義。
交易數(shù)據(Transactional data):隨時間變化的動態(tài)數(shù)據
透明性(Transparency):–消費者想要知道他們的數(shù)據有什么作用、被作何處理,而組織機構則把這些信息都透明化了。
文本挖掘(Text Mining):對包含自然語言的數(shù)據的分析。對源數(shù)據中詞語和短語進行統(tǒng)計計算,以便用數(shù)學術語表達文本結構,之后用傳統(tǒng)數(shù)據挖掘技術分析文本結構。
U
非結構化數(shù)據(Un-structured data):非結構化數(shù)據一般被認為是大量純文本數(shù)據,其中還可能包含日期,數(shù)字和實例。
V
價值(Value):(譯者注:大數(shù)據4V特點之一)所有可用的數(shù)據,能為組織機構、社會、消費者創(chuàng)造出巨大的價值。這意味著各大企業(yè)及整個產業(yè)都將從大數(shù)據中獲益。
可變性(Variability):也就是說,數(shù)據的含義總是在(快速)變化的。例如,一個詞在相同的推文中可以有完全不同的意思。
多樣(Variety):(譯者注:大數(shù)據4V特點之一)數(shù)據總是以各種不同的形式呈現(xiàn),如結構化數(shù)據,半結構化數(shù)據,非結構化數(shù)據,甚至還有復雜結構化數(shù)據
高速(Velocity):(譯者注:大數(shù)據4V特點之一)在大數(shù)據時代,數(shù)據的創(chuàng)建、存儲、分析、虛擬化都要求被高速處理。
真實性(Veracity):組織機構需要確保數(shù)據的真實性,才能保證數(shù)據分析的正確性。因此,真實性(Veracity)是指數(shù)據的正確性。
可視化(Visualization):只有正確的可視化,原始數(shù)據才可被投入使用。這里的“可視化”并非普通的圖型或餅圖,可視化指是的復雜的圖表,圖表中包含大量的數(shù)據信息,但可以被很容易地理解和閱讀。
大量(Volume):(譯者注:大數(shù)據4V特點之一)指數(shù)據量,范圍從Megabytes至Brontobytes。
W
天氣數(shù)據(Weather data):是一種重要的開放公共數(shù)據來源,如果與其他數(shù)據來源合成在一起,可以為相關組織機構提供深入分析的依據。
網絡挖掘/網絡數(shù)據挖掘(Web Mining / Web Data Mining):使用數(shù)據挖掘技術從互聯(lián)網站點、文檔或服務中自動發(fā)現(xiàn)和提取信息。
X
XML數(shù)據庫(XML Databases):XML數(shù)據庫是一種以XML格式存儲數(shù)據的數(shù)據庫。XML數(shù)據庫通常與面向文檔型數(shù)據庫相關聯(lián),開發(fā)人員可以對XML數(shù)據庫的數(shù)據進行查詢,導出以及按指定的格式序列化。
以上就是數(shù)據分析相關術語的盤點,看完別忘點好看