
按語:上周受邀參加了湖北省公安廳舉辦的公安大數(shù)據(jù)論壇,之前并沒有把上臺演講當(dāng)回多大的事,因為這些年講的也不算少了,說來說去也就那么回事了,所以,就準(zhǔn)備拿過去一篇公開發(fā)表的論文稍微改改,上臺糊著講講也就算了。但是,在臨講的前一天,獲知有很多基層具體干事的兄弟來聽(第二天都要參加一個全省的數(shù)據(jù)管理員培訓(xùn)班),覺得講些大路貨給他們聽有點(diǎn)過意不去,因此就謝絕了晚上的一些應(yīng)酬安排,一個人呆在房間好好的把公安行業(yè)大數(shù)據(jù)這些年的過往想了想,本來按照套路應(yīng)該是先寫個講稿再畫個PPT的,但是因為時間關(guān)系,也算是想有一個新的嘗試吧,就直接做了史上最短的六頁P(yáng)PT(一頁封面,一頁目錄,一頁封底,真正的內(nèi)容只有三頁),第二天講了二十多分鐘吧,反應(yīng)似乎還不錯,近些日子已經(jīng)有幾個兄弟說能不能把講稿共享出來,其實真沒有現(xiàn)成的講稿,只能靠回憶略微整理下。當(dāng)日演講內(nèi)容大致如下:
……非常榮幸有機(jī)會參加這個論壇,并上臺和大家分享我的一些做法和想法。前面已經(jīng)有幾位專家都講了大數(shù)據(jù)的技術(shù),還有一些解決方案,但我今天不想和大家談技術(shù),因為公安大數(shù)據(jù)應(yīng)用,肯定是一些成熟技術(shù)在這一行業(yè)的應(yīng)用,如果需要進(jìn)行底層技術(shù)的革新,就公安行業(yè)目前現(xiàn)狀肯定是玩不了這個,剛剛小艾跟我聊天說了一句很經(jīng)典的話:每一次公安行業(yè)的革新都是起源于技術(shù),寄希望單靠技術(shù)就能夠把工作翻個身,但是,最后的結(jié)果往往也是死于技術(shù),或者說被所謂的技術(shù)給玩死了。因此,所以我們對此一定要很清醒,很冷靜。所以我為今天的演講定了一個題:大數(shù)據(jù)的“冷思考”?為何要說冷思考,因為大數(shù)據(jù)這段時間已經(jīng)熱到了極點(diǎn),但是,炒概念的要遠(yuǎn)遠(yuǎn)多于落地能發(fā)揮實際作用的,因此,我們是不是要冷靜一點(diǎn),看看大數(shù)據(jù)到底能給我們帶來什么?今天主要跟大家交流三個方面的內(nèi)容:
一是對近些年本人參與的所謂的“大數(shù)據(jù)”的實踐進(jìn)行一個簡要回顧;
二是談?wù)勎已劾锏拇髷?shù)據(jù)現(xiàn)狀;
三是針對公安行業(yè)交流一些發(fā)展方向的思考。
首先,回顧一下自己這些年所謂的“大數(shù)據(jù)”歷程。
為什么叫“所謂”,因為我自己心里很清楚,從2011年開始從12億的車輛卡口數(shù)據(jù)中排查“套牌車”,到目前在想用算法來計算某類犯罪的發(fā)展趨勢,所接觸的,所使用的數(shù)據(jù)準(zhǔn)確點(diǎn)講應(yīng)該是“動態(tài)的海量結(jié)構(gòu)化數(shù)據(jù)”。至少跟我心目中“大數(shù)據(jù)”還有很大的差距。為什么要做這樣一個回顧,說白了,怕大家認(rèn)為我是個光說不練的江湖騙子(此處有掌聲)。
第一個案例,套牌車排查。就是在12億的卡口數(shù)據(jù)中找出了三百四十五個車牌,這些車牌符合一個特征,五分鐘之內(nèi)在相距十公里以上的卡口被電子警察都拍到了。這是我第一次用HADOOP來進(jìn)行數(shù)據(jù)預(yù)處理和分析,是在2011年初。
第二個案例,住宿登記。是在2012年的夏天,我忽然想看一看,壞人們登記住旅館有沒有規(guī)律,因此我找來了在押人員數(shù)據(jù),匯聚了大約5個多億的旅館數(shù)據(jù),同樣用了“HADOOP+ORCLE”的套路,發(fā)現(xiàn)有盜竊前科的壞人都喜歡在半夜2點(diǎn)和凌晨六七點(diǎn)去開房,而且是19歲到23歲為主,還更傾向于床位數(shù)在50個以下的中低檔旅館,等等。
第三個案例,是特殊人員的監(jiān)控。同樣是通過車輛軌跡,判斷人員的相應(yīng)狀態(tài),因為這個話題比較敏感,就不詳細(xì)跟大家闡述了。
第四個案例,我把它成為“流竄車”排查,簡單講就是基于存儲在異地的海量數(shù)據(jù),進(jìn)行分布式的交叉比對,目標(biāo)是找出發(fā)案前后1小時在A市活動的車輛,同時在4小時前后該車又在B、C等市活動,如果這些車輛的涉車人員為此類案件前科,那流竄犯罪的概率就相當(dāng)大了。
以上就是前期做的一些工作,其實回顧起來也沒有什么感到很特別值得驕傲的,如果說這些年我們參與大數(shù)據(jù)這項工作還有那么一點(diǎn)點(diǎn)驕傲的話,那就是在這個過程中,包括一些爭論中,我們逐步形成的一些行業(yè)大數(shù)據(jù)應(yīng)用的思路、理念,甚至一些看起來都有點(diǎn)不著邊際的想法。
其次,談?wù)勎已壑械默F(xiàn)狀
本人比較喜歡古詩,最近經(jīng)常和我兒子一起背唐詩,我就用四句古詩來形容一下我們所面臨的現(xiàn)狀:
第一句,天街小雨潤如酥,草色遙看近卻無。這是我用來形容目前的大數(shù)據(jù)的整個大環(huán)境的,“天街”是什么?是京城!京城的小雨非常滋潤對不對,非常美麗,國家出臺的大數(shù)據(jù)發(fā)展綱要,各個部委辦局都很積極,昨天在飛機(jī)上還在拜讀環(huán)保部的大數(shù)據(jù)方案,但是,這些只能遠(yuǎn)觀不能褻玩,落到地面,落到基層,卻只能是“近卻無”,為什么?缺少具體的實施方案,缺少具體的落地案例,應(yīng)用層沒有享受到大數(shù)據(jù)能帶來什么好處,只是聽到一片關(guān)于大數(shù)據(jù)的呼聲。最近微信圈了都在轉(zhuǎn)一篇文章,發(fā)展大數(shù)據(jù)不要一味追求數(shù)據(jù)規(guī)模大,要“應(yīng)用為先”,這是李國杰院士寫的,大家想一想,只要是搞IT,搞軟件的都知道,我們要以應(yīng)用需求為導(dǎo)向,這是個搞軟件最基本常識,但是這個常識現(xiàn)在需要一個院士來呼吁,可想我們的面臨的現(xiàn)狀有多么尷尬。
第二句。白發(fā)三千丈,緣愁似個長。這是我用來形容公安行業(yè)的,三千丈很長很長,詩人用了夸張的手法,公安行業(yè)的數(shù)據(jù)也在用這個手法,經(jīng)??吹揭粋€地市的匯報材料就在說,我們有兩百多億條數(shù)據(jù),甚至可以精確到個位,且不論到底有沒有這么多數(shù)據(jù),你先能不能告訴我這個Oracle 11g的OCP,你是用什么方法把數(shù)據(jù)的條數(shù)最后累加到百億量級的,還是過一段時間加一點(diǎn)來估算估算的(此處有笑聲)。所以,公安行業(yè)的數(shù)據(jù)現(xiàn)狀并不是非常的樂觀,所以我會看到一些有見識的領(lǐng)導(dǎo)在發(fā)愁,號稱是坐在數(shù)據(jù)金礦上,但是心底還是緣愁似個長。
第三句。我本將心向明月,奈何明月照溝渠。這是一句很有意思的詩,念到這首詩我就會想起《天下無賊》的那個橋段。這句是用來形容目前公安行業(yè)的數(shù)據(jù)管理現(xiàn)狀的,我們經(jīng)常講,信息化是三分建設(shè),七分應(yīng)用,十分管理,十二分的數(shù)據(jù)質(zhì)量。這句話就是跟后兩者有關(guān)系,上級管理部門的出發(fā)點(diǎn)肯定都是好的,建系統(tǒng),推應(yīng)用,推不動怎么辦?最有用的一招就是出臺考核辦法,不考核大家不干,但是一考核大家就開始亂干,目前公安機(jī)關(guān)的可信的數(shù)據(jù)有多少,我經(jīng)常會舉起一只手,非??鋸埖恼f,不超過一只手,110報警是真的,這是老百姓打過來的,在押人員是真的,這個作假自己是也要被關(guān)進(jìn)去的,還有多少數(shù)據(jù)時真實的,我們的巡邏盤查數(shù)據(jù)真實嗎?暫住人口數(shù)據(jù)能反應(yīng)真的暫口情況嗎?還有案件數(shù)據(jù)能說明社會面發(fā)案情況嗎?不能!所以說,明月最后大部分都照到溝渠里去了。
第四句,竹外桃花三兩枝,春江水暖鴨先知。前面三句把面臨的形勢說的都很悲觀,第四句要漲漲士氣,在大數(shù)據(jù)應(yīng)用的方向,我們很多地方已經(jīng)開始了積極探索的步伐,像部里的云搜索,還有那個國家啥平臺,包括一些省廳,市局,都已經(jīng)在開始試水大數(shù)據(jù)應(yīng)用,在所有的這些探索中,我最關(guān)心的就是打擊違法犯罪這一方向,群眾看公安,關(guān)鍵看破案,公安信息化,公安大數(shù)據(jù),首要是要解決破案問題,連壞人都不去搞,都搞不定,天天喊互聯(lián)網(wǎng)+有什么用,天天喊為民服務(wù)有什么用,那是本末倒置。所以,從前面我試水的幾個案例看,也是在朝著打擊違法犯罪的方向去發(fā)展,這一切都在表明,公安行業(yè)的大數(shù)據(jù)春天已經(jīng)來臨。但是這個春天不是我們坐等能等來的,需要一批人去思考,去探索,就像劉禹錫那句詩,千淘萬漉雖辛苦,吹盡狂沙始到金……
最后,關(guān)于下一步發(fā)展方向的思考
第一,以應(yīng)用為導(dǎo)向。我們行業(yè)的大數(shù)據(jù)應(yīng)用不是搞底層研發(fā),是要解決實際問題,大數(shù)據(jù)在公安行業(yè)現(xiàn)實的應(yīng)用場景到底有哪些,這是我們要好好思考的問題。我結(jié)合前期實踐認(rèn)為,至少目前三個方向是可行的,一是規(guī)律總結(jié),二是人物刻畫,三是趨勢預(yù)判。這個分類可能不是很合理,可能是有交叉的地方,但是,這三個方面是具備實踐條件的(具體案例略)
第二,關(guān)于數(shù)據(jù)以及來源問題。這個問題非常關(guān)鍵,大數(shù)據(jù)沒有可信的數(shù)據(jù)支撐,就會精確誤導(dǎo),靠考核,靠層級壓迫,靠搞大規(guī)模會戰(zhàn)去搞數(shù)據(jù),顯然是不能滿足大數(shù)據(jù)應(yīng)用的需要的,目前我們具備大數(shù)據(jù)的特征的數(shù)據(jù)有:
1、“人車物”軌跡,時間、空間與實體形成動態(tài)軌跡,是一項很好的大數(shù)據(jù)源頭;
2、行為日志,這個與系統(tǒng)日志,數(shù)據(jù)庫日志有相同之處,但又不完全相同,舉個例子,我最近做了個基于手機(jī)的考試系統(tǒng),十道題,是可以自己在家做的,因此所有人交上來都是滿分,但是,我記錄了兩道題之間的時間,結(jié)果我發(fā)現(xiàn)第三題有80%的人都等待了一分鐘以上,而其余的題點(diǎn)的都很快,雖然所有的人第三題結(jié)果都是對的,但是我告訴負(fù)責(zé)培訓(xùn)的同志,第三題是薄弱環(huán)節(jié),很多人需要強(qiáng)化這方面的知識培訓(xùn)。這就是行為日志的作用。
3、音視頻,這個就不用多說了。
4、傳感器,沒有傳感器的大規(guī)模應(yīng)用,就不要談啥大數(shù)據(jù),這是我很久以前就說的觀點(diǎn)。
5、社會民眾參與。這一點(diǎn)很多人都沒有覺醒過來,公安行業(yè)玩大數(shù)據(jù),不能光靠自己的力量,要學(xué)會打人民群眾的汪洋大海戰(zhàn)爭,找到社會公眾、包括其他單位部門的利益驅(qū)動點(diǎn),發(fā)動大家來參與,圍繞數(shù)據(jù)做文章,特別是學(xué)會跨領(lǐng)域使用數(shù)據(jù)。(幾個案例略),關(guān)于大數(shù)據(jù)應(yīng)用的數(shù)據(jù)來源問題,我還是用一句詩來形容吧,大數(shù)據(jù)背景下的數(shù)據(jù),都是那種“隨風(fēng)潛入夜,潤物細(xì)無聲”
第三,關(guān)于智庫的共建與共享。找公眾過程中,大家都會產(chǎn)生一些創(chuàng)意,我們要把這些創(chuàng)意集中以來建庫管理,要進(jìn)行歸類、分析、優(yōu)化、整合,最終形成大數(shù)據(jù)應(yīng)用的一個知識庫(智庫),這個知識庫是開放式的,是可以去共享,大家可以去評價,去推薦的。(案例略)
第四、關(guān)于工具手段支撐。最關(guān)鍵的幾個,簡單算法在公安行業(yè)的落地,所謂的大數(shù)據(jù)應(yīng)用一定是無數(shù)的數(shù)據(jù)加簡單的算法,這是一個目前已經(jīng)證實的可行套路,大數(shù)據(jù)應(yīng)用在業(yè)務(wù)邏輯層面不要去想的太復(fù)雜。基于大數(shù)據(jù)的建模工具,這個就不多說了,我也一直在搞這個事情,其中重點(diǎn)包括數(shù)據(jù)資源組織與預(yù)處理、分布式計算、流式計算等內(nèi)容。還有就是模型的標(biāo)準(zhǔn)化,這個也不是一句話兩句話能講清楚的,大致意思就是大數(shù)據(jù)的模型一定要做到可復(fù)制,可擴(kuò)展,可移植,這樣才有應(yīng)用的生命力。
最后,強(qiáng)調(diào)一下整體的數(shù)據(jù)管理架構(gòu)。由于時間關(guān)系,也不展開說了,我眼中的大數(shù)據(jù)應(yīng)用的整體架構(gòu),應(yīng)該是一個“混搭”型模式,從最底層的,數(shù)量最多的非結(jié)構(gòu)化數(shù)據(jù),到中間層的半結(jié)構(gòu)化數(shù)據(jù),再到頂層的結(jié)構(gòu)化數(shù)據(jù),分別有不同的工具、不同的方式來處理。但一條主線就是努力使更多的非結(jié)構(gòu)化數(shù)據(jù)往結(jié)構(gòu)化數(shù)據(jù)的方向走,這也是人類社會依托計算機(jī)這一工具來認(rèn)識世界、理解世界的一條必由之途。
最后,用我和業(yè)界一位大哥級人物的對話結(jié)束今天的分享。這位大哥說:當(dāng)哪一天公安行業(yè)不談到大數(shù)據(jù)的“大”字時,這個行業(yè)就真正理解了大數(shù)據(jù)。我說:現(xiàn)在我是個商人,當(dāng)商人不談錢的時候,他就開始賺大錢了。謝謝大家。