應用

技術

物聯(lián)網世界 >> 物聯(lián)網新聞 >> 物聯(lián)網熱點新聞
企業(yè)注冊個人注冊登錄

賽題解讀 | 城市治理之垃圾暴露檢測算法賽

2023-03-15 08:56 貴陽大數據交易所

導讀:“數據場景應用創(chuàng)新大賽”正如火如荼地舉辦中,大賽致力于探究數據要素流通交易的應用場景和解決方案,助推數字經濟發(fā)展,助力數字強國建設 。

數字經濟方興未艾,正深入滲透到社會各領域全過程。由國家信息中心、貴州省大數據發(fā)展管理局、貴州省氣象局、共青團貴州省委、貴陽市人民政府指導,貴陽大數據交易所主辦的“數據場景應用創(chuàng)新大賽”正如火如荼地舉辦中,大賽致力于探究數據要素流通交易的應用場景和解決方案,助推數字經濟發(fā)展,助力數字強國建設 。

近日,由貴陽大數據交易所主辦、北京易華錄信息技術股份有限公司(以下簡稱“易華錄”)協(xié)辦的“數據場景應用創(chuàng)新大賽”—圖片賽道“城市治理之垃圾暴露檢測算法賽”解讀及答疑活動在線上成功舉辦。易華錄數據要素事業(yè)群技術副總經理魏健康對賽題進行了詳細解讀,并圍繞參賽選手及團隊提出的問題進行了答疑解惑。

-賽題解讀-

探索城市治理,創(chuàng)新場景應用解決方案

城市治理已成為推進國家治理體系和治理能力現代化的重要內容。習近平總書記強調,“推進國家治理體系和治理能力現代化,必須抓好城市治理體系和治理能力現代化”“要著力完善城市治理體系和城鄉(xiāng)基層治理體系,樹立‘全周期管理’意識,努力探索超大城市現代化治理新路子”。

隨著人們生活質量的提高,很多污染嚴重的殘剩物被隨意地丟棄,不僅影響市容,還給居民的生活帶來極大困擾,為了達到利用人工智能技術進行垃圾暴露現象事件抓拍、證據留存的目的,本次圖片賽道以“針對城市道路和社區(qū)環(huán)境中的垃圾暴露現象進行感知發(fā)現”為主題。賽道要求參賽選手根據提供的檢測數據集,進行模型設計和優(yōu)化。

本賽題中,垃圾按照數據集目標數量和類別被分為十類,每一類垃圾圖片數量為幾十至幾千張。根據不同尺寸和形狀的目標,數據集提供的原始圖片分辨率也不同,分辨率像素區(qū)間為300—2048ppi,需要選手分析標簽物體分辨率的分布范圍,考慮模型的輸入尺寸。

選手需對數據集進行去重和清洗,確保數據集中沒有重復樣本和錯誤標注信息。在數據預處理上,選手需對數據集進行預處理,包括對圖片進行縮放、裁剪、歸一化等,以及對標注信息進行格式轉換和統(tǒng)一格式等操作,以便后續(xù)的訓練和評估。在數據增強上,選手需對數據集進行增強,擴充、以增加數據集的多樣性和豐富性,提高模型的泛化能力,在進行數據擴充時,需要保證擴充后的數據仍然具有一定的真實性和合理性。

在模型選擇上,選手可選取基于Anchor-Based的RetinaNet,通過引入Focal Loss來解決類別不平衡問題,提高小目標檢測的性能。CenterNet通過直接預測目標中心點和寬高,避免Anchor的生成和匹配過程,可極大簡化模型架構;或基于Anchor-Free的yolo系列DETR—一種完全去除Anchor的目標檢測模型,通過Transformer機制直接將目標檢測轉換為對象集合預測問題。FCN雖然被廣泛應用于語義分割任務,也可適用于本賽題目標檢測任務,通過在特征圖上進行滑動窗口來實現目標檢測。此外,選手還可以自由選擇其他模型。

在Pipeline搭建上,選手可采用mmcv框架對相應的訓練機制進行處理,在時間允許的條件下,可自行設計分類模型進行輔助;也可以將檢測和分類結構融合到一個網絡里,在特征提取之后進行雙任務推理,最終將推理結果進行融合分析。此外,選手需注意最后提交的結果格式。

落實大賽保障,開拓大數據人才培養(yǎng)模式

一直以來,易華錄圍繞“收、存、治、用、易”主航道,開拓大數據人才培養(yǎng)多元模式,深入探索技能大賽人才培養(yǎng)方向,為國賽、省賽及專業(yè)領域賽事領域做出積極貢獻?;谫愂碌膶氋F經驗,針對大賽圖片賽道“城市治理之垃圾暴露檢測算法賽”賽題設置,易華錄希望選手能夠將技術引入應用,切實解決一些基層治理難題,實現城市治理數字化轉型。作為大賽的協(xié)辦單位,易華錄提供了城市道路和社區(qū)環(huán)境等生活場景圖片、垃圾暴露標注圖片等賽題數據,并對圖片中常見的垃圾暴露現象進行了標注,垃圾類別包含紙屑垃圾、打包垃圾、蛇皮袋垃圾等10類。賽題要求選手建立合理模型,以達到城市垃圾自動識別水平。

“作為本次大賽賽事的協(xié)辦單位,易華錄在貢獻技術力量的同時,深度參與到大賽的運營當中,通過設立專業(yè)運營團隊,確?!畷r間、人員、責任’三落實;同時,作為社會可信的數據資產化提供商,易華錄由衷地期望能夠以本次大賽為契機,與貴陽大數據交易所一同搭建數據市場供需方的橋梁,充分釋放數據價值,真正為實際應用場景提供數據賦能?!蔽航】当硎?,“我們希望選手能夠將技術引入應用,切實地解決基層治理的一些難題,實現城市治理的數字化轉型。”

當下,信息技術的快速發(fā)展推動生產方式、生活方式和治理方式的深刻變革,城市建設和社會發(fā)展之間的相互影響日益增強,智能建造和新型智慧城市正推動城市規(guī)劃建設領域轉型升級,推動新型城市建設已成為時不我待的重要命題。大賽聚焦前沿信息技術在城市規(guī)劃建設領域中的創(chuàng)新應用成果落地,期待各位參賽選手的精彩角逐,希望選手能夠享受比賽,賽出水平、賽出風格、賽出成績。

-答疑環(huán)節(jié)-

  Q:請問最終成績以什么為準?多少名可以進入決賽?

以3月20日打榜的最終結果為準,每天有2次打榜的機會,各位參賽選手在打榜時間之前提交作品,最終有20支隊伍可以進入決賽,如組委會在審核作品過程中發(fā)現問題,比如作弊或者抄襲等,名次將往下順延。

Q:標注框坐標數值要用float嗎?

坐標值一般是用float,但是也可以用int,評分系統(tǒng)對這個沒有要求。

 Q:訓練集里有部分場景,標注規(guī)范不一致,參賽選手在識別的時候,有些carton堆疊在一起,有的是逐個標注的,每個carton一個獨立的標注框。請問在我們識別的時候,是把堆疊的物體識別成一個,還是單獨標注一個框?

建議按照大的標注框進行召回。但是要考慮數量的多少,在數量很多的情況下,可以按照大標注框召回,如果數量很少,可以加判斷的標準,需要實際地去操作。

Q:訓練時發(fā)現了數據中有標注錯誤的圖片怎么辦?

圖片難免會出現標注錯誤的現象,占比很少,可以視為噪聲或者是干擾數據,也相當于一定程度上增加了比賽難度,選手可以充分發(fā)揮自身能力,找到合適的數據處理方法,或者選擇一些合適的模型,從而達到比較精準的預測結果。

Q:圖片數量是只有3806張嗎?

比賽共提供了7806張城市的各場景的圖片,其中4000張作為訓練集,對圖片進行了框選的標注,并提供了XML格式的標注文件,剩余的3806多張是作為測試級供選手去打榜。

Q:提交的文件里面圖片沒有目標,需要加一個空的字典嗎?

沒有強制要求,可以提交空的字典,也可以去掉圖片的ID。如果不足3806張,我們會對未提交的圖片作漏識別處理。

Q:打榜的時間是否可以改變?是否可以多次提交,按最高記錄保存?

目前打榜時間是早晨十點,晚上八點,每天兩次,打榜時間目前暫時不會進行調整,同時打榜的成立是以最新的一次成績?yōu)樽罱K的結果,目的是讓選手去開動思維,不斷鍛煉自己的模型,希望各參賽選手能使用先進的方法及創(chuàng)新的手段獲得一個更好、更高的評分。如果說按最高成績作為最終結果,就會存在選手考慮到分夠高后不會再去優(yōu)化的情況。所以按照最后的一次成績作為最終的成績,讓大家不斷地去訓練自己的模型,提交更優(yōu)質的作品,作為最終的結果。

Q:能實時評分嗎?

目前沒有實時評分,各位選手在提交的時候注意節(jié)點及最后打榜時間。

- 大賽詳情 -

1.jpg