首页   实验室与人员介绍   科学研究   人才培养   论文著作   学术讲座   合作交流   招贤纳士   招生指南   联系我们
greyback

数字媒体理解(Digital Media Understanding)

  从电子出版、互联网站、数字通信、数字广播、遥感遥测到数字图书馆、数字人、数字地球,数字媒体正在引发的不断膨胀的数字海啸。据加州大学伯克利分校的研究估计"全球每年产生2 EB(Exabyte)非重复的数据,而其中约93%是以数字形式存储的",这个数字是人类有史以来所有印刷资料数据量(约200PB)的10倍,是当前万维网信息总量(约8 PB)的250倍,是对地观测系统(EOS)每年产生数据量的6000倍,是美国国会图书馆的所有印刷类藏品(约10个TB)的20万倍。据预测十年内信息海啸将会以指数级的速度膨胀,很多专家认为数字海啸将是新千年最大的技术挑战。
  我们认为,解决数字海啸的技术途径包括不可分割的三个方面:
   1:海量信息的有效组织:传统图书情报领域采用的元数据、分类体系、主题描述等方法可以作为研究起点;
   2:数字媒体的理解:利用机器综合、分析、理解和可视化海量信息,寻找新一代的数字媒体"搜索引擎",实现对人类知识的普遍访问。
   3:用户建模:通过对用户检索和其它交互过程的分析,建立用户个性化的模型描述,利用此模型和多媒体信息空间的比对,实现个性化的知识服务。
  当前的数字媒体理解技术和人的感知、认知要求仍存在较大差距。以视频为例,以前的研究主要通过对视觉信息的分析来实现视频数据的结构化组织,如镜头分割、场景检测等,使用的是颜色、纹理、形状等低级视觉特征,与人的感官存在着很大的差距,因此实现的检索系统还无法达到令人满意的程度。在90年代后期,为了弥补用于基于内容的检索系统使用的低级视觉特征与人在检索时惯于使用的高级语义概念间的差距,起源于文本信息检索的相关反馈技术被应用到视觉信息的检索系统中来,使得视频检索系统又前进了一大步。同时,在这个时期人们开始注意到对于视频结构与内容的分析,仅依靠对视觉信息的分析存在着局限性,引入对与视频信息同步的音频的使用成为一个新的研究努力方向,在近年的重要国际会议上,如ICIP, ICASSP等,不断有不同研究组的研究成果发表。为了使基于内容的多媒体信息检索能够有标准可以遵循,MPEG专家组在1996年10月开始了MPEG-7标准的制定,称为"多媒体内容描述接口",目的是定义出一种统一的音视频数据的描述方式,这种描述试图包含对信息语义的描述,使得该描述可以被用来进行媒体转换、信息检索以及信息过滤等应用需求,目前MPEG-7已经作为国际标准发布。数字媒体理解技术的发展趋势是从单一的处理和面向关键字的检索转向基于多维信息的处理和面向内容的检索技术。可以预见,在未来的几年内数字媒体知识处理技术将有比较大的突破,并且在未来的十年内将得到广泛的应用。
  其包括:

  多媒体信息检索
  图像分类与过滤
  中美数字图书馆工程 网站
  教育资源管理
  数字版权管理


多媒体信息检索 ↑Top

  近年来,那些伸手可及的多媒体信息呈现出爆炸式增长,而且这种增长越来越迅速。这样的增长趋势迫使我们开发视频索引和检索技术。由于人们习惯运用高层语义概念来查询和浏览多媒体数据库,所以有必要发展多媒体内容的语义分析技术,实现自动高效的视觉信息检索和浏览。另一方面,在计算机和通信领域内,数量庞大的技术开发计划已经为人们创造了一个普适环境。其中,人们可以通过机顶盒),个人电脑,掌上电脑甚至3G手机,随时随地访问视频。人们总是向往能够在任何地方、任何时间、获得高质量的多媒体服务。但是,一个潜在的问题是:当视频流较长时,人们希望能够跳过乏味部分而直接访问精彩片断和摘要。这样,不仅可以为浏览者节省观看时间,同时也节省了远程用户的数据下载耗费。

  鉴于视频内容的复杂性和多样性以及迫切的应用需求,我们将研究的创新性和实用性相结合,以运动体育视频为研究对象和切入点,以体育视频内容分析为目的,基于视频中的运动对象信息,结合非运动对象的检测技术,对体育视频内容自动进行分析;同时,采用音视频融合的多模式(Multi-Modal)方法,提取比赛中的关键内容片段与精彩事件。目前,研究技术点涵盖了视频运动对象分割和跟踪、视频非运动对象检测、视频结构化分析、场景分类技术、多模式音视频融合技术,以及在分析得到的语义线索的基础上进行视频精彩片断的检测、事件分析与摘要等等。

欢迎访问 多媒体信息检索网站


图像分类与过滤
↑Top

  中科院网络多媒体研究中心图像过滤组主要研究图像处理、图像过滤、图像理解以及图像检索等与图像处理密切相关的技术。图像组在图像颜色特征提取、图像纹理分析、图像形状分析、图像对象分割、图像库相关反馈技术、序列图像运动分析等领域展开研究,特别在图像肤色检测、图像光照平衡,图像纹理分割、图像对象分割、图像自动分类、图像学习与理解、序列图像活动性分析等方面进行广泛深入的研究,提出了快速图像过滤系统、基于动态相似性度量的图像检索系统以及具有自学习能力的自动图像分类系统。该项目组目前有博士研究生4名,硕士研究生4名,承担863项目一项、国家部委项目两项。

中美合作百万册数字图书馆计划 ↑Top

  数字图书馆是保存大量结构化信息的数字化资源库,这些数字资源的生成者可能是传统的图书馆、博物馆、档案馆、大学、政府部门、专业组织或个人。数字图书馆的最终目标是让所有的人在任何时间任何地点都可以用任何连接互联网的数字设备来访问人类所有的知识。数字图书馆是新一代互联网上信息资源的重要平台,已成为国家社会信息基础设施的重要组成部分。
  
  数字图书馆已经发展到一个关键时期,目前面临的挑战和未解决的主要问题之一是如何组织百万册或者更多的书上网而且允许在世界范围内被访问。为了接受上述挑战,中国和美国的计算机科学家已经同意共同携手设计和实现一个能够解决上述问题的系统,称“中美合作百万册书数字图书馆计划”(以下简称CADAL计划)。
 
  CADAL计划当前阶段的目标是建设100多万册的数字图书馆,其中中方组织50万册中文图书,美方组织50万册英文图书。在建设过程中,中美双方通过技术合作,开发世界一流水平的数字图书馆技术平台,有效支持百万册书的高效加工、管理和服务。
 
  CADAL计划第一次会议于2001年8月在美国卡内基-梅隆大学召开。会议确定组成项目指导委员会。项目指导委员会的职责是确定规划项目、制定政策、提供资源和条件保证。项目指导委员会中方负责人为潘云鹤教授,美方负责人为Raj Reddy教授。委员会由8名成员组成,中美双方各有四名代表。中方代表是:潘云鹤教授(浙江大学校长、中国工程院院士)、高文教授(中国科技大学副校长、中国科学院研究生院常务副院长)、迟惠生教授(北京大学副校长)、胡东成教授(清华大学副校长)。美方的代表是Raj Reddy教授(美国卡内基-梅隆大学原计算机学院院长、美国总统科技顾问委员会主席)、陈刘钦智教授(美国西蒙学院图书馆系教授、美国总统科技顾问委员会委员)、Victor Zue教授(麻省理工学院计算机科学实验室副主任)、Gloriana St.Clair博士(美国卡内基-梅隆大学图书馆馆长)。CADAL计划第二次会议将于今年3月在中国召开。

  中国方面将组织包括浙江大学、北京大学、清华大学、复旦大学、南京大学和中国科学院研究生院等在内的大学和相关单位参加此项目,每一个参加的大学和单位的数字图书馆中心将选择提供有特色的信息资源并承担数字化工作。美国方面将组织美国数字图书馆联盟(简称DLF,主要成员包括卡内基-梅隆大学、哈佛大学、哥伦比亚大学、康奈尔大学、芝加哥大学、华盛顿大学、耶鲁大学等30多所大学和图书馆)参加此项目,负责英文图书的选择,并为本项目提供经济和技术支持,包括计算机、扫描设备、软件、技术培训。双方在项目期间将共同在制作工具、技术、内容方面进行创造性的研究开发。

  在数字图书馆技术的研究开发方面,科技部、教育部、中国科学院通过研究项目已经给予并将继续大力支持。中方已经在数字图书加工制作系统(包括资源数字化、中英文识别、自动较对、版面恢复等)和数字媒体资源管理系统(支持海量多媒体资源的存储、管理和检索)方面进行了大量研究开发工作。百万册数字图书馆的建设、运行和服务向当前的信息技术提出了诸多挑战,中方将在我国有关科技计划的支持下,通过中美合作,联合国内计算技术领域的研究力量,就高效率数据加工制作与质量监测保障、开放性资源描述框架与索引机制、开放性分布式计算平台和互操作中间件、多语言处理与机器翻译、知识表达处理与个性化服务、基于内容的数字媒体检索、多模式智能交互、数字媒体版权保护、海量数据存储与迁移等问题开展长期性的研究工作。

  "中美合作百万册数字图书馆计划"的意义十分深远,包括:
   
  将构建中英文比例合理的大型数字图书馆,为教育科研提供丰富的数字资源,尤其是计划中的美国著名高校教材、学位论文等数字资源,对于我国教育科研的发展、促进,其价值不可估量;
 
  为数字图书馆研究提供了一个试验床,能促进知识处理、数字情报等研究工作的深入开展。将建立较为完善的数字技术标准规范,有利于我国数字图书馆建设的持续发展;

  探索数字媒体资源智能检索、分析、处理、操纵、可视化和互动的新模式,促进知识、知识生产者、知识传播者、知识整理者、知识消费者之间关系的变革,加快知识传播和更新速度;

  CADAL计划是国际数字图书馆领域的重要事件,是第一个大规模的国际间数字图书馆合作建设实例,在推动数字图书馆从设想变成现实的进程中具有里程碑式的意义;

  通过CADAL计划,来自两个文化背景下的百万册书籍被整合到一个统一的平台下,提供给不同文化环境中的人学习、研究,这是两种文化在数字时代的碰撞和交融,将极大地促进东西方文化的交流;

  保存人类文明史的全球书籍现存约1亿种,CADAL计划的实施将使其中的1%成为随时随地可以检索利用的数字化资源,开启了知识资源领域的"人类基因组计划"。

教学资源管理 ↑Top

  教育资源管理系统是支持教育资源的描述、建模、注册、发布、组织、管理、更新、搜索、发现、交换、共享、重用等活动的网络软件系统。XML(Extensible Markup Language,可扩展置标语言)是独立于系统和处理程序的数据描述标准,具有简单性、开放性、可扩展性、灵活性和自描述性等特性,XML及其相关标准是教育资源管理系统开发的基础。文本、图形、图像、音频、视频、三维图形、超文本等媒体的管理以及不同媒体对象之间的时空关系与集成正在成为网络教育系统的必备特征,年内即将成为国际标准?quot;多媒体描述接口"标准MPEG-7是教育资源管理系统支持多媒体的重要标准。XML相关标准可以保证教育资源管理系统的低成本和开放性,MPEG-7标准则可以保证系统在多媒体方面的先进性。
  
  本课题针对远程教育资源管理的具体需求,按照系统工程的建设原则,严格遵循教育部制订的《现代远程教育资源建设规范》,基于XML和MPEG-7标准设计体系结构开放、可扩展和具有自我完善机制的资源管理系统。在技术上重点突破网络教育资源的组织与描述、存储与检索、使用评估分析、知识产权保护、注册与发现等关键技术,开发有关支撑软件系统及辅助工具,建立结构完整的资源库管理和检索系统,实现数字图书馆与网络教育系统的连接和资源共享,形成具有自主知识产权的、可满足现代网络教育所需的教育资源组织管理技术及支撑软件系统。所取得的成果达到国际先进水平,部分达到国际领先水平。

数字版权管理 ↑Top

简介
  数字化技术的发展使得媒体脱离载体的束缚而以数字化的形式独立存在,而宽带网络的快速普及大大加速了数字媒体复制和传播的速度,必将催生各种新型数字媒体应用模式的出现和商业模型的形成。然而,要真正创造全新的数字媒体时代,除了数字技术和网络技术外,还需要建立一套完整的数字媒体版权管理(DRM)基础设施,这既包括版权保护等技术措施,还包括信任体系建立等管理措施,是因为是一项全社会参与、需要平衡各方利益的社会工程,其结果将是内容产业能够良性发展、用户能够获得全新体验的新时代。

数字媒体比模拟媒体更容易保护
  随着技术的发展,媒体的内容记录和传输已经逐步从模拟方式转向了数字方式。模拟内容和数字内容的本质区别主要体现在以下三个方面:(a)模拟内容和介质是紧密相连的,而数字内容和介质逐渐无关;(b) 模拟内容商业模式的驱动力来自于内容短缺:模拟内容的复制费时费力,复制的效果较原来内容的质量有一定程度的降低,多次复制后效果会越来越差。而且模拟内容传输对带宽的需求非常高,一定程度上限制了内容的传播。而数字技术可以有效克服内容短缺:复制非常简单,不会降低内容质量,而且内容传输需要的带宽较低。(c)数字技术大大促进了新商务模式的产生和发展,数字媒体时代必然代替模拟媒体时代。
  模拟媒体的复制通常会带来质量下降,模拟媒体的传播(实际上是其物理载体)需要一定的经济代价,而数字媒体的内容复制和传播非常容易,因此人们通常认为数字媒体为盗版打开了新天地,近几年互联网上的音乐交换等现象似乎也证实了这种印象。
实际上,数字媒体更容易被盗版只是短期现象,实际情况是数字媒体更容易保护。相比之下,保护模拟媒体的技术手段要有限得多。对于模拟媒体来说,制作环节的泄漏(胶片冲印/母带复制、传递过程中的泄漏,剧院、制作中心的偷拍等)、分发环节的泄漏(磁带、CD、DVD发行以及模拟广播)以及终端的泄漏(设备级的泄漏以及对模拟输出进行复制等)都很难有有效的技术保护措施。
而数字媒体意味着成熟的加密、认证等信息安全技术可以全面应用,数字版权管理可采用的技术措施要比模拟版权管理多得多。数字媒体不仅意味着更容易保护,而且意味着内容提供商和运营商更容易创造新的应用模式和服务模式。

“数字媒体管理”而不仅仅是“数字版权保护”
  数字化技术的发展使得媒体脱离载体的束缚而以数字化的形式独立存在,而宽带网络的快速普及大大加速了数字媒体复制和传播的速度,必将催生各种新型数字媒体应用模式的出现和商业模型的形成。然而,要真正创造全新的数字媒体时代,除了数字技术和网络技术外,还需要建立一套完整的数字媒体版权管理(DRM)基础设施,这既包括版权保护等技术措施,还包括信任体系建立等管理措施,是因为是一项全社会参与、需要平衡各方利益的社会工程,其结果将是内容产业能够良性发展、用户能够获得全新体验的新时代。
  正是因为站在数字媒体时代基础设施的视角,才特别强调“数字版权管理”而不仅仅是“数字媒体版权保护”,这种基本认识是形成新型媒体商务模式成功的基础,其基本依据是:节目提供商希望在保障版权的情况下通过尽可能多的渠道让可能多的用户消费尽可能多的内容,用户则希望尽可能方便地获取、消费各种数字媒体节目。“数字媒体版权管理”的基本目标是在同时维护内容提供者和媒体消费者之间利益的基础上创新全新的数字媒体时代。

数字媒体管理系统概要
  设计和建立数字版权管理应遵循的基本原则是:简单、灵活和开放。简单是指数字版权管理不要为用户和价值链的各方带来“麻烦”,例如,数字版权管理技术不应给内容提供商带来“不便”,也不应该让消费者付出额外代价。灵活是指数字版权管理应能支持新的商业模式,支持各种运营、产品和服务提供商构成充满活力的价值链。开放是指可以容纳更多的参与者,因为数字版权管理不是一个具体产品,而是一个新时代的基础设施。
  数字版权管理价值链的可能参加者包括:

  ·内容生产者
  ·版权拥有者和管理机构
  ·内容代理、发行商
  ·注册与认证
  ·数字版权管理方案提供商
  ·支撑信息系统提供商
  ·内容仓储管理
  ·应用开发者
  ·存储和传输服务、运营
  ·网络服务提供商
  ·接入服务提供商
  ·硬件终端设备制造
  ·软件终端开发


如此众多的参与者决定了数字版权管理系统是一个复杂而庞大的系统,由此向数字版权管理系统提出的挑战之一就是如何平衡各方的利益,保证数字版权管理系统的协调发展。
从媒体本身角度看,数字版权管理应贯穿数字媒体的整个生命周期。整个生命周期包括:内容制作、内容存储、内容发行、内容接收、内容播放、内容显示等。与数字媒体管理技术同样重要的是信任体系的建立,保证参与方的可信性、设备的可信性、密钥等关键信息的安全性。

消费电子和数字广播领域的版权管理技术
  近年来,数字媒体版权管理技术得到了全球范围内众多企业、高校和研究机构的广泛关注、研究与开发。现有的一些影响较大的数字版权管理系统大致可划分为四类:消费电子产品的内容保护技术、数字广播条件访问系统(CA)的增强技术、标准化活动和由一些企业开发出来的产品方案。企业产品不在本文讨论之列,我们的基本观点是未来的数字版权管理基础设施是多样产业互联、互操作的大系统。
典型的消费电子产品版权保护技术包括:
  ·DVD内容控制协会(DVD Content Control Association)的内容加扰系统(CSS)
  ·DTCP:数字传输内容保护(Digital Transmission Content Protection),支持在家庭网络中的设备之间传输压缩内容
  ·HDCP: 宽带数字内容保护:保护连接到监视器/高清电视的数字输出线路(DVI-Digital Visual Interface)和HDMI(High Definition Multimedia Interface)输出。
  ·CPRM:移动媒体的内容保护(Content Protection for Removable Media),支持刻录光盘、闪存卡、MP3播放器,硬盘等移动介质上的内容。
  ·AACS:高级内容存储系统:面向高清晰度DVD,定义了复制规则,包括禁止复制、复制一次和任意复制等使用模式。

  条件访问系统(CA)是广播领域管理授权订户的系统,但CA并不能防止合法用户滥用内容。在CA的基础上扩展内容分类、保护的实践一直在进行中,例如美国有线电视界的Plug and Play,美国广播界推动的在广播流加入授权标记的US Broadcast Flag,日本和欧洲广播界也在进行探索和实践。有两点特别值得注意:一是根据节目类型不同而对复制权利作出规定,例如基本节目可以免费复制但受保护的复制;精彩节目保护条件下复制一次;而对于PPV、VOD和SOD节目不允许复制;另一方面是数字输出接口越来越得到重视,广播商可能会要求精彩节目只能通过数字接口以加密方式输出到支持加密、认证的显示设备。

标准领域的主要进展
  在标准化领域,国际范围内目前比较有影响的有三个:MPEG标准IPMP、移动通信领域发起并建立的OMA DRM和2003年建立的数字媒体计划DMP。
国内数字音视频编解码技术标准工作组(AVS工作组)2002成立了数字版权管理专题组(与视频专题组、音频专题组、系统专题组等并列),2003年开始起草DRM标准,目前正在进行中,预计从2004年03月开始陆续完成AVS DRM标准的各部分。AVS DRM的基本理念是制订开放的、支持互操  作的数字版权管理系统,支持高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通信和互联网宽带流媒体等重大信息产业应用。
MPEG是广播影视领域采用的主要标准,在媒体版权管理方面,MPEG-2标准仅在标准的系统部分(即第一部分)提供了与CA系统的接口,在MPEG-4标准开发过程中,IPMP(知识产权管理与保护)成为标准的一个独立部分(第13部分),反过来,MPEG-2也追加了IPMP部分(第11部分)。IPMP是MPEG-21的一项重点,目前正在制定过程中。
  OMA(开放移动联盟,Open Mobile Alliance)制定的OMA DRM规范近年来进展迅速,赢得广泛关注。OMA成立于2001年,现有300多家会员单位,OMA制定DRM技术标准的目标是为移动通信网建立的数字保护环境,支持从话音到数据(和弦,游戏,多媒体)等的扩展,要求根据被保护内容的价值提出合理、不同层次的保护技术,要求方案经济,支持各挡手机,不需要昂贵的基础设施,而且能及时部署。OMA DRM 2.0版于2004年07月发布,这是一套面向应用和服务的端到端技术和协议,包括:框架、认证互操作、密钥发行、流服务、预定、向其他内容保护和DRM系统的输出,支持多种移动应用和服务的部署等。OMA正在组建的 CMLA(内容管理授权委员会)的目的是建立OMA DRM 2.0中的信任模型,建立新的数字版权管理商业模型。
  数字媒体计划(Digital Media Project)是一个更为雄心勃勃的计划,他从数字媒体时代的角度考虑问题。2003年7月,面对数字媒体商业模型浮现的迫切性,以MPEG大会主席Leonardo为首的科学家发起一个Digital Media Manifesto的民间运动,并发布一个DMP宣言,认为:

  ·数字媒体处于进退维谷的僵局阶段,导致发展速度减缓;
  ·数字版权管理技术(DRM)能够打破僵局的;
  ·为了不使目前错综复杂的DRM问题乱上加乱,DRM必须可互操作;
  ·DRM的互操作性需要标准支持;
  ·DRM需要应用于整个“媒体价值链”
  ·DRM影响个人、团体和社会使用内容的方式;
  ·需要消除影响数字媒体商业模型的其它瓶颈。

  经过历时三个多月的邮件交流后,建议成立一个非赢利的组织DMP,以推动持续成功的开发、布置和使用数字媒体为使命。中国科学院计算技术研究所是DMP计划的首批发起单位之一,目前已经有21个单位和组织参与DMP,DMP也重视与其它标准化组织和工业论坛建立联盟,并且已经有相关联盟代表参加了各次DMP全体大会。
  DMP的使命任务概括起来有两件事情:数字技术是人类的财富应该加以利用,增进媒体内容创建者、终端用户和各种价值链上用户角色之间的关系;采用合适的接口来标准化一个恰当的协议。
  DMP需要克服的难题主要是如何将传统的用户权利和用法映射到数字媒体环境下价值链中;如何适应未来用户权利和用法的变化。解决上述难题,DMP认为在当前价值链上的用户执行的功能不被标准化, 提出“元功能(Primitive functions)”的概念,制定支持组合各种标准化的元功能的协议,从而适应未来媒体价值链上用户的需求变化。
DMP的基本思路是将政策措施和技术措施协调起来,克服目前DRM解决方案不能很好满足商业用户以及对传统的用户权利和隐私造成约束的状况。
  政策方面有四项措施:第一是保证数字环境下用户拥有和传统情况下一样的基本权利和使用方法;第二是逐步淘汰模拟时代的遗迹;第三是扩大宽带网访问分布范围;第四是改进标准的开发和使用。
  技术方面的措施包括两个方面。第一是建立端到端的互操作平台,为价值链上的不同角色提供访问这个平台的能力,价值链上每个角色希望能自由地选择最适合自己的DRM技术解决方案,而不是只能采用某一解决方案,否则就很难形成成功的媒体商业模式。第二是端到端一致性的评估。价值链上每个角色需要核实其他角色依据规则进行的操作,因此需要在在法律、商业和技术三个层面上进行一致性评估。

展望
  数字版权管理是一个相当新的领域,很多问题仍然没有解决,来自不同领域和不同背景人和团体之间的开放讨论对于数字版权管理技术能够真正有效实施是十分必要的。数字版权管理也是一个极其重要的领域,它将勾勒出全新的数字媒体时代,是未来信息基础设施乃至社会基础设施的重要组成部分。

Copyright © 2009  数字视频编解码技术国家工程实验室