智慧城市—增强现实&人工智能

Gary

2023年4月24日

本项目主要负责AR&AI部分软硬件的开发，硬件部分的评估、开发、测试。

前言

在我们提到智慧城市所需要的技术时，最容易想到的就是IOT（物联网）技术跟sensors（传感器）技术，但除此之外，智慧城市还需要更多技术，这些数据驱动技术共同发挥作用，以优化资源利用，为公民提供便利，并为政府提供更大的可见性和控制力，AR技术在其中充当重要角色，是打造智慧城市必不可少的关键技术。

增强现实（AugmentedReality，简称AR）概念其实已经出现了几十年，然而近几年才开始出现在科技媒体上吸引大众眼球，AR的发展得益于影视领域的跟踪技术（Video Tracking）的发展，相比VR，AR的技术难点在于显示和感知，不过随着时间的推移，越来越多的科技企业渐渐攻克这些难关，硬件价格逐渐降低。

AR技术的核心主要是：计算机视觉（Computer Vision）和物体识别（Object Recognition）。

一般具有三个主要特征：虚实结合、实时交互和三维配准，AR要把虚拟物体整合到现实环境中来，它需要摄像头来建立现实空间的坐标系。三维配准是链接虚实的最核心技术，大致来说，在AR中配准的目的是对影像数据进行几何上的精确理解。这样一来，就决定了要叠加的数据的定位问题。比如说，在AR辅助导航中如果想把导航箭头“贴在”路面上，就一定要知道路面在哪。在这个例子中，每当手机摄像头获取到新一帧图像，AR系统首先需要将图像中的路面定位，具体地说就是在某个事先设定的统一的世界坐标系下确定地面的位置，然后要将贴的箭头虚拟地放在这个地面上，再通过与相机相关的几何变换将箭头画在图像中相应的位置（通过渲染模块完成）。

在应用中，AR需结合AI进行实现，两者具有互补性，AR通过在现实世界中叠加虚拟内容来增强用户的感知，而AI则用于处理和分析数据，为用户提供智能化决策和反馈，简单来说就是使用AI技术来分析显示环境中的物体和场景，然后通过AR技术将虚拟信息融入现实环境。

项目目标是将AR技术与智能机器人相结合，使操作者通过穿戴式AR设备获取机器人的视野，指挥机器人的行动。

负责部分项目流程如下：

一、AR部分

AR部分负责AR眼镜与AR-HUD硬件的评估、开发、测试。

1.1 AR眼镜

工作流程大致为：传感器读取数据后，视觉里程计估计两个时刻的相对运动（Ego-motion），后端处理视觉里程计估计结果的累积误差，建图则根据前端与后端得到的运动轨迹来建立地图，回环检测考虑了同一场景不同时刻的图像，提供空间上约束来消除累积误差，具有提供基于视觉的跟踪定位（SLAM）图像采集功能的摄像头，将你视角内的环境传递给AR眼镜，SLAM通过图像识别、定位分析与AI计算，将当前环境进行三维重建，构造一个三维真实世界，以增强AR眼镜对显示环境中相互作用的理解能力，为AR眼镜赋予了复杂环境感知力和动态场景适应力，通过识别指定的手势或者进行裸手交互对眼前的虚拟物体进行交互操作。

1.1.1 组成部分

AR主要由四个部分构成：硬件、软件、内容和平台。硬件方面光学技术与显示技术占的比重非常大。

1.1.2 显示技术的比较：

AR显示本身是一个显示部件，有色域、亮度、对比度等一般技术要求，也有尺寸、重量、美观性、眼动范围、视野角度等穿戴设备等场景特殊性要求，我们需要基于需求进行评估，设置不同的优先级，决定相关的显示方案。

1.1.3 显示方案的选择

1.1.3.1 Micro LED

相比LCD，Micro LED自发光不需要背光源，也不依靠液晶偏转光线经RGB滤光片来实现色彩合成和显示，它理论上的产品结构非常简洁：驱动背板、电极、RGB LED晶粒、表面光学保护层。

Micro LED跟OLED相比，一样RGB三色像素自发光，高饱和度色彩，能独立关闭像素显示纯黑。其优势在于发光材料EQE更高，Micro LED理论上有比OLED更高的光电转化效率，功耗更低，亮度更是高出一个数量级，并且还没有OLED有机发光材料寿命限制导致的“烧屏”问题。

Micro LED完全可以取代LCD、OLED，占据所有消费级电子显示应用，包括AR穿戴设备。因为Micro LED类似OLED能够良好适配柔性屏、折叠屏、透明屏基板，更微小的Micro LED稀疏地排布于透明基板上，在大屏更低ppi的情况下，Micro LED在透明屏、柔性屏的应用价值凸显，比如汽车前挡风玻璃HUD的透明显示。对于超高PPI、高亮度、高EQE光电转化、低功耗、对比度、响应时间（画面滞后）方面的要求，Micro LED能够让AR的体验上升一个台阶。

工艺制程：

Micro LED最大的特点是将传统LED晶粒从1mm缩小到1-50μm。

制造Micro LED的流程看起来比较简单，但如此小的LED，意味着首先需要LED微缩制程，然后制造「合适」的背板和复杂精密的驱动电路，最后将大量的RGB LED晶体从不同的生长源基板分离，再精准转移嵌入目标背板并连接上驱动电路。

巨量转移的困难在于：（1）待转移的LED晶体外延层厚度仅有原LED的3%，同时LED尺寸更小，需要精度很高的精细化操作；（2）一次转移需要移动几万乃至几十万颗LED，数量十分巨大，要求有极高的转移速率。

还有一种方案是基于单片集成工艺的Micro LED，将LED外延片直接与CMOS背板键合。完美避开了巨量转移的问题。但问题是单片集成工艺的硅基Micro LED目前只能显示一种颜色（目前绿色LED的发光效率最高，亮度可以达到百万尼特），也只有很小尺寸，无论是扩大晶圆尺寸还是量子点着色方案，都遇到了不小的阻碍。但硅基Micro LED小尺寸显示和超高的像素密度，几乎就是为了AR而生。

1.1.3.2 LBS

LBS（Laser Beam Scanning），利用MEMS微镜扫描，结合RGB激光束，通过对光束的反射扫描成像。

色域：激光（Laser）>LED>LCD>CRT

色彩还原度：

普通投影—30%

液晶显示（LCD）—60%

发光二极管（LED）—80%

激光（Laser）投影—92%

1.1.4 普及性

相对于大众来说，尺寸、重量和美观三点尤为重要，这就给显示方案提出了更高的要求。传统的LED加上分色镜的方案，可以实现的光机体积大概在6-12cc左右，上文提到的MOSAIC LED搭配DLP/LCOS的方案，可以实现的光机体积大概在3-5cc左右，而LBS的方案，通过集成的RGB激光器搭配MEMS，可以把光机体积做到1cc甚至更小，这项技术将促进消费者端AR设备的应用落地。

1.1.5 软件和算法思想

AR系统的一个关键指标是它们如何将增强功能与现实世界集成在一起。该软件必须获得独立于相机图像的真实世界坐标，这一过程称为图像配准，它使用不同低计算机视觉方法，主要与视频跟踪有关。许多增强现实的计算机视觉方法都继承自视觉里程计。

Augogram是用于创建一个AR计算机生成的图像。Augography是为AR制作造影图低科学和软件实践。通常，这些方法由两部分组成。第一步是检测摄像机图像中低兴趣点，基准标记或光流。此步骤可以使用特征检测方法，例如角点检测，斑点检测，边缘检测或阈值检测以及其他图像处理方法。第二阶段从第一阶段中获得低数据还原现实世界低坐标系。一些方法假定场景中存在具有已知几何形状（或基准标记）的对象。在某些情况下，应事先计算场景3D结构。如果场景的一部分未知，则同时定位和地图绘制（SLAM）可以绘制相对位置。如果没有有关场景几何的信息，则使用来自运动方法的结构，例如束调整。第二阶段使用的数学方法包括：射影（对极）几何，几何代数，带指数图的旋转表示，卡尔曼和粒子滤波，非线性优化，稳健统计。在增强现实中，在两种不同的跟踪模式（标记和无标记）之间进行了区分。标记是触发虚拟信息显示的视觉提示。可以使用具有某些不同几何形状的纸。摄像机通过识别图形中的特定点来识别几何形状。无标记跟踪，也称为即时跟踪，不使用标记。取而代之的是，用户优选在水平面内将对象在摄像机视图中定位。它使用移动设备中的传感器来准确检测显示环境，例如墙壁和交叉点的位置。增强现实标记语言（ARML）是开放地理空间联盟（OGC）内开发的一种数据标准，由可扩展标记语言（XML）语法组成，用于描述场景中虚拟对象的位置和外观以及ECMAScript绑定允许动态访问虚拟对象的属性。

1.1.6 设计环节

情景设计

情景设计侧重于最终用户的物理周围环境，空间性和可访问性。应注意最终用户可能遇到的物理情况。通过评估每种物理情况，可以避免潜在的安全隐患，并且可以进行更改以进一步改善最终用户的沉浸感。将必须为相关的物理场景定义用户旅程，并定义界面对每种场景的反应。

在增强现实系统中，至关重要的是还要考虑影响增强现实技术有效性的空间和周围元素，诸如灯光和声音之类的环境因素可能会阻止AR设备传感器检测到必要的数据，并破坏最终用户的沉浸感。

情景设计的另一个方面涉及系统功能的设计及其适应用户偏好的能力。虽然辅助功能工具在基本应用程序设计中很常见，但在设计限时提示（以防止意外操作），音频提示和总体参与时间时，应考虑一些注意事项。在某些情况下，应用程序的功能可能会妨碍用户的能力。例如，用于驾驶的应用程序应减少用户交互的数量，而应使用音频提示。

交互设计

以用户与最终产品的互动为中心，以改善整体用户体验和娱乐性。交互设计的目的是通过组织呈现的信息来避免疏远或混淆用户。由于用户交互依赖于用户的输入，因此必须使控件更易于理解和访问。提高AR应用程序的可用性的一项常用技术是在设备的触摸显示器中发现经常访问的区域，并设计应用程序以匹配这些控制区域。构建用户使用线路图和显示的信息流也很重要，这可以减少系统的总体认知负荷并极大地改善应用程序的学习曲线。

视觉设计

为了改善图形界面元素和用户交互，可以使用视觉提示来通知用户设计了哪些UI元素与之交互以及如何与它们交互。由于在AR应用程序中导航对于入门用户比较难以理解，因此视觉提示设计可以使交互看起来更加自然。

在某些使用2D设备作为交互式表面的AR应用程序中，2D控制环境无法在3D空间中很好地转换，从而使用户不愿探索周围的环境。为解决此问题，应运用视觉提示来协助和鼓励用户探索周围的环境。

建模、渲染效果图：

1.2 AR-HUD

目前大部分车载导航以及手机导航应用仍然以平面二维导航为主，使人们需要将其中的地图信息在使用移动导航应用时与显示环境映射。在行车过程中驾驶员观察导航界面信息、车载娱乐信息和中空面板信息等占用大量视觉资源的次任务被称为视觉次任务（Visual Sencondary task），这些视觉次任务会和驾驶主任务在视觉通道资源的使用上形成竞争，容易在长时间的使用过程中产生疲劳从而影响驾驶安全。现在的车载信息服务系统一方面干扰着驾驶用户必要的前方瞭望时间，另一方面是二维车载导航界面有很多使用体验上的局限性和不流畅存在。例如触屏的交互方式和界面设计让用户在多岔路执行操作和中途变更路线的时候受到了很大的困扰。GPS在高度上又有感知缺陷，使得缺乏实景导航的二维导航很容易让用户在高架道路与地面道路重叠的区位「上下不分」。这让抬头显示开始映入人们的眼帘。它是实现车载二维导航向实景导航转移的第一步。

HUD：全称Head Up Display，即抬头显示，把重要的行车信息投影到汽车风挡玻璃上，相当于平视显示系统，解决驾驶员行车时需低头看时速导航等驾驶信息的问题。

AR-HUD：AR技术与HUD相结合的一种新型车用HUD，与C-HUD和W-HUD相比，优势在于拥有更大的视场角和更远的成像距离，可以直接将显示效果叠加到显示路面，被认为是智能汽车概念的完美契合产品。

就当前市场来看，TFT与DLP已经走向量产，随着华为等厂商在LCOS方案上发力，这一技术路线也逐渐被行业重视起来。

1.2.1 实现原理

AR-HUD是将显示效果和内容叠加到显示路面，架构图如下：

技术实现主要依靠AR-HUD使用的增强投影面技术，通过数字微镜元件生成图像元素，成像幕通过反射镜最终射向挡风玻璃。增强过后的导航信息在驾驶员视野中与车道线已经进行了融合。

它投影产生两个不同距离的投影面，也被称为状态投影面或近投影，和增强投影面或远投影。近投影出现在驾驶者视线下前方的发动机罩末端，能够显示驾驶员所选的状态信息，如限速及即时车速和ACC当前设置。远投影由一个薄膜晶体管显示器产生，它用LED强背光产生显示内容。此成像单元紧凑地集成在AR-HUD模块的上部，将虚拟的信息放大显示。

接下来的光学路径类似于传统平视显示器的光学路径：成像幕上的图像通过第一个反射镜反射到第二个更大的镜子（AR-HUD镜）上，再从那里射向挡风玻璃。增强光学系统的出射面几乎达到DINA4尺寸，相当于直接视野内有几何宽度130cm和高度63cm的可增强视域。两个投影面的成像显示光密度可达到10000坎德拉/平方米以上，几乎在大多强烈的环境光条件下都能清晰显示。

1.2.2 组成部分

AR-HUD是一个光学投影系统，其影像源部分是技术核心，占据较大硬件成本，下文提到的成像方式便说的是影像源成像的技术方案，目前主要以反射型结构为主流。

1.2.3 显示技术的比较

1.2.4 显示技术的选择

1.2.4.1 LCOS

LCOS（Liquid Crystal on Silicon），翻译过来叫液晶附硅，也叫硅基液晶，是一种基于反射模式，尺寸比较小的矩阵液晶显示装置。这种矩阵采用CMOS技术在硅芯片上加工制作而成，属于新型的反射式Micro LCD投影技术。

分辨率上限很高，可以达到4K或者8K级别，体积更小适合于模块化布局。不像DLP的专利独占，供应商有Ominivision、奇景光电、南京芯视元、Syndiant。

缺点LCOS跟TFT一样光源是偏振光，意味着若在汽车上使用时带着偏光镜会出现问题。LCOS上限虽然较高，但下限也低，特别是使用LED为光源时，亮度达不到要求如果使用激光光源，成本必会大幅度增加，使用AR与AI相结合的技术方案，在场景模拟中解决了大部分现实场景的问题。

原理：

1.2.4.2 LBS-MEMS激光投影

LBS（Laser Beam Scanning），这种方案是将RGB三基色激光模组与微机电系统（Micro-Electro-MechanicalSystems，MEMS）结合的投影显示技术。从驱动的角度来说，MEMS微激光投影属于扫描式投影显示，应用微机电二维模型扫描振镜及RGB三基色激光，以激光扫描的方式成像，其输出分辨率取决于MEMS微镜的扫描频率。

设备结构图：

1.2.5 设计环节

1.2.5.1 AR-HUD的人因学设计准则

数据可视化

当使用图形而不是数字来展示速度和速度限制时，驾驶者更容易识别和理解，适当增加清晰的文字说明可以有效降低用户的学习成本，没有文字说明，驾驶者很难明白某些特定功能图标含义。

冗余信息的不同展现方式

HUD可以容纳仪表盘内容以外的其他信息，但这些信息应该用不同的图形展现，且设计时需注意充分利用车窗显示空间。

不展示无意义的内容

不同场景下，车窗显示中的内容可能不同，但都必须是优先级非常高的信息。

模糊状态下仍有辨识度

HUD的视觉设计必须保证具有最大的对比度和清晰度，理想的HUD即使模糊不清，但仍具有可读性。

警告信息的出现需要有过渡

警告信息要让驾驶员有一个接受过程，而不是非常突兀的显示出来。在HUD设计中提供一个过渡顺畅的动画也许是一个解决方案，比如随着车速的上升，提示信息从相对缓和的提醒慢慢过渡到严重的警告会更加友好。

1.2.5.2 AR-HUD的交互设计

从设计角度来说，AR-HUD包含复杂的视觉信息：亮度要素、图形要素、色彩要素、布局因素、信息量的拥挤程度等。

色彩设计

选择合适的颜色作为提示和警报，并结合文本和其他视觉元素对于设计一个良好的人机界面时非常关键。目前现有的几款AR-HUD的颜色方案中，蓝、绿色为主色居多，红、黄搭配作为辅助色，显示信息提示居多，当然，如果主机厂品牌识别色引入到AR-HUD的色系中也没有问题，主机厂可以定义AR-HUD的关键色系。

AR-HUD很容易受车外环境影响，外界环境的光线强度、天气状况等情况直接影响AR-HUD的交互设计。较高的亮度对比条件下，用户更倾向于选择不同的颜色组合，而在较低大亮度对比条件下，亮度对比要比色彩组合对视觉感知具有更重要的作用。

界面设计颜色设计搭配中，要充分考虑当前自然环境下的主色彩，并采用对比度较高的图形色块来展示关键信息，并保证图形色块不会与其他图形或文字重叠，更不能遮挡视线。

空间感知与动效设计

用户总是希望能够获取尽可能多的深度信息，来对交互界面产生与现实世界类似的真实感。视觉引导可以通过尺寸大小、色彩亮度的变化、空间透视以及位置方向上的组织自然地表现视觉元素之间的关系，塑造不同界面元素的视觉重量，来构建清晰的视觉层次。

在AR-HUD人机交互界面中，设计元素的明暗变化称为判断对象远近的依据。利用光与影的变化、空中透视产生立体效果，与环境三维视图实时贴合，在视觉形成有一定的立体感、三维感引导性动态视觉元素。

在动效设计中，所有的动态效果都为驾驶过程中的信息传达服务，要在驾驶安全的前提下设计，如果提示信息从相对缓和的提醒慢慢过渡到严重的警告会对驾驶员更加友好，平滑过渡的动效也更容易降低驾驶过程中的认知负荷和紧张状态。

信息布局设计

希克定律描述了用户做决定所需的时长，增加选择的数量将增加人们做出决策的反应时间，如果分布信息过多，注意力受到干扰，认知负担会加重。

驾驶员一次在视觉上可以感知5-9个项目，而这个数量也包含了视野内其他除了AR-HUD本身的视觉元素，因此在设计AR-HUD人机交互界面时，合理的界面信息的布局和数量对减少驾驶负荷起着重要作用，AR-HUD实时呈现的主要设计元素数量最好保持在1-3个以内，呈现最关键信息的设计元素或视觉元素组数量最好只有一个。

最快的获取关键驾驶车辆信息是AR-HUD界面布局的出发点，使用过程中不需要驾驶员思考就能获取信息是最佳的设计。

二级以上的层级关系不适宜在AR-HUD中呈现出来，页面的信息展示简约直接、信息主次分明，没有多余的信息展示，只有用户最关注的信息在界面上，这样才能提高驾驶者的信息获取效率，也做到了尽量不破坏环境与界面的融合，更适合AR-HUD的界面设计。

基于以上，一般AR-HUD的开发为合作，主机厂基于域控制器平台，AR Creator只做软件，AR-HUD算法供应商提供库或可执行文件给主机厂集成到域控制器中。系统由AR-Creator算法及HUD-Projector显示光机组成。AR-Creator负责融合导航、ADAS、车辆信号等信息，进行图像渲染及虚实重叠后，把显示模型输出给光机，光机负责解码、显示。

AI芯片可以解决AR的处理计算问题。根据应用端的不同，AI芯片可分为应用于云端和终端两大类。用于云端的AI芯片要求较高且芯片功耗大，为了提升性能还要求支持多块芯片组成一个计算阵列的结构。用于终端的AI芯片注重低功耗，要求保证高计算能效，可采用定点数运算和网络压缩的方法实现运算速度的加速，一般这类处理单元被称为神经网络处理单元（Neural- network Processing Unit），即NPU。

二、AI部分

AI部分主要承担机器人的设计、根据需求建模等工作：