목록전체 글 (35)
Altiora Petamus

abstract CNN은 일반적으로 고정된 리소스 예산으로 개발된 다음 더 많은 리소스를 사용할 수 있는 경우 더 나은 정확도를 위해 확장된다. 본 논문에서는 모델 확장을 체계적으로 연구하고 네트워크 깊이, 폭 및 해상도의 균형을 주의 깊게 조정하면 성능이 향상될 수 있음을 식별한다. 이러한 관찰을 기반으로 단순하면서도 매우 효과적인 복합 계수를 사용하여 깊이/폭/해상도 모든 차원을 균일하게 스케일링하는 새로운 스케일링 방법을 제안한다. 우리는 MobileNet 및 ResNet 확장에 이 방법의 효과를 입증한다. 더 나아가기 위해neural architecture search 을 사용하여 새로운 기본 네트워크를 설계하고 이를 확장하여 이전 ConvNet보다 훨씬 나은 정확성과 효율성을 달성하는 Effic..
대부분의 최신 다중 객체 추적(MOT) 시스템은 추적별 탐지를 따릅니다. 검출기에 이어 검출기를 트랙에 연결하는 방법으로 구성된 패러다임입니다. 움직임과 외관 특징을 결합하여 폐색 및 기타 과제에 대한 견고성을 제공하는 추적은 오랜 역사를 가지고 있지만, 일반적으로 이는 더 복잡하고 느린 구현의 절충과 함께 나타난다. 인기 있는 2D 추적 벤치마크에서 최근 성공한 것은 단일 프레임 공간 오프셋에 의존하는 최첨단 검출기 및 비교적 단순한 연결을 사용하여 최고 점수를 달성할 수 있다는 것을 보여준다. 특히 학습된 외관 기능을 활용하여 손실된 트랙을 재식별하는 데 도움이 되는 현대 방법을 능가한다. 본 논문에서는 DEFT, 또는 "추적을 위한 탐지 임베딩"이라는 효율적인 공동 탐지 및 추적 모델을 제안한다. ..
이 논문에서는 raw point cloud에서 3d 객체 감지를 위한 pointRcnn을 제안한다. 전체 프레임 워크는 상향식 3D proposal generation을 위한 1단계와 최종 감지 결과를 얻기 위한 2단계로 구성된다. 1단계 하위 네트워크는 이전 방법처럼 rgb 이미지 또는 투영 포인트 클라우드에서 bird’s view or voxels에 대한 poroposal을 생성 하는 대신 전체 장면의 포인트 클라우드를 전경 포인트와 배경으로 분할하여 상향식으로 포인트 클라우드에서 소수의 고품질 3d poroposal을 직접 생성한다. 2단계 하위 네트워크는 정확한 box 정제 및 신뢰 예측을 위해 1단계에서 학습한 각 지점의 global semantic features와 결합된 각 proposal의..
질문 답변, 기계 번역, 읽기 이해 및 요약과 같은 자연어 처리 작업은 일반적으로 작업별 데이터 세트에 대한 지도 학습으로 접근한다. 이 논문에서 언어 모델이 웹 텍스트라고 하는 수백만 개의 새로운 웹 페이지 데이터 세트에서 훈련될 때 명시적 supervision 없이 이러한 작업을 배우기 시작한다는 것을 보여준다. 문서에 질문을 더하여 조건화했을 때, 언어 모델에 의해 생성된 답변은 CoQA 데이터 세트에서 55F1에 도달하여 127,000개 이상의 training examples를 사용하지 않고 4개 기준 시스템 중 3개 시스템의 성능을 일치시키거나 초과한다. 언어 모델의 용량은 zero-shot task transfer 의 성공에 필수적이며 이를 늘리면 작업 전반에 걸쳐 로그 선형 방식으로 성능이 ..
depthwise convolutions에 기초하는 inverted bottleneck layers는 모바일 장치의 sota 객체 탐지 모델에서 주요 구성 요소였다.. 이 논문에서 regular 컨볼루션의 유용성을 다시 검토하여 광범위한 모바일 가속기에 대한 이 설계 패턴의 최적성을 연구한다. 이 연구는 regular 컨볼루션이 neural 아키텍처 search를 통해 네트워크에 전략적으로 배치되는 경우 가속기에서 객체 감지를 위한 지연 시간 정확도 절충을 강화하는 강력한 구성 요소라는 것을 발견했다. search space 에 regular컨볼루션을 통합하고 객체 감지를 위해 네트워크 아키텍처를 직접 최적화 함으로써 모바일 가속기에서 sota를 달성하는 객체 감지 모델인 mobiledets 제품군을 얻..
abstract 이 논문에서는 새롭게 제안된 panoptic segmentation 작업을 처리하기 위한 통합 panoptic segmentation network 를 제안한다. single backbone residual network 위에 두 하위 작업을 동시에 해결하는 변형 가능한 컨볼루션 기반 시맨틱 분할 헤드와 Mask R-CNN스타일 인스턴스 분할 헤드를 설계한다ㅏ. 더 중요한 것은 픽셀 단위 분류를 통해 파놉틱 segmentation을 해결하는 매개 변수가 없는 파놉틱 헤드를 도입한다. 먼저 이전 두헤드의 로짓을 활용하고 segmentation과 instance segmentation 간의 충돌을 더 잘 해결하는 데 도움이 되는 알려지지 않은 추가 클래스의 예측을 가능하게 하기 위해 표현을 ..

Greedy Algorithm은 문제를 해결하는 과정에서 그 순간순간마다 최적이라고 생각되는 결정을 하는 방식으로 진행하여 최종 해답에 도달하는 문제 해결 방식이다. - 전체 문제 해결에 대한 최적해가 부분 문제에 대한 최적해와 가까운 관계(유사한 답)를 유지하고 있다는 조건 필요 - 탐욕 선택 속성을 갖고 있는 최적 부분 구조의 문제 탐욕 선택 속성 : 앞의 선택이 이후 선택에 영향을 주지 않아야 한다. (선택을 다시 고려하지 않음) 최적 부분 구조 : 문제의 최적 해결 방법이 부분문제에 대한 최적 해결 방법으로 구성되는 경우 위의 조건을 만족하는 문제에 대해서 대부분의 경우 계싼 속도가 빠르며 그렇지 않은 문제에 대해서 근사한 해를 찾는 용도로 이용 예시) 1. 트리 구조에서의 합이..
라벨이 부착되지 않은 대형 코퍼스에서 훈련된 연속적인 단어 표현은 많은 자연어 처리 작업에 유용하다. 이러한 표현을 학습하는 인기 있는 모델은 각 단어에 고유한 벡터를 할당하여 단어의 형태학을 무시한다. 이것은 특히 큰 어휘와 많은 희귀한 단어를 가진 언어들에 대한 한계이다. 이 논문에서 skipgram model 을 기반으로 한 새로운 접근법을 제안하는데 여기서 각 단어는 문자는 bag of character n-grams으로 표현된다. 벡터 표현은 각 character n-grams 과 연관되어 있으며 , 단어는 이러한 표현의 합으로 표현된다. 이 방법은 빠르고 large corpora 에서 모델을 빠르게 학습할 수 있으며 훈련 데이터에 나타나지 않은 단어에 대한 단어 표현을 계산할 수 있다. 이 논..
이 논문에서는 단어 사용의 복잡한 특성(예: 구문 및 의미론) 과 언어적 맥락(예: 다의성 ) 을 모두 모델링하는 새로운 유형의 심층 상황별 단어 표현을 소개한다. 이논문의 아키텍처를 구성하는데 사용된 word vector는 큰 텍스트 말뭉치에 대해 사전 학습된 심층 양방향 언어 모델(bilm-deep bidirectional language model )의 내부 Function에 의해 학습된 형태이다. 이 논문에서 이러한 표현을 기존 모델에 쉽게 추가할 수 있으며 질문 답변, 텍스트 수반 및 정서 분석을 포함한 6가지 까다로운 NLP 문제에 걸쳐 sota를 크게 향상시킬수 있음을 보여준다. 우리는 또한 다운스트림 모델이 다른 유형의 semi-supervision signals 을 혼합할 수 있도록 사전..
심층 네트워크의 성공적인 훈련에는 수천개의 주석이 달린 훈련 샘플이 필요하다. 이 논문에서는 사용 가능한 주석이 달린 샘플을 보다 효율적으로 사용하기 위해 강력한 데이터 augmentation 사용에 의존하는 네트워크 와 훈련 전략을 제시한다. 아키텍처는 컨텍스트를 캡처하기 위한 수축 경로와 정확한 localization 을 가능하게 하는 대칭 확장 경로로 구성된다. 이 논문에서 이 네트워크가 적은 데이터 양으로도 end-to end train이 실행 가능하며 electron microscopic stacks에서 neuronal structures 의 분할을 위한 isbi challenge 에서 이전의 최상의 방법(a sliding-window convolutional network)을 능가한다는 것을 ..