빅데이터 다운로드

www.quora.com/Data/Where-can-I-find-large-datasets-open-to-the-public–링크의 아주 좋은 컬렉션 하 둡 데모를 실행 하려면 큰 데이터 (10GB 이상)가 필요 합니다. 아무도 내가 그것을 다운로드 할 수 있는 알려진. 알려 주시기 바랍니다. 데이터는 유비쿼터스-하지만 때로는 나무에 대 한 숲을 보기 어려울 수 있습니다. 다양 한 규모의 기업 들이 빅 데이터 분석의 혜택을 보기 위해 자신의 데이터를 수집 해야 한다고 생각 하지만,이는 사실이 아닙니다. 2 년 전에 나는 무료로 온라인으로 사용할 수 있는 빅 데이터의 33 소스를 나열 하는 기사를 썼다. 물론, 평생 전에 있었던 비즈니스 기술 용어로, 여기에 30 개의 새로운 항목이 있는 업데이트가 있습니다: 하버드 대학 데이터 과학 웹 사이트에서 추가 데이터 집합을 찾을 수 있습니다. 나는 그들의 LinkedIn 데이터 세트에 특히 관심이 있었다. KDNuggets 너 스도 훌륭한 자원 이며, 자세한 내용은이 링크를 확인 하십시오. 앱의 성능을 확인 하기 위해 GBs의 데이터가 필요 한가요? 가장 쉬운 방법은 웹에서 사용할 수 있는 무료 데이터 저장소에서 데이터 샘플을 다운로드 하는 것입니다. 그러나이 방법의 주요 단점은 데이터가 매우 적은 고유 한 콘텐츠를가지고 있으며 원하는 결과를 제공 하지 않을 수 있다는 것입니다.

다음은 70 + 웹 사이트는 무료로 큰 데이터 저장소를 얻을 수 있습니다. 위키백과: 데이터베이스는 관심 있는 사용자에 게 사용 가능한 모든 콘텐츠의 무료 사본을 제공 합니다. 데이터는 여러 언어로 제공 됩니다. 이미지와 함께 콘텐츠를 다운로드할 수 있습니다. 일반 크롤링은 모든 사용자가 액세스할 수 있는 웹의 공개 크롤링을 빌드하고 유지 관리 합니다. 데이터는 amazon s3bucket에 저장 되며 요청자는 액세스 하기 위해 약간의 비용을 지출 했을 수 있습니다. EDRM 파일 형식 데이터 세트는 200 파일 형식을 포함 하는 381 파일로 구성 됩니다. 아파치는 TLP 프로젝트를 확장 가능한 기계 학습 알고리즘을 만들 수 있습니다. Mahout에는 무료 및 유료 코 퍼스 데이터를 얻을 수 있는 많은 링크가 있습니다. EDRM Enron 이메일 데이터 세트 v2는 두 세트의 다운로드 가능한 압축 파일 (XML 및 PST)의 Enron 전자 메일 메시지 및 첨부 파일로 구성 됩니다.

ClueWeb09 데이터 집합은 정보 검색 및 관련 휴먼 언어 기술에 대 한 연구를 지원 하기 위해 만들어졌습니다. 그것은 1 월과 2 월 2009에서 수집 된 10 개 언어에 대 한 10억 웹 페이지에 대 한 구성. 데이터 집합은 TREC 회의의 여러 트랙에서 사용 됩니다. DMOZ-오픈 디렉토리 프로젝트는 웹의 가장 큰, 가장 포괄적 인 인간 편집 디렉토리입니다. 그것은 다른 범주의 Url의 컬렉션이 있습니다. Dmoz 인터넷 검색 엔진에 대 한 하나의 주요 소스입니다. theinfo.org-이것은 큰 데이터 세트와 그들을 사랑 하는 사람들을 위한 사이트입니다: 그들을 수집 하는 스 크레이 퍼와 크롤러, 그들을 처리 하는 학자와 괴짜, 그들을 시각화 디자이너와 예술가. 팁과 요령을 교환 하 고, 도구를 개발 및 공유 하 고, 특정 프로젝트를 통합 하기 시작할 수 있는 곳입니다.

프로젝트 구텐베르크 제공 이상 36000 무료 전자책 귀하의 PC에 다운로드, 킨 들, 안 드 로이드, 아이폰 Os 또는 기타 휴대용 장치.

Det här inlägget postades i Okategoriserade. Bokmärk permalänken.